Python深度学习：基于TensorFlow最新章节_吴茂贵著

5.3　贝叶斯网络

贝叶斯网络分为静态贝叶斯网络和动态贝叶斯网络，其中动态贝叶斯网络（Dynamic Bayesian Networks，DBN）应用非常广泛，可用于处理随时间变化的动态系统中的推断和预测等问题。而隐马尔可夫模型（Hidden Markov Model，HMM）是动态贝叶斯网络的典型代表，它被广泛应用于语音识别、自动分词与词性标注和统计机器翻译等领域。限于篇幅考虑，这节我们主要介绍隐马尔可夫模型。

5.3.1　隐马尔可夫模型简介

本节我们首先介绍隐马尔可夫模型的结构，然后介绍利用它可以解决哪些问题，最后通过一个简单实例说明HMM的结构及问题求解。

如图5-4所示，隐马尔可夫模型分为上下两行，上行为马尔可夫转移过程，下行则为输出。

图5-4　隐马尔可夫模型

图中，→表示状态转移；↓表示观察值输出。

如果用变量来表示，可分为两组：一组是状态变量{z ₁ ，z ₂ ，...，z _n }，其中z _i ∈Z表示第i时刻的系统状态，通常状态变量是隐藏的，不可被观察的（不可被观察这个概念，这么说你可能还不清楚，没关系，后面有例子会介绍），因此状态变量又称为隐变量；另一组变量为观察变量{x ₁ ，x ₂ ，...，x _n }，其中x _i ∈X表示第i时刻的观察值。在隐马尔可夫模型中，系统通常在N个状态之间转换，所以状态变量z _i 的取值范围Z通常有N个可能取值的离散空间{s ₁ ，s ₂ ，...，s _N }。观察变量x _i 的取值可以是离散的，也可以是连续的。这里我们以离散为例，连续类似，假设其取值范围为{o ₁ ，o ₂ ，...，o _M }。

图5-4中的箭头不管是横向还是纵向，都是说明变量间的一种依赖关系。横向箭头表示t时刻的状态z _t 仅依赖于其前一个时刻t-1的状态z _t-1 ，与t-1之前的任何状态无关；纵向箭头表示观察值的取值仅依赖于当前的状态变量，即x _t 由z _t 确定，与其他状态变量或观察值无关。这就是所谓的马尔可夫链。这种变量间的关系，可以用图5-5表示。

图5-5　隐马尔可夫模型变量间的关系

基于这种依赖关系，z _t 依赖于z _t-1 （或称为z _t 的父节点），x _t 依赖于z _t （或称为x _t 的父节点），根据式（5.1），不难得到所有变量的联合概率分布为：

5.3.2　隐马尔可夫模型三要素

隐马尔可夫模型的三要素，即确定它的三组参数，初始状态项链π、状态转移概率矩阵A和观测概率矩阵B。π和A决定状态序列，B决定观测序列。因此A、B和π就是隐马尔可夫模型的三要素，而θ={π，A，B}表示控制隐马尔可夫模型参数的集合。

以下我们根据式（5.5），看如何表示隐马尔可夫模型的三组参数：

1.初始状态项链π

模型在初始时刻各状态出现的概率，记为π={π ₁ ，π ₂ ，...，π _N }，其中：

2.状态转移概率矩阵A

模型在各个状态间转换的概率，记为矩阵A=[a _ij ] _N _×N ，其中：

3.观测概率矩阵B

模型根据当前状态获得各个观测值的概率，记为矩阵B=[b _ij ] _N×M ，其中：

假设已知隐马尔可夫模型的三要素，即θ={π，A，B}，我们该如何得到观测序列{x ₁ ，x ₂ ，...，x _n }呢？一般可以通过以下步骤实现：

1）根据初始状态概率π，获取初始状态z ₁ ；

2）根据状态z _t 和输出观测概率矩阵B选择观测变量取值x _t ；

3）根据状态z _t 和状态转移矩阵A，选择确定z _t+1 ；

4）若t<n，令t=t+1，并返回第2步，否则停止。

以上我们介绍了隐马尔可夫模型的结构、它的三要素及根据三要素产生观测序列的一般步骤。但我们还不清楚隐马尔可夫模型是如何解决一些实际问题的，如语言识别、机器翻译、参数学习等。下一节我们将介绍这方面的内容。

5.3.3　隐马尔可夫模型三个基本问题

隐马尔可夫模型在实际应用中非常广泛，它可以解决的问题很多，一般我们可以归结为三个基本问题。即评估问题、解码问题、学习问题。

1.评估问题

给定模型θ={π，A，B}，如何计算其产生观测序列X={x ₁ ，x ₂ ，...，x _n }的概率p（x|θ）？

这个问题在实际应用中非常重要，如许多任务需要根据以往的观测序列{x ₁ ，x ₂ ，...，x _n-1 }来推测当前时刻最有可能的观测值x _n 。这个问题可以转换为求概率p（x|θ）。

2.解码问题

给定模型θ={π，A，B}和观测序列X={x ₁ ，x ₂ ，...，x _n }，如何找到与之最匹配的隐含状态序列Z={z ₁ ，z ₂ ，...，z _n }呢？这个问题可以运用在语音识别中。在语音识别任务中，观测值为语言信号，隐藏状态为文字，目标就是根据观测信号来推断最有可能的隐藏状态序列，即文字。

3.学习问题

给定观测序列X={x ₁ ，x ₂ ，...，x _n }，如何调整模型参数θ={π，A，B}，使得该序列出现的概率p（x|θ）最大？这个问题就是如何根据训练样本学得最优模型参数。

对这三个问题，各有对应的解决方法，如对评估问题可以采用前向算法，对解码问题可以采用维特比（Viterbi）算法，对学习问题可以采用Baum-Welch算法。

看到这里，或许你对隐马尔可夫模型还不是很清楚，如观测序列如何产生，隐含状态是不可观测是什么意思等。没关系，接下来我们通过一个具体实例帮助你进一步理解。

5.3.4　隐马尔可夫模型简单实例

下面我们用一个简单的例子来阐述隐马尔可夫模型的主要内容和核心思想。

假设我们手里有三个不同的骰子。第一个骰子是我们平常见到的骰子（称这个骰子为D6），6个面，每个面（1，2，3，4，5，6）出现的概率是1/6。第二个骰子是个四面体（称这个骰子为D4），每个面（1，2，3，4）出现的概率是1/4。第三个骰子有八个面（称这个骰子为D8），每个面（1，2，3，4，5，6，7，8）出现的概率是1/8。这三个骰子具体信息如图5-6所示。

图5-6　三个不同骰子的所含的数字

假设我们开始下列步骤：

1）从三个骰子里挑一个（挑到每一个骰子的概率都是1/3）；

2）掷骰子，得到一个数字（这个数字为1、2、3、4、5、6、7、8中的一个）。

不停重复上述过程，我们会得到一串数字，每个数字都是1、2、3、4、5、6、7、8中的一个。例如我们可能得到这么一串数字（假设掷骰子10次）：1 6 3 5 2 7 3 5 2 4。

这串数字叫作可见状态链或观测序列。但是在隐马尔可夫模型中，我们不仅有这么一串可见状态链，还有一串隐含状态链。在这个例子里，这串隐含状态链就是你用的骰子的序列。比如，隐含状态链有可能是：D6 D8 D8 D6 D4 D8 D6 D6 D4 D8。

一般来说，HMM中说到的马尔可夫链其实是指隐含状态链，因为隐含状态（骰子）之间存在转换概率（transition probability），如图5-7所示。在我们这个例子里，D6的下一个状态是D4、D6、D8的概率都是。D4、D8的下一个状态是D4、D6、D8的转换概率也都是。这样设定是为了便于说明，但是我们其实是可以随意设定转换概率的。比如，我们可以这样定义，D6后面不能接D4，D6后面是D6的概率是0.9，是D8的概率是0.1等。这样就是一个新的HMM。

同样的，尽管可见状态之间没有转换概率，但是隐含状态和可见状态之间有一个概率叫作输出概率（emission probability）。就我们的例子来说，六面骰（D6）产生1的输出概率是。产生2、3、4、5、6的概率也都是。我们同样可以对输出概率进行其他定义。比如，我有一个被赌场动过手脚的六面骰子，掷出来是1的概率更大，是，掷出来是2、3、4、5、6的概率是。

图5-7　HMM示意图

其实对于HMM来说，如果提前知道所有隐含状态之间的转换概率和所有隐含状态到所有可见状态之间的输出概率，做模拟是相当容易的。但是应用HMM模型的时候，往往是缺失了一部分信息的，有时候你知道骰子有几种，每种骰子是什么，但是不知道掷出来的骰子序列；有时候你只是看到了很多次掷骰子的结果，剩下的什么都不知道。如果应用算法去估计这些缺失的信息，就成了一个很重要的问题，这些问题可归结为我们上面提到的三个基本问题。这三个基本问题落实到这个具体实例就是：

1.评估问题

知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道掷出这个结果的概率。看似这个问题意义不大，因为你掷出来的结果很多时候都对应了一个比较大的概率。问这个问题的目的呢，其实是检测观察到的结果和已知的模型是否吻合。如果很多次结果都对应了比较小的概率，那么就说明我们已知的模型很有可能是错的，有人偷偷把我们的骰子换掉了。

2.解码问题

知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道每次掷出来的都是哪种骰子（隐含状态链）。

3.学习问题

知道骰子有几种（隐含状态数量），不知道每种骰子是什么（转换概率），观测到很多次掷骰子的结果（可见状态链），我想反推出每种骰子是什么（转换概率）。这个问题很重要，因为这是最常见的情况。很多时候我们只有可见结果，不知道HMM模型里的参数，所以需要从可见结果估计出这些参数，这是建模的一个必要步骤。

5.3 贝叶斯网络

5.3.1 隐马尔可夫模型简介

5.3.2 隐马尔可夫模型三要素

1.初始状态项链π

2.状态转移概率矩阵A

3.观测概率矩阵B

5.3.3 隐马尔可夫模型三个基本问题

1.评估问题

2.解码问题

3.学习问题

5.3.4 隐马尔可夫模型简单实例

1.评估问题

2.解码问题

3.学习问题

5.3　贝叶斯网络

5.3.1　隐马尔可夫模型简介

5.3.2　隐马尔可夫模型三要素

5.3.3　隐马尔可夫模型三个基本问题

5.3.4　隐马尔可夫模型简单实例