购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2.2 统计学模型HMM

除基于统计思维的N-gram模型外,HMM也是自然语言处理中的重要模型之一。HMM的基本思想是假设观测序列由一个不可观测的状态序列生成,且状态序列的转移遵循马尔可夫链。HMM的公式如下:

其中, P Q | I )是状态序列 Q 在条件 I 下的概率, P O | Q )是观测序列 O 在状态序列 Q 下的概率。累加求和的目的是求出所有可能的状态序列 Q 下观测序列 O 的概率。HMM的参数包括状态转移概率矩阵、观测概率矩阵和初始状态概率向量。HMM的训练过程通常使用Baum-Welch算法,解码过程通常使用Viterbi算法。

以上公式和算法可能较为抽象,可从实际应用角度出发了解HMM的使用方法。HMM的典型应用场景有两类。

1.天气预测

设想你是一位古代的天气预报员,无法直接得知明天的天气是晴天、多云还是下雨。然而,你能够通过观察自然现象,如鸟类的行为、风向以及云的形态,来推测明天的天气状况。在此情境中,明天的天气(晴天、多云、下雨)属于隐藏状态,因为无法直接获取;而鸟类的行为、风向和云的形态则属于观测状态,因为这些是可以直接观测到的。HMM能够帮助你根据观测到的自然现象(观测状态)预测明天的天气(隐藏状态)。HMM通过学习历史数据,理解不同天气状态之间的转换概率(例如,晴天后转为多云的概率)以及特定天气下观测到特定自然现象的概率(如晴天时看到特定鸟类行为的概率)。因此,即使无法直接观测到明天的天气,你也可以根据今天的观测做出最有可能的预测。

2.智能推荐

当使用智能手机的键盘应用时,开始输入“我想要吃”,键盘会自动为你推荐可能的词语,如“苹果”“比萨”或“冰淇淋”。在此情境中,键盘应用使用了HMM来预测你接下来最有可能输入的词语。在此示例中,你实际打算输入的词语序列(如“我想要吃比萨”)属于隐藏状态,因为键盘应用无法直接获取你的想法;而你实际键入的词语(“我想要吃”)则为观测状态,这是应用能够直接获取的信息。HMM通过对大量文本数据进行分析,学习词语之间的转换概率(例如“我想要吃”后面接“比萨”的概率)以及在给定序列下下一个词出现的概率。因此,即使应用不知晓你的确切意图,也能够基于已输入内容及学习到的语言模型,为你推荐最合适的词语。

N-gram模型与HMM均为处理序列数据的有效工具,广泛应用于NLP及其他领域。虽然两者存在一定的相似性,但在理论基础和应用方面有显著区别。HMM侧重于状态转移概率及在给定状态下观测结果的概率,通过分析观测数据推断无法直接观测的状态序列,常用于天气预测和文本输入等应用场景。

HMM具有以下特性。

❑ 基于状态与转移。HMM是基于状态的概率模型,其中状态序列是隐藏的,无法直接观测。模型通过观测到的序列(如单词或音素)推断这些隐藏状态。

❑ HMM有状态。HMM定义了隐藏状态及这些状态之间的转移概率。每个状态与一组可能的观测值相关联,这些观测值由观测概率分布定义。

❑ 复杂性与强大的建模能力。HMM能够对观测序列背后的复杂过程进行建模。尽管其训练和推断较N-gram更加复杂,但它能够捕捉更深层次的序列依赖关系。

HMM与N-gram在理论上的主要区别如下:

❑ 观测与状态。N-gram模型直接作用于观测序列,而HMM区分了观测序列与隐藏状态序列。

❑ 依赖关系。N-gram模型的依赖关系较为简单,局限于固定长度( N -1),而HMM的状态转移能够捕捉更长时间的依赖关系,且模型结构允许更灵活的序列依赖建模。

❑ 应用范围。由于这些差异,HMM通常用于较复杂的任务,如语音识别或生物信息学中的序列对齐,在这些任务中,模型需要推断观测数据背后的潜在结构。N-gram模型则更适用于直接基于序列数据进行预测的任务,如文本生成或简单的语言模型。 N68YYD3x/CRMexs1dkA14IbmRZdXf7cqlmiSvI+II/9B7ULUf6ROg2ih+SihPBxv

点击中间区域
呼出菜单
上一章
目录
下一章
×