发布日期：2021-05-07 00:51:00 浏览次数：21 分类：原创文章

本文共 22722 字，大约阅读时间需要 75 分钟。

此文章主要是结合哔站shuhuai008大佬的白板推导视频：

全部笔记的汇总贴：

一、概述

（一）背景

概率图分为有向（Bayesian Network）和无向（Markov Random Field，Markov Network），加上“时间”，则是动态模型（Dynamic Model），包括：HMM； Kalman Filter；Particle Filter。其中，隐马尔可夫模型（HMM）时离散的，另外两种是连续的。

$Dynamic\; Model\left \{\begin{matrix} 离散\rightarrow\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \;\;\;HMM\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 连续\rightarrow \left\{\begin{matrix} 线性\;\;\;\rightarrow Kalman\; Filter\\ 非线性\rightarrow Particle\; Filter \end{matrix}\right. \end{matrix}\right.$

（二）HMM的概率图模型

HMM的概率图模型

$t$ 代表时刻，阴影部分为观测变量序列 $O$ ，非阴影部分为状态变量序列 $I$

隐马尔可夫模型的参数用 $\lambda$ 表达： $\lambda =(\pi ,A,B)$ ；其中 $\pi$ 为初始概率分布，是一个多维向量； $A$ 为状态转移矩阵； $B$ 为发射矩阵：

$\pi =(\pi _{1},\pi _{2},\cdots ,\pi _{N}),\sum_{i=1}^{N}\pi _{i}=1\\ A=[a_{ij}],a_{ij}=P(i_{t+1}=q_{j}|i_{t}=q_{i})\\ B=[b_{j}(k)],b_{j}(k)=P(o_{t}=v_{k}|i_{t}=q_{i})$

观测变量取值的集合为 $V$ ，状态变量取值的集合为 $Q$ ：

$O=o_{1},o_{2},\cdots ,o_{t},\cdots\rightarrow V=\left \{v_{1},v_{2},\cdots ,v_{m}\right \}\\ I=i_{1},i_{2},\cdots ,i_{t},\cdots\rightarrow Q=\left \{q_{1},q_{2},\cdots ,q_{n}\right \}$

（三）两个假设

1、齐次马尔可夫假设

任意时刻的状态只依赖于前一时刻的状态，即：

$P(i_{t+1}|i_{t},i_{t-1},\cdots ,i_{1},o_{t},o_{t-1},\cdots ,o_{1})=P(i_{t+1}|i_{t})$

2、观察独立假设

任意时刻的观测只依赖于当前时刻的状态，即：

$P(o_{t}|i_{t},i_{t-1},\cdots ,i_{1},o_{t-1},\cdots ,o_{1})=P(o_{t}|i_{t})$

（四）三个问题

1、Evaluation

已知模型的参数 $\lambda =(\pi ,A,B)$ ，计算某个观测序列发生的概率，即求：

$P(O|\lambda )\rightarrow前向后向$

2、Learning

已知观测序列，使用EM算法求参数 $\lambda$ ：

$\lambda _{MLE}=\underset{\lambda }{argmax}\; P(O|\lambda )$

3、Decoding

已知观测序列 $O$ 和参数 $\lambda$ ，求使概率 $P (I ∣ O)$ 最大的状态序列 $I$ ，即：

$\hat{I}=\underset{I}{argmax}\; P(I|O)$

$\left\{\begin{matrix} 预测\rightarrow P(i_{(t+1)}|o_{1},o_{2},\cdots ,o_{t})\;\\滤波\rightarrow P(i_{t}|o_{1},o_{2},\cdots ,o_{t})\;\;\;\; \;\;\end{matrix}\right.$

二、Evaluation问题

在隐马尔可夫模型，Evaluation问题是在已知参数 $\lambda$ 的情况下，求解 $P(O|\lambda )$ ：

$P(O|\lambda )=\sum _{I}P(I,O|\lambda )=\sum _{I}P(O|I,\lambda )P(I|\lambda )$

对于 $P(I|\lambda )$ ，有：

$P(I|\lambda )=P(i_{1},i_{2},\cdots ,i_{T}|\lambda )=P(i_{T}|i_{1},i_{2},\cdots ,i_{T-1},\lambda )\cdot P(i_{1},i_{2},\cdots ,i_{T-1}|\lambda )$

根据齐次Markov假设：

$P(i_{t}|i_{1},i_{2},\cdots ,i_{t-1},\lambda )=P(i_{t}|i_{t-1})=a_{i_{t-1}i_{t}}$

所以：

$P(I|\lambda )=\pi (i_{1})\prod_{t=2}^{T}a_{i_{t-1}i_{t}}$

对于上式中的 $P(O|I,\lambda )$ ，有：

$P(O|I,\lambda )=\prod_{i=1}^{T}b_{i_{t}}(o_{t})$

因此可得：

$P(O|\lambda )=\sum _{I}\pi (i_{1})\prod_{t=2}^{T}a_{i_{t-1}i_{t}}\prod_{i=1}^{T}b_{i_{t}}(o_{t})\\=\underset{O(N^{T})}{\underbrace{\sum _{i_{1}}\sum _{i_{2}}\cdots \sum _{i_{T}}}}\pi (i_{1})\prod_{t=2}^{T}a_{i_{t-1}i_{t}}\prod_{i=1}^{T}b_{i_{t}}(o_{t})$

（一）前向算法

显然，复杂度太高，为 $O(N^{T})$ ，所以我们记：

$\alpha _{t}(i)=P(o_{1},o_{2},\cdots ,o_{t},i_{t}=q_{i}|\lambda )$

所以：

$\alpha _{T}(i)=P(O,i_{T}=q_{i}|\lambda )$

可以得到：

$P(O|\lambda )=\sum_{i=1}^{N}P(O,i_{t}=q_{i}|\lambda )=\sum_{i=1}^{N}\alpha _{T}(i)$

对于 $\alpha _{t+1}(j)$ ：

$\alpha _{t+1}(j)=P(o_{1},\cdots ,o_{t},o_{t+1},i_{t+1}=q_{j}|\lambda )\\ =\sum_{i=1}^{N}P(o_{1},\cdots ,o_{t},o_{t+1},i_{t+1}=q_{j},i_{t}=q_{i}|\lambda )\\ =\sum_{i=1}^{N}{\color{Red}{P(o_{t+1}|o_{1},\cdots ,o_{t},i_{t}=q_{i},i_{t+1}=q_{j},\lambda )}}P(o_{1},\cdots ,o_{t},i_{t}=q_{i},i_{t+1}=q_{j}|\lambda )\\ =\sum_{i=1}^{N}{\color{Red}{P(o_{t+1}|i_{t+1}=q_{j},\lambda )}}P(o_{1},\cdots ,o_{t},i_{t}=q_{i},i_{t+1}=q_{j}|\lambda )\\ =\sum_{i=1}^{N}{\color{Red}{b_{j}(o_{t+1})}}{\color{Blue}{P(i_{t+1}=q_{j}|o_{1},\cdots ,o_{t},i_{t}=q_{i},\lambda )}}{\color{DarkOrange}{P(o_{1},\cdots ,o_{t},i_{t}=q_{i}|\lambda )}}\\ =\sum_{i=1}^{N}{\color{Red}{b_{j}(o_{t+1})}}{\color{Blue}{P(i_{t+1}=q_{j}|i_{t}=q_{i},\lambda )}}{\color{Orange}{\alpha _{t}(i)}}\\ =\sum_{i=1}^{N}{\color{Red}{b_{j}(o_{t+1})}}{\color{Blue}{a_{ij}}}{\color{Orange}{\alpha _{t}(i)}}$

这个算法叫做前向算法，其复杂度为 $O(TN^{2})$ ，利用两个假设得到了一个递推公式。

（二）后向算法

记：

$\beta _{t}(i)=P(o_{t+1},\cdots ,o_{T}|i_{t}=q_{i},\lambda )\\\vdots\\\beta _{1}(i)=P(o_{2},\cdots ,o_{T}|i_{t}=q_{i},\lambda )$

所以：

$P(O|\lambda )=P(o_{1},\cdots ,o_{T}|\lambda )\\ =\sum_{i=1}^{N}P(o_{1},\cdots ,o_{T},i_{1}=q_{i}|\lambda )\\ =\sum_{i=1}^{N}P(o_{1},\cdots ,o_{T}|i_{1}=q_{i},\lambda )\underset{\pi _{i}}{\underbrace{P(i_{1}=q_{i}|\lambda )}}\\ =\sum_{i=1}^{N}P(o_{1}|o_{2},\cdots ,o_{T},i_{1}=q_{i},\lambda )\underset{\beta _{1}(i)}{\underbrace{P(o_{2},\cdots ,o_{T}|i_{1}=q_{i},\lambda )}}\pi _{i}\\ =\sum_{i=1}^{N}P(o_{1}|i_{1}=q_{i},\lambda )\beta _{1}(i)\pi _{i}\\ =\sum_{i=1}^{N}b_{i}(o_{1})\beta _{1}(i)\pi _{i}$

因此如果我们能找到 $\beta _{t}(i)$ 到 $\beta _{t+1}(j)$ 的递推式，就可以由通过递推得到 $\beta _{1}(i)$ ，从而计算 $P(O|\lambda )$ ：

$\beta _{t}(i)=P(o_{t+1},\cdots ,o_{T}|i_{t}=q_{i},\lambda )\\ =\sum_{j=1}^{N}P(o_{t+1},\cdots ,o_{T},i_{t+1}=q_{j}|i_{t}=q_{i},\lambda )\\ =\sum_{j=1}^{N}{\color{Red}{P(o_{t+1},\cdots ,o_{T}|i_{t+1}=q_{j},i_{t}=q_{i},\lambda)}}{\color{Blue}{P(i_{t+1}=q_{j}|i_{t}=q_{i},\lambda )}}\\ =\sum_{j=1}^{N}{\color{Red}{P(o_{t+1},\cdots ,o_{T}|i_{t+1}=q_{j},\lambda)}}{\color{Blue}{a_{ij}}}\\ =\sum_{j=1}^{N}{\color{Orange}{P(o_{t+1}|o_{t+2},\cdots ,o_{T},i_{t+1}=q_{j},\lambda)}}{\color{Orchid}{P(o_{t+2},\cdots ,o_{T}|i_{t+1}=q_{j},\lambda)}}{\color{Blue}{a_{ij}}}\\ =\sum_{j=1}^{N}{\color{Orange}{P(o_{t+1}|i_{t+1}=q_{j},\lambda)}}{\color{Orchid}{\beta _{t+1}(j)}}{\color{Blue}{a_{ij}}}\\ =\sum_{j=1}^{N}{\color{Orange}{b_{j}(o_{t+1})}}{\color{Blue}{a_{ij}}}{\color{Orchid}{\beta _{t+1}(j)}}$

上式中红色的一步变换利用了概率图模型中有向图head to tail结构的性质，这种结构满足：

$A\rightarrow B\rightarrow C\\head\; to\; tail$
$A\perp C|B\Leftrightarrow 若B被观测，则路径被阻塞。$

这是后向算法，其复杂度也为 $O(TN^{2})$ 。

三、Learning问题

Learning问题的目标是求解求参数 $\lambda$ ，使用的是Baum Welch算法（也就是EM算法，在EM算法之前）。

EM算法的迭代公式如下：

$\theta ^{(t+1)}=\underset{\theta }{argmax}\int _{Z}log\; P(X,Z|\theta )\cdot P(Z|X,\theta ^{(t)})\mathrm{d}z$

在隐马尔可夫模型中，隐变量 $Z$ 即为 $I$ ，观测变量 $X$ 即为 $O$ ，参数 $\theta$ 即为 $\lambda$ ，因此隐马尔可夫模型的EM算法迭代公式写为：

$\lambda ^{(t+1)}=\underset{\lambda}{argmax}\sum _{I}log\; P(O,I|\lambda )\cdot P(I|O,\lambda ^{(t)})$

其中 $P(I|O,\lambda ^{(t)})=\frac{P(O,I|\lambda ^{(t)})}{P(O|\lambda ^{(t)})}$ ，由于在Learning问题中，观测序列 $O$ 是已知的，所以 $P(O|\lambda ^{(t)})$ 是个常数，迭代公式可以写为：

$\lambda ^{(t+1)}=\underset{\lambda}{argmax}\sum _{I}log\; P(O,I|\lambda )\cdot P(O,I|\lambda ^{(t)})$

根据之前的计算对 $Q$ 函数进行整理：

$Q(\lambda ,\lambda ^{(t)})=\sum _{I}log\; P(O,I|\lambda )\cdot P(O,I|\lambda ^{(t)})\\ =\sum _{I}[log\pi (i_{1})\prod_{t=2}^{T}a_{i_{t-1}i_{t}}\prod_{i=1}^{T}b_{i_{t}}(o_{t})\cdot P(O,I|\lambda ^{(t)})]\\ =\sum _{I}[(log\pi (i_{1})+\sum_{t=2}^{T}log\; a_{i_{t-1}i_{t}}+\sum_{i=1}^{T}log\; b_{i_{t}}(o_{t}))\cdot P(O,I|\lambda ^{(t)})]$

接下来以求解 $\pi ^{(t+1)}$ 为例展示迭代的过程：

$\pi ^{(t+1)}=\underset{\pi }{argmax}\; Q(\lambda ,\lambda ^{(t)})\\ =\underset{\pi }{argmax}\sum _{I}log\; \pi (i_{1})\cdot P(O,I|\lambda ^{(t)})\\ =\underset{\pi }{argmax}\sum _{i_{1}}\sum _{i_{2}}\cdots \sum _{i_{T}}log\; \pi (i_{1})\cdot P(O,i_{1},i_{2},\cdots ,i_{T}|\lambda ^{(t)})\\ =\underset{\pi }{argmax}\sum _{i_{1}}log\; \pi (i_{1})\cdot P(O,i_{1}|\lambda ^{(t)})\\ =\underset{\pi }{argmax}\sum _{i=1}^{N}log\; \pi _{i}\cdot P(O,i_{1}=q_{i}|\lambda ^{(t)})$

结合对 $\pi$ 的约束 $\sum_{i=1}^{N}\pi _{i}=1$ ，构建拉格朗日函数：

$L(\pi ,\eta )=\sum _{i=1}^{N}log\; \pi _{i}\cdot P(O,i_{1}=q_{i}|\lambda ^{(t)})+\eta (\sum_{i=1}^{N}\pi _{i}-1)$

然后对 $\pi _{i}$ 求导：

$\frac{\partial L}{\partial \pi _{i}}=\frac{1}{\pi _{i}}P(O,i_{1}=q_{i}|\lambda ^{(t)})+\eta =0\\ \Rightarrow P(O,i_{1}=q_{i}|\lambda ^{(t)})+\pi _{i}\eta =0\\ \Rightarrow \sum_{i=1}^{N}[P(O,i_{1}=q_{i}|\lambda ^{(t)})+\pi _{i}\eta ]=0\\ \Rightarrow P(O|\lambda ^{(t)})+\eta =0\\ \Rightarrow \eta =-P(O|\lambda ^{(t)})$

代入 $P(O,i_{1}=q_{i}|\lambda ^{(t)})+\pi _{i}\eta =0$ 中，得到：

$\pi ^{(t+1)}_{i}=\frac{P(O,i_{1}=q_{i}|\lambda ^{(t)})}{P(O|\lambda ^{(t)})}$

以同样的方法对 $A^{(t+1)}$ $和B^{(t+1)}$ 求解，然后不断迭代直至收敛，最终求得模型的参数。

四、Decoding问题

Decoding问题是指已知观测序列 $O$ 和参数 $\lambda$ ，求使概率 $P (I ∣ O)$ 最大的状态序列 $I$ ，即：

$\hat{I}=\underset{I}{argmax}\; P(I|O)$

我们采用动态规划的思想来求解这个问题，首先定义：

$\delta _{t}(i)={\color{Red}{\underset{i_{1},i_{2},\cdots ,i_{t-1}}{max}}}P(o_{1},o_{2},\cdots ,o_{t},i_{1},i_{2},\cdots ,i_{t-1},i_{t}=q_{i})$

由于参数 $\lambda$ 是已知的，为简便起见省略了 $\lambda$ ，接下来我们需要找到 $\delta _{t+1}(j)$ 和 $\delta _{t}(i)$ 之间的递推式：

$\delta _{t+1}(j)=\underset{i_{1},i_{2},\cdots ,i_{t}}{max}P(o_{1},o_{2},\cdots ,o_{t+1},i_{1},i_{2},\cdots ,i_{t},i_{t+1}=q_{j})\\ ={\color{Red}{\underset{1\leq i\leq N}{max}}}\delta _{t}(i)a_{ij}b_{j}(o_{t+1})$

由此我们就找到了动态规划的递推式，同时我们还需要记录路径，因此定义：

$\psi _{t+1}(j)={\color{Red}{\underset{1\leq i\leq N}{argmax}}}\; \delta _{t}(i)a_{ij}$

因此：

$max\; P(I|O)=max\; \delta _{t}(i)$

使 $P (I ∣ O)$ 最大的 $\delta _{t}(i)$ 指 $t$ 时刻 $i_t=q_i$ ，然后由 $\psi _{t}(i)$ 得到 $t - 1$ 时刻 $i_{t-1}$ 的取值，然后继续得到前一时刻的 $i_{t-2}$ 时刻的取值，最终得到整个序列 $I$ 。

五、总结

HMM 是⼀种动态模型（Dynamic Model），是由混合树形模型和时序结合起来的⼀种模型（类似 GMM + Time）。对于类似 HMM 的这种状态空间模型（State Space Model），普遍的除了学习任务（采⽤ EM ）外，还有推断任务。
使用 $X$ 代表观测序列，Z代表隐变量序列，\lambda代表参数。这一类模型需要求解的问题的大体框架为：

$\left\{\begin{matrix} Learning:\lambda _{MLE}=\underset{\lambda }{argmax}\; P(X|\lambda )\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\color{Blue}{【Baum\; Welch\; Algorithm(EM)】}}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \\ Inference\left\{\begin{matrix} Decoding:Z=\underset{Z}{argmax}\; P(Z|X,\lambda )\;\;\;\;\;\;\;\;\;{\color{Blue}{【Viterbi\; Algorithm】\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;}} \\ Prob\; of\; evidence:P(X|\lambda )\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\color{Blue}{【Forward\; Algorithm、Backward\; Algorithm】}}\; \\ Filtering:P(z_{t}|x_{1},x_{2},\cdots ,x_{t},\lambda )\;\;\;\;\;\;\;\;\;\;\;\;{\color{Blue}{【Forward\; Algorithm】}}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \\ Smoothing:P(z_{t}|x_{1},x_{2},\cdots ,x_{T},\lambda )\;\;\;\;\;\;\;\;\;{\color{Blue}{【Forward-Backward\; Algorithm】}}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \\ Prediction:\begin{Bmatrix} P(z_{t+1}|x_{1},x_{2},\cdots ,x_{t},\lambda )\\ P(x_{t+1}|x_{1},x_{2},\cdots ,x_{t},\lambda ) \end{Bmatrix}{\color{Blue}{【Forward\; Algorithm】\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;}} \end{matrix}\right. \end{matrix}\right.$

接下来对Filtering&Smoothing&Prediction问题做一些说明，下面使用 $x_{1:t}$ 代表 $x_{1},x_{2},\cdots ,x_{t}$ ，同时也省略已知参数 $\lambda$ 。

（一）Filtering问题

$P(z_{t}|x_{1:t})=\frac{P(x_{1:t},z_{t})}{P(x_{1:t})}=\frac {P(x_{1:t},z_{t})}{\sum _{z_{t}}P(x_{1:t},z_{t})} \propto P(x_{1:t},z_{t})=\alpha _{t}$

因此使用Forward Algorithm来解决Filtering问题。

Filtering问题通常出现在online learning中，当新进入一个数据，可以计算概率 $P(z_{t}|x_{1:t})$ 。

（二）Smoothing问题

$P(z_{t}|x_{1:T})=\frac{P(x_{1:T},z_{t})}{P(x_{1:T})}=\frac{P(x_{1:T},z_{t})}{\sum _{z_{t}}P(x_{1:T},z_{t})}$

其中：

$P(x_{1:T},z_{t})=P(x_{1:t},x_{t+1:T},z_{t})\\ ={\color{Red}{P(x_{t+1:T}|x_{1:t},z_{t})}}\cdot \underset{\alpha _{t}}{\underbrace{P(x_{1:t},z_{t})}}\\ =\underset{\beta _{t}}{\underbrace{ {\color{Red}{P(x_{t+1:T}|z_{t})}}}}\cdot \alpha _{t}\\ =\alpha _{t}\beta _{t}$

这里我们定义 $A$ 集合为 $x_{1:t}$ ， $B$ 集合为 $x_{t+1:T}$ ， $C$ 集合为 $z_t$ ，通过 $D$ 划分的方法我们可以知道 $x_{A}\perp x_{B}|x_{C}$ ，即 $x_{t+1:T}$ 与 $x_{1:t}$ 是相互独立的。

由上面的式子我们可以得出：

$P(z_{t}|x_{1:T})\propto P(x_{1:T},z_{t})=\alpha _{t}\beta _{t}$

因此解决Smoothing问题的算法叫做Forward-Backward Algorithm。

Smoothing问题通常出现在offline learning中，当知道全部观测数据时，来计算概率 $P(z_{t}|x_{1:T})$ 。

（三）Prediction问题

$P(z_{t+1}|x_{1:t})=\sum _{z_{t}}P(z_{t+1},z_{t}|x_{1:t})\\ =\sum _{z_{t}}P(z_{t+1}|z_{t},x_{1:t})\cdot P(z_{t}|x_{1:t})\\ =\sum _{z_{t}}P(z_{t+1}|z_{t})\cdot \underset{Filtering}{\underbrace{P(z_{t}|x_{1:t})}}$

上式应用了齐次马尔可夫假设将预测 $P(z_{t+1}|x_{1:t})$ 的问题进行了转化，使用转移概率和求解Filtering问题的方法就可以计算这个概率。

$P(x_{t+1}|x_{1:t})=\sum _{z_{t+1}}P(x_{t+1},z_{t+1}|x_{1:t})\\ =\sum _{z_{t+1}}P(x_{t+1}|z_{t+1},x_{1:t})\cdot P(z_{t+1}|x_{1:t})\\ =\sum _{z_{t+1}}P(x_{t+1}|z_{t+1})\cdot \underset{Precition}{\underbrace{P(z_{t+1}|x_{1:t})}}$

上式应用了观测独立假设将预测 $P(x_{t+1}|x_{1:t})$ 的问题进行了转化，使用发射概率和求解上一个Prediction问题的方法就可以计算这个概率。

下一章传送门：

参考文章

上一篇：MySQL子查询操作实例详解

下一篇：MySQL子查询嵌套查询

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！