BILSTM-CRF-4

发布日期：2021-06-29 04:25:39 浏览次数：2 分类：技术文章

本文共 10364 字，大约阅读时间需要 34 分钟。

BILSTM-CRF

声明：本系列转载自createmomo大神的博客https://createmomo.github.io，并在其中加入一些新的内容，如有侵权请及时联系。

2.6 推断新句子的标签

在前面的部分中，我们学习了BiLSTM-CRF模型的结构和CRF损失函数的细节。您可以通过各种开源框架（Keras，Chainer，TensorFlow等）实现您自己的BiLSTM-CRF模型。最重要的事情之一是在这些框架上自动计算模型的反向传播，因此您不需要自己实现反向传播来训练模型（即计算梯度和更新参数）。此外，一些框架已经实现了CRF层，因此只需添加一行代码就可以非常轻松地将CRF层与您自己的模型相结合。

在本节中，我们将探讨在模型准备好时如何在测试期间推断出句子的标签。

第1步：BiLSTM-CRF模型的emission和transition score

我们有一个3个字的句子： $x=[w_0, w_1, w_2]$ 。此外，假设我们已经获得了BiLSTM模型的emission score和CRF层的transition score：

	$l_1$	$l_2$
$w_0$	$w_{01}$	$w_{02}$
$w_1$	$w_{11}$	$w_{12}$
$w_2$	$w_{21}$	$w_{22}$

$x_{ij}$ 表示 $w_i$ 的分数被标记为 $l_j$ 。

	$l_1$	$l_2$
$l_1$	$t_{11}$	$t_{12}$
$l_2$	$t_{21}$	$t_{22}$

$t_{ij}$ 是标签 $i$ 转移到标签 $j$ 的分数

第2步：开始推理

如果您熟悉Viterbi算法，这部分对您来说很容易。但如果你不是，请不要担心。与前一节类似，我将逐步解释算法。我们将从句子的左侧到右侧运行推理算法，如下所示：

w_0

w_0

–>

w_1

w_0

–>

w_1

–>

w_2

您将看到两个变量： $o b s$ 和 $p r e v i o u s$ 。 $p r e v i o u s$ 存储前面步骤的最终结果。 $o b s$ 表示来自当前单词的信息。

$alpha_0$ 是成绩最好的历史， $alpha_1$ 是其对应的索引。这两个变量的细节将在它们出现时进行解释。请看下图：您可以将这两个变量视为狗在探索森林时沿路行驶的“标记”，这些“标记”将有助于帮助他找到回家的路。

图2.2：狗需要找到最好的路径来获得他最喜欢的骨头玩具并按照他来的方式回家

$w_0$ ：

obs=[x_{01}, x_{02}]

p r e v i o u s = N o n e

目前，我们正在观察第一个词 $w_0$ 。到目前为止， $w_0$ 的最佳标签很简单。例如，如果 $obs=[x_{01}=0.2, x_{02}=0.8]$ ，显然， $w_0$ 的最佳标签应该是 $l_2$ ，由于标签之间只有一个单词且没有转换，因此不使用转换分数。

$w_0$ --> $w_1$ ：

obs=[x_{11, x_{12}}]

previous=[x_{01}, x_{02}]

1).扩展 $p r e v i o u s$ ：

previous=\left(^{previous[0] \quad previous[0]}_{previous[1] \quad previous[1]}\right)=\left(^{x_{01} \quad x_{01}}_{x_{02} \quad x_{02}}\right)

2).扩展 $o b s$

$obs=\left(^{obs[0] \quad obs[1]}_{obs[0] \quad obs[1]}\right)=\left(^{x_{11} \quad x_{12}}_{x_{11} \quad x_{12}}\right)$

3).计算 $p r e v i o u s$ ， $o b s$ ， $t r a n s i t i o n$ 分数和

$scores=\left(^{x_{01} \quad x_{01}}_{x_{02} \quad x_{02}}\right) + \left(^{x_{11} \quad x_{12}}_{x_{11} \quad x_{12}}\right) + \left(^{t_{11} \quad t_{12}}_{t_{21} \quad t_{22}}\right)$

然后：

$scores=\left(^{x_{01}+x_{11}+t_{11} \quad x_{01}+x_{12}+t_{12}}_{x_{02}+x_{11}+t{21} \quad x_{02}+x_{12}+t_{22}}\right)$

当我们计算所有路径的总分时，您可能会发现这与前面的部分没有区别，并对此产生疑惑。请耐心细致，您很快就会看到差异。

更改下一次迭代的

p r e v i o u s

值：

$previous=[\max (scores[00], scores[10]),\max (scores[01],scores[11])]$

例如，如果你的分数是：

$scores=\left(^{x_{01}+x_{11}+t_{11} \quad x_{01}+x_{12}+t_{12}}_{x_{02}+x_{11}+t{21} \quad x_{02}+x_{12}+t_{22}}\right)=\left( ^{0.2 \quad 0.3}_{0.5 \quad 0.4}\right)$

我们下一次迭代的 $p r e v i o u s$ 将是：

$previous=[\max (scores[00], scores[10]),\max (scores[01],scores[11])] = [0.5, 0.4]$

$p r e v i o u s$ 是什么意思？ $p r e v i o u s$ 列表存储当前单词对每个标签的最大分数。

[示例开始]

例如：

在我们的语料库中，我们总共有2个标签，

label1(l_1)

和

label2(l_2)

，这两个标签的索引分别为0和1。

$p r e v i o u s [0]$ 是以第0个标签 $l_1$ 结束的路径的最大分数，类似的 $p r e v i o u s [1]$ 是以 $l_2$ 结束的路径的分数。在每次迭代过程中，我们仅仅保留每个标签对应的最优路径的信息( $previous=[\max(scores[00], scores[10]),\max( scores[01], scores[11])]$ )。分数较少的路径信息将被丢弃。

[示例结束]

回到我们的主要任务：

同时，我们还有两个变量来存储历史信息（分数和索引），即

alpha_0

和

alpha_1

。

本次迭代，我们将添加最好的分数到

alpha_0

。为方便起见，每个标签的最高分都有下划线。

$scores=\left(^{x_{01}+x_{11}+t_{11} \quad x_{01}+x_{12}+t_{12}}_{\underline{x_{02}+x_{11}+t{21}} \quad \underline{x_{02}+x_{12}+t_{22}}}\right)=\left( ^{0.2 \quad 0.3}_{\underline{0.5} \quad \underline{0.4}}\right)$

$alpha_0=[(scores[10],scores[11])]=[(0.5,0.4)]$

另外，相应的列的索引被保存在 $alpha_1$ ：

$alpha_1=[(ColumnIndex(scores[10]),ColumnIndex(scores[11]))]=[(1,1)]$

其中， $l_1$ 的索引是0， $l_2$ 的索引是1，所以 $1, 1)=(l_2, l_2)$ ，这意味着对于当前的单词 $w_i$ 和标签 $l^(i)$ ：

1)=(l_2, l_2)=(当路径是\underline{l^{(i-1)}=l_2} -&gt; \underline{l^{(i)}=l_1}时我们可以得到最大分数0.5, 当路径是\underline{l^{(i-1)}=l_2} -&gt; \underline{l^{(i)}=l_2}时我们可以得到最大分数0.4)

$l^{(i-1)}$ 是前一个单词 $w_{i-1}$ 对应的标签

$w_0$ --> $w_1$ --> $w_2$ ：

obs=[x_{21}, x_{22}]

p r e v i o u s = [0.5, 0.4]

1).扩展 $p r e v i o u s$ ：

$previous=\left(^{previous[0] \quad previous[0]}_{previous[1] \quad previous[1]}\right)=\left(^{0.5 \quad 0.5}_{0.4 \quad 0.4}\right)$

2).扩展 $o b s$

$obs=\left(^{obs[0] \quad obs[1]}_{obs[0] \quad obs[1]}\right)=\left(^{x_{21} \quad x_{22}}_{x_{21} \quad x_{22}}\right)$

3).计算 $p r e v i o u s$ ， $o b s$ ， $t r a n s i t i o n$ 分数和

$scores=\left(^{0.5 \quad 0.5}_{0.4 \quad 0.4}\right) +\left(^{x_{21} \quad x_{22}}_{x_{21} \quad x_{22}}\right)+ \left(^{t_{11} \quad t_{12}}_{t_{21} \quad t_{22}}\right)$

然后：

$scores=\left(^{0.5+x_{21}+t_{11} \quad 0.5+x_{22}+t_{12}}_{0.4+x_{21}+t{21} \quad 0.4+x_{22}+t_{22}}\right)$

更改下一次迭代的 $p r e v i o u s$ 值：

$previous=[\max (scores[00], scores[10]),\max (scores[01],scores[11])]$

比方说，我们在这次迭代中得到的分数是：

$scores=\left( ^{0.6 \quad \underline{0.9}}_{\underline{0.8} \quad 0.7}\right)$

因此，我们可以获得最新的 $p r e v i o u s$ ：

$p r e v i o u s = [0.8, 0.9]$

实际上， $p r e v i o u s p [0]$ 和 $p r e v i o u s [1]$ 之间的较大的一个是最好的预测结果的分数。与此同时，每个标签的最大分数和索引将被添加到 $alpha_0$ 和 $alpha_1$ 中：

$alpha_0=[(0.5,0.4),\underline{(scores[10],scores[01])}]$

\quad \quad \quad=[(0.5,0.4),\underline{(0.8,0.9)}]

alpha_1=[(1,1),\underline{(1,0)}]

第3步：找出得分最高的最佳路径

在该步骤中，

p r e v i o u s p [0]

和

p r e v i o u s [1]

将被将被用于找到最高的分数。我们将从最后一个到第一个元素去查找最优路线。

$w_1$ --> $w_2$ ：

首先，检查

alpha_0

和

alpha_1

最后一个元素:(0.8, 0.9)和(1, 0)。0.9是最高分数，其对应的位置是1，因此对应的标签是

l_2

。继续从

alpha_1

中对应位置获得

w_1

对应的标签索引，即(1, 0)[1]=0。索引0表示

w_1

对应的标签是

l_1

。因此我们可以得到

w_1 -&gt; w_2

的最佳路径是

l_1 -&gt; l_2

。

$w_0$ --> $w_1$ ：

第二，我们继续向前移动并获得 $alpha_1$ 的上一个元素：(1, 1)。从上面可知 $w_1$ 的标签是 $l_1$ (标签对应的索引为0)，因此我们可以得到 $w_0$ 对应的标签索引为(1,1)[0]=1。所以我们可以得到 $w_0 -> w_1$ 的最佳路径是 $l_2 -> l_1$ 。

最终可以得到 $w_0 -> w_1 -> w_2$ 的最佳路径是 $l_2 -> l_1 -> l_2$

参考

[1] Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K. and Dyer, C., 2016. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360.

转载地址：https://blog.csdn.net/zhang2010hao/article/details/85289875 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：BiLSTM-CRF-3

下一篇：BILSTM-CRF-2

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

BILSTM-CRF

2.6 推断新句子的标签

参考

发表评论

最新留言

关于作者

推荐文章