
【论文泛读30】基于多层次注意CNN的关系分类
发布日期:2021-05-07 00:55:08
浏览次数:15
分类:技术文章
本文共 1012 字,大约阅读时间需要 3 分钟。
贴一下汇总贴:
论文链接:
一、摘要
在众多试图从文本中挖掘结构化事实的信息抽取系统中,关系分类是一个至关重要的组成部分。我们提出了一种新的卷积神经网络结构来完成这项任务,它依靠两个层次的注意力来更好地识别异构环境中的模式。这种体系结构允许从特定于任务的标记数据中进行端到端的学习,而不需要外部知识,如显式的依赖结构。实验表明,我们的模型优于以前最先进的方法,包括那些依赖于更丰富形式的先验知识的方法。
二、结论
我们提出了一个CNN架构,它有一个新的目标和一种新的注意力机制,应用于两个不同的层次。我们的结果表明,这种简单但有效的模型能够超越以往的工作,依赖于丰富的先验知识的形式,结构化模型和自然语言处理资源。我们希望这种架构也能超越关系分类的特定任务,我们打算在未来的工作中探索这一点。
三、模型结构
这篇文章主要提出了卷积神经网络模型与注意力机制(Attention)结合的关系抽取方法,其中attention机制加了两层,一层是输入层的,一层是池化层的,模型网络结构如下。

- Input Representation: 这里也是使用了词向量和位置向量拼接的方式,其中位置向量与上面模型一样,都是当前词到两个实体的相对距离转换为向量表示,为了获取更加更加丰富的信息,对拼接后的特征采用滑动窗口。
- Input Attention Mechanism: 这是文中的第一个attention层,主要目的是计算句子中的词语与实体之间的相关性权重,这部分的结构图如下图,如图中所示,建立了与实体对应的两个对角矩阵,对角矩阵中的各个元素是该位置的词语与实体的相关程度,具体是通过该词语实体之间的向量内积而来。对于两个对角矩阵有三种处理方式,分别是对应位置平均,拼接以及求对应位置向量之间的距离,结果乘上输入向量,作为输入层的输出,此处便考虑了实体对词的相关权重。
- Secondary Attention: 经过上面的处理之后,经过卷积神经网络,此后未经过常规的最大池化层,而是采用第二个注意力机制(attention-Based Pooling),作者认为利用这个方法能够获取有意义的n-gram信息,文中构建了一个相关性特征矩阵,其目的是捕捉卷积层的输出与实体关系矩阵之间的密切联系。将该相关性特征矩阵经过softmax转为混合层的注意力机制特征矩阵,并用该矩阵与卷积层的输出相乘,然后和常规的最大池化一样获取每一维度的最大值。
发表评论
最新留言
做的很好,不错不错
[***.243.131.199]2025年03月22日 02时49分33秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
KeyError: “[‘xxxx‘] not found in axis“
2019-03-04
【Python数据分析与处理 实训05】--- 探索虚拟姓名数据(数据合并)
2019-03-04
java编程常见类型题 --- 面向对象编程、程序逻辑(金字塔)、多线程同步
2019-03-04
【Android】 模拟器上运行程序报错
2019-03-04
【sklearn练习】KMeans ---- iris(鸢尾花)数据集聚类评估
2019-03-04
【HTML5 CSS】display和visibility的区别
2019-03-04
java线程(4)——使用多个线程操作同一个对象(买票的例子)
2019-03-04
前端HTML中表单action属性的作用
2019-03-04
java线程(17)——Lock锁,三个线程抢票加上lock锁后变成三个线程排队买票
2019-03-04
java线程(19)——信号灯法,电视播放,生产者与消费者的案例
2019-03-04
java线程(20)——Runnable线程池
2019-03-04
计算机网络ip知识点
2019-03-04
react(3)——导入了正确的包,但是运行不出来,原因是因为导入包的顺序有问题
2019-03-04
react(10)——三大属性state,props,refs,总结其特点
2019-03-04
react(20)——使用函数的柯里化实现获取表单的数据
2019-03-04
react(28)——react脚手架public目录下文件讲解
2019-03-04
Visual Studio Code——安装react插件,提高代码速率
2019-03-04