[发明专利]基于多特征信息增强的文本实体关系抽取方法有效
申请号: | 202011026497.6 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112163425B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 孟佳娜;董宇;赵丹丹 | 申请(专利权)人: | 大连民族大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F18/213;G06F18/25;G06N3/0464;G06N3/045;G06N3/0442;G06N3/047;G06N3/048 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 信息 增强 文本 实体 关系 抽取 方法 | ||
基于多特征信息增强的文本实体关系抽取方法,属于信息抽取领域,为了解决深度学习的模型虽然能够自动提取文本的语义特征,但提取的特征可解释性不强,句子级特征向量未能表示实体自身的语义信息的问题,将文本映射为词特征,并与外部特征结合作为特征信息嵌入模型,通过卷积神经网络获得更高层的局部特征,通过Bi‑LSTM获得特征之间的依赖关系和上下文特征信息,通过注意力机制关注重要的语义关系特征,效果是提取的特征可解释性强,句子级特征向量能表示实体自身的语义信息。
技术领域
本发明属于信息抽取领域,涉及一种基于多特征信息增强的文本实体关系抽取方法。
背景技术
实体关系抽取是信息抽取任务中重要的一部分,被广泛用在信息检索、问答系统中。国内在这方面的研究起步比较晚,但近年来,中国科学院、北京大学、清华大学等科研院所在推动其研究发展上做出了重要的贡献。实体关系抽取在实现方法上,根据不同的模型,传统的方法主要可以分为基于特征的方法和基于核函数的方法,而随着深度学习的发展,实体关系抽取也慢慢从传统的方法过度到了深度学习的方法,也取得了相较于传统方法更加好的效果。在深度学习的方法中,主要采用基于CNN、RNN、LSTM及其改进的模型网络结构等方法,因其高精度获得了学术界的广泛关注。
基于特征的方法,通过重点关注并提取文本中的重要特征来刻画实体间的关系,如实体类型、依存树和词块特征等,将其转化成向量的形式,利用机器学习相关算法(如支持向量机、最大熵、条件随机等)对关系特征进行抽取。该方法依赖特征的设计和自然语言处理各个工具(如命名实体识别、词性标注、短语提取等)的准确率,因此,这样的设计存在耗时和容易造成错误累积的问题,进而影响最终的抽取性能,且这些特征已经覆盖了大多数可利用的语言现象,在性能方面也很难进一步得到提升。
基于核函数的方法,充分利用句子的特定组织形式,可以表示为字符串序列或树结构,不需要显式定义复杂地语义特征,通过设计核函数来计算对象在高维空间中的相似度,以获取对象的结构化特征,并以此构建分类模型。Zelenko等人通过浅层句法分析进行树核函数的设计;Culotta等人通过依存句法捕获对象间的相似性来构造树核函数;Bunescu等人将句法最短路径与树核函数进行了融合;Zhang等人利用卷积树核句法特征的效果进行了探究。这类方法依赖核函数的设计,同样受到自然语言处理工具的计算损失的影响,因此通用性不强。
基于深度学习的方法中,CNN的基本结构包含两层,分别为特征提取层和特征映射层,特征提取层的每个神经元的输入与前一层的局部接受域相连,进行局部特征的提取。特征映射层网络的每个计算层由多个特征映射组成,每个特征映射表示为一个平面,平面上的所有神经元权值相等,减少了网络模型中自由参数的数量。RNN进行实体关系抽取的方法由Socher等人在2012年首次提出的,论文中提出为分析树中每个节点分配一个向量和一个矩阵,其中向量是为了捕获特征组成部分的固有含义,而矩阵是为了捕捉当前特征如何改变相邻单词或短语的含义。由于梯度消失和梯度爆炸的问题,传统的RNN在实际中很难处理长期依赖的长序列特征,随着时间步的增长,后面的时间节点对前面的时间节点感知力也随之下降,而利用LSTM网络进行实体关系的抽取,通过三个门控操作减缓了这些问题,能够从语料中学习到实体特征与语义信息的长期依赖关系。
深度学习的模型虽然能够自动提取文本的语义特征,但提取的特征可解释性不强,句子级特征向量未能表示实体自身的语义信息。深度学习中单个模型只能表示某一层面的特征,对于更多层面的特征表示不足。
发明内容
为了解决深度学习的模型虽然能够自动提取文本的语义特征,但提取的特征可解释性不强,句子级特征向量未能表示实体自身的语义信息的问题,本发明提出一种基于多特征信息增强的文本实体关系抽取方法,包括:
S1.将文本映射为词特征,并与外部特征结合作为特征信息嵌入模型:通过one-hot对每个单词形成V*1的向量,整个词汇表则是V*V的矩阵,根据索引映射,将每个单词映射到d维空间,每个单词被映射成一个向量,所有单词的矩阵是V*d,每个单词与矩阵中的某列一一对应,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011026497.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置