[发明专利]一种融入动态词向量的关系抽取系统在审
| 申请号: | 202011387516.8 | 申请日: | 2019-01-25 |
| 公开(公告)号: | CN112487203A | 公开(公告)日: | 2021-03-12 |
| 发明(设计)人: | 张力文;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06N3/04;G06F40/30 |
| 代理公司: | 北京中誉威圣知识产权代理有限公司 11279 | 代理人: | 蒋常雪 |
| 地址: | 100131 北京市石景*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 融入 动态 向量 关系 抽取 系统 | ||
本发明提供了一种融入动态词向量技术的实体关系抽取方法及系统。本系统利用远程监督方法,将已有的知识库对应到丰富的非结构化数据中,以便生成大量的训练数据,从而缓解人工标注语料不足的问题,该系统可以降低对标注数据的依赖性,从而有效地减少人力成本。为了尽可能地获取实体间的特征信息,本模型的基础架构采用分段卷积神经网络;并融入动态词向量技术进一步抽取例句的语义信息。
技术领域
本发明涉及信息抽取领域,具体而言,是挖掘实体与实体之间的语义关系。
背景技术
信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息,主要任务有实体抽取、关系抽取、事件抽取。其中,关系抽取(Relation Extraction,RE)研究的主要内容是从文本内容中挖掘出实体与实体之间的语义关系,利用关系抽取技术挖掘出实体之间深层的关系结构,具有深刻的理论意义和巨大的研究价值,它也是优化搜索引擎、建立知识图谱、开发智能问答系统的基础工作。
实践证明,有监督的学习方法能够抽取更有效的特征,其准确率和召回率都比较高,但它们严重依赖词性标注、句法解析等自然语言处理标注提供分类特征。而自然语言处理标注工具往往存在大量错误,这些错误将会在关系抽取系统中不断传播放大,最终影响关系抽取的效果。随着深度学习的迅猛发展,神经网络模型能够自动学习句子特征,无需依赖复杂的特征工程。许多研究工作倾向于使用神经网络模型去解决关系抽取问题。
使用神经网络模型主要面临两个问题:(1)没有足够的标注数据,训练数据集对实体及实体关系的覆盖率较低,在通用性方面表现不佳。并且人工标注训练数据需要花费大量的时间和精力;(2)由于词语用法在语义和语法上是复杂,多变的,现有模型使用预先训练的词向量是“静态”的,无法随着语言环境的改变而改变。从而其表征能力有一定的局限性。
发明内容
有鉴于此,本发明的目的在于提供一种融入动态词向量的关系抽取模型及系统,利用远程监督方法,通过将知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。并引用注意力机制,消除远程监督产生的噪音数据的影响。最后使用动态词向量技术,提高关系抽取的准确率。进而至少在一定程度上克服由于相关技术的限制和语料数目不足而导致的一个或者多个问题。
为了实现上述目的,根据本发明的一个方面,本发明提供如下技术方案:一种融入动态词向量的关系抽取方法,包括:
部分一:获取动态词向量:首先在大文本语料库上预训练一个深度双向语言模型(LM),然后根据该模型的内部状态学习到的函数作为词向量;这种词向量不是一成不变的,而是根据上下文而随时变化。该部分使用已有的ELMO模型或BERT模型,作为词向量的生成模型。
ELMO模型,以双向语言模型为基础,用各层之间的线性组合来表示词向量的一种方式。
BERT模型,用Transformer的双向编码器表示。与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建。
部分二:采用引入注意力机制的分段神经网络模型进行训练,将获取的所述词向量分别计算所述词向量对应的权重,拼接后得到句向量表示。相同的实体对在不同的语句中,可能表示不同的关系。因此,在使用远程监督时,按实体对抽取语句,无法避免地引入噪音数据。该部分就是为了极大限度的减少噪音对关系抽取的影响。
更为具体地:所述分段神经网络模型的输入为包含实体对的训练语句;且所述训练语句被所述实体对分为三段,并将其映射为相应的三段词向量;使用卷积神经网络,分别对所述三段词向量进行特征提取,得到三段特征向量,分别计算所述三段特征向量的权重与关系向量;具体采用如下公式计算所述三段特征向量的权重和关系向量:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011387516.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双释放片及其制备方法
- 下一篇:一种无创呼吸机面罩





