[发明专利]一种基于遮蔽语言模型的金融领域多重关系抽取方法有效
申请号: | 202010394859.0 | 申请日: | 2020-05-09 |
公开(公告)号: | CN111597812B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 周露 | 申请(专利权)人: | 北京合众鼎成科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N20/00 |
代理公司: | 北京知元同创知识产权代理事务所(普通合伙) 11535 | 代理人: | 刘元霞 |
地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遮蔽 语言 模型 金融 领域 多重 关系 抽取 方法 | ||
本发明公开了一种基于遮蔽语言模型的金融领域多重关系抽取方法,首先,利用遮蔽语言模型对输入的数据集编码为句向量,其次,利用基于概率图思想的融合模型从句向量中抽取主语、谓语和宾语,根据所述主语向量和取宾语向量抽取其对应的谓语向量,最后提出主语、谓语和宾语,并将其映射为对应的字符串。本发明基于概率图模型的联合学习结构,引用概率图模型的数学思想,不仅能同时抽取非结构化数据中的主语、宾语以及其对应关系,还能解决关系抽取中存在的三元组各个元素存在重叠的复杂问题,极大的提升了关系抽取领域非结构化数据的处理能力。
技术领域
本发明涉及一种基于遮蔽语言模型的金融领域多重关系抽取方法。
背景技术
现有的关系抽取方法包括有监督的实体关系抽取、半监督的实体关系抽取、无监督的实体关系抽取及开放式实体关系抽取。
一、实体关系抽取主要包括以下方法:
(1)基于规则的方法需要根据待处理语料涉及领域的不同,通过人工或机器学习的方法总结归纳出相应的规则或模板,然后采用模板匹配的方法进行实体关系抽取;
(2)基于特征向量的方法是一种简单、有效的实体关系抽取方法,其主要思想是从关系句子实例的上下文中提取有用信息(包括词法信息、语法信息)作为特征,构造特征向量,通过计算特征向量的相似度来训练实体关系抽取模型。该方法的关键在于寻找类间有区分度的特征,形成多维加权特征向量,然后采用合适的分类器进行分类。
(3)基于特征向量的实体关系抽取方法能够取得较好的效果,但无法充分利用实体对上下文的结构信息。因此发明了多种基于核函数的实体关系抽取方法,包括词序列核函数方法、依存树核函数方法、最短路径依存树核函数方法、卷积树核函数方法以及它们的组合核函数方法。部分研究还基于核函数的方法与基于特征向量的方法结合来进行实体关系抽取,已有实验结果表明基于核函数和基于特征的实体关系抽取方法可以相互补充。
(4)基于图模型的关系抽取算法,需要先独立学习两个局部分类器,实体和关系之间的依赖通过贝叶斯信念网实现。效果优于独立关系分类器。
二、半监督的实体关系抽取主要包括以下方法:
(1)基于Bootstrapping的半监督实体关系抽取方法从包含关系种子的上下文中总结出实体关系序列模式,然后利用关系序列模式去发现更多的关系种子实例,形成新的关系种子集合。此方法存在一个关键的问题,如何对获取的模式进行过滤,以免将过多的噪声引入迭代过程中而导致“语义漂移”问题。为了解决该问题,提出了协同学习(co-learning)方法,该方法利用两个条件独立的特征集来提供不同且互补的信息,从而减少标注错误。
(2)基于图的半监督方法,每一个instance用一个节点表示,边表示节点的相似度。任何节点的标签信息通过加权边缘迭代地传播到附近节点,最后在传播过程收敛时推断出未示例的标签。有研究将数据集中的每个实体对表示为图中的节点,并且还将特征向量与其相关联。特征向量包含表征关系实例的各种特征。这种方法效果比SVM、boosting算法效果更好。
三、无监督的实体关系抽取方法无需依赖实体关系标注语料,其实现包括关系实例聚类和关系类型词选择两个过程。首先根据实体对出现的上下文将相似度高的实体对聚为一类,然后选择具有代表性的词语来标记这种关系。例如,有研究尝试对实体关系上下文的特征进行加权,并采用改进的K均值算法进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京合众鼎成科技有限公司,未经北京合众鼎成科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010394859.0/2.html,转载请声明来源钻瓜专利网。