[发明专利]一种面向金融领域知识图谱构建实体关系抽取方法及系统在审

专利信息
申请号: 202211022748.2 申请日: 2022-08-25
公开(公告)号: CN115391487A 公开(公告)日: 2022-11-25
发明(设计)人: 董美 申请(专利权)人: 中信百信银行股份有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/36;G06F40/295;G06K9/62;G06N3/04;G06N3/08;G06F40/30
代理公司: 北京市兰台律师事务所 11354 代理人: 操飞越;张峰
地址: 100029 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 金融 领域 知识 图谱 构建 实体 关系 抽取 方法 系统
【说明书】:

发明涉及一种面向金融领域知识图谱构建实体关系抽取方法及系统,包括:获取领域数据集;将实体关系抽取分解为关系分类与实体识别;将领域数据集的文本及关系标签输入至关系分类模型进行关系分类,得到关系分类输出结果;将关系分类输出结果以及序列标注标签输入至实体识别模型,得到实体识别输出结果;将关系分类输出结果与实体识别输出结果融合为金融领域三元组。本发明所述方法及系统通过面向金融领域知识图谱构建使用深度学习的方法进行实体关系抽取,利用预训练模型降低模型对数据的需求量,设计级联结构数据中的重叠问题并融合领域外部信息库辅助识别领域概念以及专有名词。

技术领域

本发明涉及金融知识图谱技术领域,尤其涉及一种面向金融领域知识图谱构建实体关系抽取方法及系统。

背景技术

实体关系抽取是领域知识图谱构建的关键技术。金融领域对数据依赖性大,对数据分析准确性要求很高,从这个角度来说,只有高质量的金融知识图谱中的信息有实际应用价值。构建知识图谱需要结构化的信息作为数据基础,从非结构化的文本中提取出有价值的结构化三元组,可以通过实体关系抽取实现。目前国内外对实体关系抽取的现有主流研究,从研究内容上看大多集中于泛领域识别模型的研究,相对缺少对垂直领域知识特征与关联形式进行深入的研究。从研究方法来看,早期的实体关系抽取方法主要依赖专家构造语法和语义规则,并根据规则进行模式匹配,完成对实体间关系的抽取。这种方法需要大量的专家工作且制定的规则难以全面、领域间的迁移困难。于是,开始利用基于机器学习的方法,通过对关系进行建模替代预定义的语法和语义规则。传统机器学习方法的一个主要问题是存在特征提取误差,这会对实体关系抽取的效果造成影响。随着深度学习的兴起,实体关系抽取的任务中逐步出现深度学习的方法,其优点是无需复杂的特征工程,即可以自动学习句子的特征,可以改善特征抽取过程中的误差积累问题。

针对金融领域实体关系抽取其研究难点主要有两点:一方面,是因为金融领域数据来源分散导致知识抽取困难,如证券行业的数据来源就包含机构自有的财务数据、投资者基本信息及其交易数据以及公开的公告、研报和新闻等文本数据;另一方面,金融概念具有较高的层次性与动态性,文本中含有很多专业词汇、或机构名称等不常见词。

传统方法在金融领域的实体关系抽取中,需要较大的人工标注数据集以及复杂的特征工程;数据中的重叠问题难以解决。

发明内容

为解决现有技术的不足,本发明提出一种面向金融领域知识图谱构建实体关系抽取方法及系统,面向金融领域知识图谱构建使用深度学习的方法进行实体关系抽取,利用预训练模型降低模型对数据的需求量,设计级联结构数据中的重叠问题并融合领域外部信息库辅助识别领域概念以及专有名词。

为实现以上目的,本发明所采用的技术方案包括:

一种面向金融领域知识图谱构建实体关系抽取方法,其特征在于,包括:

S1、获取领域数据集;

S2、将实体关系抽取分解为关系分类与实体识别;

S3、将领域数据集的文本及关系标签输入至关系分类模型进行关系分类,得到关系分类输出结果;

S4、将关系分类输出结果以及序列标注标签输入至实体识别模型,得到实体识别输出结果;

S5、将关系分类输出结果与实体识别输出结果融合为金融领域三元组。

进一步地,所述步骤S1包括分步骤:

S11、根据金融领域知识图谱目标,确定需使用的语料范围;

S12、获取需使用的语料;

S13、根据领域实体类型以及领域关系类型制定实体关系抽取级联模型中的数据模型;

S14、根据数实体关系抽取模型中的数据模型对需使用的语料进行处理,得到领域数据集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信百信银行股份有限公司,未经中信百信银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211022748.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top