[发明专利]一种融合正则表达式的金融文本关系抽取与分类方法在审
| 申请号: | 202111240263.6 | 申请日: | 2021-10-25 |
| 公开(公告)号: | CN113722495A | 公开(公告)日: | 2021-11-30 |
| 发明(设计)人: | 王海涛;刘昭然;许浩;周丹;焦旭;马雪环;王天放 | 申请(专利权)人: | 之江实验室 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/903;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
| 地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 融合 正则 表达式 金融 文本 关系 抽取 分类 方法 | ||
本发明公开了一种融合正则表达式的金融文本关系抽取与分类方法。该方法对金融文本编码后识别出文本中包含的关系实体对并进行标记;将金融文本依次和各项正则表达式进行匹配,将匹配结果转换为正则表达式标签,最后将该标签与标记结果融合,通过深度神经网络对实体对之间包含的关系进行抽取与分类。本发明实现了融合了正则表达式信息的金融文本端到端关系抽取与分类,逻辑结构清晰,层次分明,无需人工标注,节约了人力成本,提升了工作效率,准确率高,实用性强。
技术领域
本发明属于自然语言处理与金融的交叉领域,特别涉及一种融合正则表达式的金融文本关系抽取与分类方法。
背景技术
自然语言处理等技术的创新与发展,极大的提高了金融行业的科技生产力。从金融新闻和公告等文本中自动抽取重大金融事件关系并进行分类,能有效节省从业人员的人力成本,显著提高工作效率。
目前已知金融领域的文本关系抽取与分类技术,存在下列不足:
1)现有金融文本的关系抽取方法需要事先对金融文本进行人工标注,再进行关系分类,而实际场景中原始金融文本都是无标注的,使得这些方法在实际中的应用受到很大限制;
2)现有基于深度神经网络进行金融领域关系抽取的方法不能有效利用符合人类逻辑的规则信息,无法捕获到金融文本中的一些重要特征,影响了关系抽取的准确性。
发明内容
针对现有技术不足,本发明提出一种融合正则表达式的金融文本关系抽取与分类方法。本发明方法依靠有逻辑的先验知识,融合正则表达式信息,提升了金融文本关系分类的准确率。
本发明解决其技术问题所采用的技术方案是:一种融合正则表达式的金融文本关系抽取与分类方法,该方法于金融文本关系抽取过程按如下步骤进行:
(1)将金融文本库中的金融文本进行编码,将金融文本中的每个词都转换为词向量,通过深度神经网络对各个词向量进行标注,识别出金融文本中包含的关系实体对,对该关系实体对进行标记,得到标注结果;
(2)将金融文本依次和正则表达式数据库中的各项正则表达式进行匹配,将匹配结果转换为该金融文本的正则表达式标签,将步骤(1)得到的关系实体对标注结果输入双向长短期记忆网络,提取特征;
(3)将步骤(2)得到的正则表达式标签与步骤(2)得到的双向长短期记忆网络的输出特征进行拼接,通过深度神经网络完成金融文本关系分类,并通过查询关系类型索引C对应的关系类型,得到最终的金融文本关系抽取结果。
进一步地,所述步骤(1)具体过程如下:
(1.1)从金融文本库中取出一个金融文本S,将其进行分词,得到以词为单位进行表示的金融文本:
其中,s代表金融文本分好的词,n为总词数;
(1.2)使用Embedding映射方法将分好词的金融文本S映射为高维词向量集合E:
所述高维词向量集合,其中代表金融文本中各词s对应的词向量;
(1.3)将词向量集合通过由BERT、全连接神经网络FC1、条件随机场CRF组成的深度神经网络得到实体对标注结果L:
。
进一步地,步骤(2)具体过程如下:
(2.1)将金融文本与正则表达式库中的正则表达式依次匹配,匹配成功后,将匹配结果转换为一个由0,1组成的向量,该向量即为正则表达式标签RElabel;
(2.2)将所述正则表达式标签作为一个全连接神经网络的输入,经过该全连接神经网络后转换得到正则表达式特征,将正则表达式特征融入深度神经网络:
其中,REfeature代表得到的正则表达式特征,FC2代表该模块中用于将正则表达式标签转换为正则表达式特征的全连接神经网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111240263.6/2.html,转载请声明来源钻瓜专利网。





