[发明专利]金融主体的识别方法、电子装置和存储介质在审
申请号: | 202110578190.5 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113408285A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 范如;范渊;杨勃 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/216;G06F16/35;G06K9/62;G06N3/04;G06N3/08;G06N20/10;G06Q40/00 |
代理公司: | 杭州华进联浙知识产权代理有限公司 33250 | 代理人: | 李洋 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融 主体 识别 方法 电子 装置 存储 介质 | ||
1.一种金融主体的识别方法,其特征在于,包括:
获取待分析的金融文档;
将所述待分析的金融文档输入到两个以上各不相同的第一主体识别模型,得到第一预测结果集合,所述第一预测结果集合由与各所述第一主体识别模型对应的各第一预测结果组成,各所述第一预测结果包含由对应的第一主体识别模型预测得到的若干金融主体;
根据各所述金融主体在所述第一预测结果集合中出现的次数,确定所述金融主体是否作为识别结果输出。
2.根据权利要求1所述的金融主体的识别方法,其特征在于,所述方法还包括:
获取待训练的金融文档,根据所述待训练的金融文档,得到第一字符序列和第二字符序列;
将所述第一字符序列分为训练集和验证集,根据所述训练集和所述第二字符序列,对两个以上各不相同的第二主体识别模型进行一轮以上的训练,得到第三主体识别模型集合,所述第三主体识别模型集合由与各所述第二主体识别模型对应的多个第三主体识别模型组成,其中,所述第二主体识别模型每进行一轮训练得到一个第三主体识别模型;
使用所述验证集对各所述第三主体识别模型进行验证,得到各所述第三主体识别模型的召回率和第二预测结果集合,所述第二预测结果集合由与各所述第三主体识别模型对应的各第二预测结果组成,各所述第二预测结果包含由对应的第三主体识别模型预测得到的若干金融主体,将所述第三主体识别模型集合中符合召回率要求的第三主体识别模型确定为第四主体识别模型,其中,与所述第四主体识别模型对应的各第二预测结果组成第三预测结果集合;
根据各所述金融主体在所述第三预测结果集合中出现的次数,确定所述金融主体是否作为预测结果输出;
计算所述预测结果与验证集中标定的金融主体的匹配度,将计算得到的所述匹配度满足要求的所述第四主体识别模型确定为第一主体识别模型。
3.根据权利要求2所述的金融主体的识别方法,其特征在于,所述第二主体识别模型通过以下至少之一构建:
BERT-BLSTM-CRF模型和BERT-IDCNN-CRF模型。
4.根据权利要求2所述的金融主体的识别方法,其特征在于,获取待训练的金融文档,根据所述待训练的金融文档,得到第一字符序列和第二字符序列,具体包括:
获取待训练的金融文档,对所述待训练的金融文档进行预处理,得到第一文本信息;
对所述第一文本信息进行标注,得到第一字符序列和第二字符序列。
5.根据权利要求4所述的金融主体的识别方法,其特征在于,对所述待训练的金融文档进行预处理,得到第一文本信息,具体包括:
通过正则匹配去除所述待训练的金融文档中的冗余信息,得到处理后的金融文档,其中,所述处理后的金融文档包括标题和正文;
获取所述标题与所述正文的编辑距离,若所述编辑距离大于第一阈值,则将所述标题与所述正文进行拼接,得到第一文本信息。
6.根据权利要求4所述的金融主体的识别方法,其特征在于,对所述第一文本信息进行标注,得到第一字符序列和第二字符序列包括:
对所述第一文本信息中的金融主体进行标注,得到第三字符序列,其中,所述第三字符序列包括标题和正文;
在所述第三字符序列中标记所述金融主体在所述正文中是否出现、在所述正文中出现的次数和在标题中是否出现,得到带有标记信息的第二字符序列;
标注所述金融主体在所述第三字符序列中的位置信息,得到带有标注信息的第一字符序列。
7.根据权利要求1所述的金融主体的识别方法,其特征在于,
所述第一主体识别模型包括训练后的第一子模型和训练后的第二子模型;
将所述待分析的金融文档输入到两个以上各不相同的第一主体识别模型,得到第一预测结果集合包括:
将所述待分析的金融文档输入到所述训练后的第一子模型,得到所述待分析的金融文档对应的特征信息,其中,所述训练后的第一子模型通过待训练的金融文档训练得到;
将所述待分析的金融文档对应的特征信息输入到所述训练后的第二子模型,得到第一预测结果集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110578190.5/1.html,转载请声明来源钻瓜专利网。