[发明专利]一种识别方法、装置、设备及存储介质有效

专利信息
申请号: 202110771579.1 申请日: 2021-07-08
公开(公告)号: CN113392649B 公开(公告)日: 2023-04-07
发明(设计)人: 万建伟;李松涛;贺凯;孙科;余非;裴卫民;冯文亮 申请(专利权)人: 上海浦东发展银行股份有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F16/35;G06F40/216;G06N3/045
代理公司: 北京品源专利代理有限公司 11332 代理人: 赵迎迎
地址: 200000 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 识别 方法 装置 设备 存储 介质
【说明书】:

发明公开了一种识别方法、装置、设备及存储介质。该方法包括:获取待识别序列,其中,所述待识别序列包括:待识别句子和待识别句子中的字符对应的词性信息;通过查找词向量表,得到与所述待识别序列对应的待识别向量;将所述待识别向量输入目标命名实体识别模型,得到所述待识别向量对应的第一类别概率,通过本发明的技术方案,能够降低模型的复杂度,提升模型的预测速度。

技术领域

本发明实施例涉及计算机技术领域,尤其涉及一种识别方法、装置、设备及存储介质。

背景技术

方案一、对于命名实体识别任务,传统方案大多以中文句子序列作为模型的输入,然后通过字符embedding对序列进行表示,通过网络模型进行特征提取,最后通过softmax和CRF网络层获得最终的序列标签预测结果。在一种快速命名实体识别方法中,作者在特征提取过程中选择了CNNs-self-attention模型,引入了字符的上下文表示以及全局的上下文表示。

方案二、采用对抗学习来丰富除了字符表示以外的特征。模型分为两部分:对抗学习部分和多任务学习部分。其中,对抗学习利用了三种类型的数:NER(命名实体识别)数据、CWS(中文分词)数据和POS(词性标注)数据通过词嵌入后分别作为共享bi-LSTM的输入,通过梯度反转来进行对抗学习。多任务学习部分NER(命名实体识别)数据通过词嵌入经过私有的bi-LSTM结构,再通过多头注意力层,经过softmax和CRF层进行训练;CWS(中文分词)数据和POS(词性标注)数据采用one-hot编码各自经过自己私有的特征提取层进行训练。同时共享bi-LSTM的特征也都输出到多任务学习的私有部分,形成对抗模型。

方案一缺点如下:

仅仅通过CNNs-self-attention模型未能充分利用单词词性信息,不能很好的确定预测结果的边界;特征提取不充分;模型效果欠佳。

方案二缺点如下:

虽然该方案引入了分词信息,但是引入方式简单暴力,是一种间接结合,这样信息损失较多,使得预测结果不准确;另外模型太多臃肿,包含的结构太多,增加了训练和预测的资源消耗;特征提取过程使用的是bi-LSTM,不能充分学习到双向的语义信息。

发明内容

本发明实施例提供一种识别方法、装置、设备及存储介质,以实现能够解决中文NER通常采用基于字符的embedding方式作为模型输入,未能充分利用单词词性信息,而增加引入单词词性信息能够更好的界定预测的边界,提高模型预测效果,当前的中文NER模型预测过程速度慢、内存占用大。目前主要的中文命名实体识别模型的特征提取部分选择了bi-LSTM结构,但bi-LSTM不能充分提取到字符左右的信息,仅仅是双向信息的叠加,未能充分利用字符的局部特征等问题,降低了模型的复杂度,提升了模型的预测速度。

第一方面,本发明实施例提供了一种识别方法,包括:

获取待识别序列,其中,所述待识别序列包括:待识别句子和待识别句子中的字符对应的词性信息;

通过查找词向量表,得到与所述待识别序列对应的待识别向量;

将所述待识别向量输入目标命名实体识别模型,得到所述待识别向量对应的第一类别概率。

第二方面,本发明实施例还提供了一种识别装置,该装置包括:

序列获取模块,用于获取待识别序列,其中,所述待识别序列包括:待识别句子和待识别句子中的字符对应的词性信息;

查找模块,用于通过查找词向量表,得到与所述待识别序列对应的待识别向量;

确定模块,用于将所述待识别向量输入目标命名实体识别模型,得到所述待识别向量对应的第一类别概率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海浦东发展银行股份有限公司,未经上海浦东发展银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110771579.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top