[发明专利]一种识别方法、装置、设备及存储介质有效
申请号: | 202110771579.1 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113392649B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 万建伟;李松涛;贺凯;孙科;余非;裴卫民;冯文亮 | 申请(专利权)人: | 上海浦东发展银行股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06F40/216;G06N3/045 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 赵迎迎 |
地址: | 200000 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 方法 装置 设备 存储 介质 | ||
本发明公开了一种识别方法、装置、设备及存储介质。该方法包括:获取待识别序列,其中,所述待识别序列包括:待识别句子和待识别句子中的字符对应的词性信息;通过查找词向量表,得到与所述待识别序列对应的待识别向量;将所述待识别向量输入目标命名实体识别模型,得到所述待识别向量对应的第一类别概率,通过本发明的技术方案,能够降低模型的复杂度,提升模型的预测速度。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种识别方法、装置、设备及存储介质。
背景技术
方案一、对于命名实体识别任务,传统方案大多以中文句子序列作为模型的输入,然后通过字符embedding对序列进行表示,通过网络模型进行特征提取,最后通过softmax和CRF网络层获得最终的序列标签预测结果。在一种快速命名实体识别方法中,作者在特征提取过程中选择了CNNs-self-attention模型,引入了字符的上下文表示以及全局的上下文表示。
方案二、采用对抗学习来丰富除了字符表示以外的特征。模型分为两部分:对抗学习部分和多任务学习部分。其中,对抗学习利用了三种类型的数:NER(命名实体识别)数据、CWS(中文分词)数据和POS(词性标注)数据通过词嵌入后分别作为共享bi-LSTM的输入,通过梯度反转来进行对抗学习。多任务学习部分NER(命名实体识别)数据通过词嵌入经过私有的bi-LSTM结构,再通过多头注意力层,经过softmax和CRF层进行训练;CWS(中文分词)数据和POS(词性标注)数据采用one-hot编码各自经过自己私有的特征提取层进行训练。同时共享bi-LSTM的特征也都输出到多任务学习的私有部分,形成对抗模型。
方案一缺点如下:
仅仅通过CNNs-self-attention模型未能充分利用单词词性信息,不能很好的确定预测结果的边界;特征提取不充分;模型效果欠佳。
方案二缺点如下:
虽然该方案引入了分词信息,但是引入方式简单暴力,是一种间接结合,这样信息损失较多,使得预测结果不准确;另外模型太多臃肿,包含的结构太多,增加了训练和预测的资源消耗;特征提取过程使用的是bi-LSTM,不能充分学习到双向的语义信息。
发明内容
本发明实施例提供一种识别方法、装置、设备及存储介质,以实现能够解决中文NER通常采用基于字符的embedding方式作为模型输入,未能充分利用单词词性信息,而增加引入单词词性信息能够更好的界定预测的边界,提高模型预测效果,当前的中文NER模型预测过程速度慢、内存占用大。目前主要的中文命名实体识别模型的特征提取部分选择了bi-LSTM结构,但bi-LSTM不能充分提取到字符左右的信息,仅仅是双向信息的叠加,未能充分利用字符的局部特征等问题,降低了模型的复杂度,提升了模型的预测速度。
第一方面,本发明实施例提供了一种识别方法,包括:
获取待识别序列,其中,所述待识别序列包括:待识别句子和待识别句子中的字符对应的词性信息;
通过查找词向量表,得到与所述待识别序列对应的待识别向量;
将所述待识别向量输入目标命名实体识别模型,得到所述待识别向量对应的第一类别概率。
第二方面,本发明实施例还提供了一种识别装置,该装置包括:
序列获取模块,用于获取待识别序列,其中,所述待识别序列包括:待识别句子和待识别句子中的字符对应的词性信息;
查找模块,用于通过查找词向量表,得到与所述待识别序列对应的待识别向量;
确定模块,用于将所述待识别向量输入目标命名实体识别模型,得到所述待识别向量对应的第一类别概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海浦东发展银行股份有限公司,未经上海浦东发展银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110771579.1/2.html,转载请声明来源钻瓜专利网。