[发明专利]一种基于连续数字压缩编码的长数字实体抽取方法有效

专利信息
申请号: 202110263805.5 申请日: 2021-03-11
公开(公告)号: CN112989807B 公开(公告)日: 2021-11-23
发明(设计)人: 卢玲;王玉柯;白灵;罗辉;瞿春霞 申请(专利权)人: 重庆理工大学
主分类号: G06F40/242 分类号: G06F40/242;G06F40/295;G06N3/04;G06N3/08
代理公司: 重庆天成卓越专利代理事务所(普通合伙) 50240 代理人: 王宏松
地址: 400054 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 连续 数字 压缩 编码 实体 抽取 方法
【说明书】:

发明提出了一种基于连续数字压缩编码的长数字实体抽取方法,包括:S1,将实体词典中的实体信息融合到单个字符的表示中;S2,对带噪音的长数字实体进行压缩编码和标注;S3,送入Bi‑LSTM+CRF模型进行实体识别训练,然后对长数字实体进行抽取,得到所需的命名实体。本发明在NER任务的实体标注阶段增加一种新的H标签,专门对长数字实体中的噪音数据进行标注,使模型通过学习H标签,CNCD技术能有效识别规范的和带噪音的长数字实体,同时保证对其他类型实体的识别率正确率。

技术领域

本发明涉及人工智能的自然语言处理领域,特别涉及一种基于连续数字压缩编码的长数字实体抽取方法。

背景技术

命名实体识别(Named Entity Recognition,NER)是信息抽取、问答系统、句法分析、机器翻译、信息检索等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。NER的任务目标是识别出文本中的三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。例如,在“朱明在2020年12月6日参加了中国计算机协会举办的计算机能力认证考试。”中,“朱明”是人名类实体,“2020年12月6日”是时间类实体,“中国计算机协会”是机构名实体。

NER任务是信息检索、对话推荐、对话生成等应用研究的子任务之一,一直是自然语言处理领域研究的热点。

现有研究普遍将NER问题作为一个序列标注任务。主要提出的研究方法包括SoftWord特征技术、条件随机场(Conditional Random Field,CRF)、长短时记忆网络模型(Long Short-term Model,LSTM)、LSTM+CRF、Lattice-LSTM等。其中, SoftLexicon+Bi-LSTM+CRF是目前最被广泛认可的一种方法。它使用一种 SoftLexicon方法,首先将与某字符相关的候选词的信息融合到该字符的表示 (embedding)中,然后构建Bi-LSTM+CRF模型进行实体抽取,从而提高模型的识别率和训练速度。虽然SoftLexicon+Bi-LSTM+CRF方法在常用的cluener数据集、weibo数据集中实体识别准确率分别为92.0%、94.0%,但对带噪音的长数字实体的识别准确率均为53.0%。总体来看,由于较少有专门针对带噪音的长数字实体抽取方法的研究,使带噪音的长数字实体识别准确率偏低。

主要原因为:一是现有模型主要通过设置一定大小的观察窗口来抽取实体,当数字实体较长时,可能超出观察窗口,使实体提取不完整;二是现有的模型对长数字实体中的噪音没有专门的处理方法,将噪音数据当作普通的非实体类字符进行标注。这将打乱模型原标签间的共现规则,使模型在预测正常的长数字实体时产生理解偏差,从而影响实体识别的准确率。

发明内容

本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于连续数字压缩编码的长数字实体抽取方法。

为了实现本发明的上述目的,本发明提供了一种基于连续数字压缩编码的长数字实体抽取方法,包括:

S1,将实体词典中的实体信息融合到单个字符的表示中;

S2,对带噪音的长数字实体进行压缩编码和标注;

S3,送入Bi-LSTM+CRF模型进行实体识别训练,然后对长数字实体进行抽取,得到所需的命名实体。

进一步地,所述S1包括:

S1-1,找到含有字符Ci的四类候选实体集SupB、SupM、SupE和SupS;

其中SupB是候选实体中字符Ci作为单词首字的词的集合,SupM是字符Ci作为单词中间字的词的集合,SupE是字符Ci作为末尾字的词的集合,SupS是字符Ci作为单独字的集合;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110263805.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top