[发明专利]基于多粒度特征融合和不确定去噪的实体识别方法及系统在审
申请号: | 202110845130.5 | 申请日: | 2021-07-26 |
公开(公告)号: | CN113627172A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 胡峰;杨新瑞;张清华;高满;黄子恒 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295;G06F40/216;G06K9/62 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 卢胜斌 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 粒度 特征 融合 不确定 实体 识别 方法 系统 | ||
本发明涉及信息提取领域,尤其涉及一种基于多粒度特征融合和不确定去噪的实体识别方法及系统,包括使用Transformer对语料文本进行字粒度的多级局部特征提取,得到局部字粒度特征;使用jieba工具进行分词,并使用Glove预训练的词向量将得到的分词进行向量嵌入,得到全局词粒度特征;对分词后得到的词集进行编码,得到文本的词结构编码向量;将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合;将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中,最终得到识别的实体结果;本发明可对病理领域中文文本进行精准、全面的实体抽取,抽取效果较好。
技术领域
本发明涉及信息提取、自然语言处理领域,尤其涉及一种基于多粒度特征融合和不确定去噪的实体识别方法及系统。
背景技术
实体识别旨在识别文本中具有特定含义的实体。MUC7(第七届信息理解会议)明确将命名实体分为7类名词实体:人名、地名、机构名称、日期、时间、金额和百分比值。目前,识别命名实体的任务越来越受到研究人员的研究,并已成为自然语言处理技术中越来越重要的一部分,例如信息提取、句法分析、自动抽取、机器翻译、问答系统、知识图谱等。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向;自然语言处理即实现人机间自然语言通信,这一领域的研究将涉及自然语言,即人们日常使用的语言。
发明内容
为了对中文病理文本进行精准、全面的实体抽取,本发明提出一种基于多粒度特征融合和不确定去噪的实体识别方法及系统,所述方法具体包括以下步骤:
S1、使用Transformer对语料文本进行字粒度的多级局部特征提取,得到文本的向量表示,即局部字粒度特征;
S2、使用jieba工具进行分词,并使用Glove预训练的词向量将得到的分词进行向量嵌入,得到文本的向量表示,即全局词粒度特征;
S3、针对实体结构的特点,对分词后得到的词集进行编码,得到文本的词结构编码向量;
S4、将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合;
S5、将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中,最终得到识别的实体结果。
进一步的,对分词后得到的词集进行编码,得到文本的词结构编码向量包括根据字在用jieba工具进行分词后的词中的位置对字符进行编码,若该字位于词的左边界则编码为1,若位于词的中间位置则编码为2,若位于词的右边界则编码为3,若该词仅包含单个字则编码为0。
进一步的,将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合的过程中,先将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征使用向量的加法进行融合,再将融合后的特征与词结构编码进行拼接操作。
进一步的,将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中进行序列标注包括以下步骤:
将BiGRU输出得到的概率矩阵送入自注意力机制层来获取每个字符的概率矩阵P;
自注意力机制层根据每个字符的概率矩阵P计算该字符的不确定性,并获取需要删除的具有高不确定性的数据索引;
根据数据索引删除不确定性大于设定阈值的数据,将其余未删除数据作为自注意力机制层的输出;
将自注意力机制层的输出送入CRF层,进行序列标注,预测得到实体的识别结果。
进一步的,根据每个字符的概率矩阵P计算该字符的不确定性包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110845130.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:流量传感器检定系统
- 下一篇:视频取证方法、系统和介质