[发明专利]基于多粒度特征融合和不确定去噪的实体识别方法及系统在审
申请号: | 202110845130.5 | 申请日: | 2021-07-26 |
公开(公告)号: | CN113627172A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 胡峰;杨新瑞;张清华;高满;黄子恒 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295;G06F40/216;G06K9/62 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 卢胜斌 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 粒度 特征 融合 不确定 实体 识别 方法 系统 | ||
1.基于多粒度特征融合和不确定去噪的实体识别方法,其特征在于,具体包括以下步骤:
S1、使用Transformer对语料文本进行字粒度的多级局部特征提取,得到文本的向量表示,即局部字粒度特征;
S2、使用jieba工具进行分词,并使用Glove预训练的词向量将得到的分词进行向量嵌入,得到文本的向量表示,即全局词粒度特征;
S3、针对实体结构的特点,对分词后得到的词集进行编码,得到文本的词结构编码向量;
S4、将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合;
S5、将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中,最终得到识别的实体结果。
2.根据权利要求1所述的基于多粒度特征融合和不确定去噪的实体识别方法,其特征在于,对分词后得到的词集进行编码,得到文本的词结构编码向量包括根据字在用jieba工具进行分词后的词中的位置对字符进行编码,若该字位于词的左边界则编码为1,若位于词的中间位置则编码为2,若位于词的右边界则编码为3,若该词仅包含单个字则编码为0。
3.根据权利要求1所述的基于多粒度特征融合和不确定去噪的实体识别方法,其特征在于,将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中进行序列标注包括以下步骤:
将BiGRU输出得到的概率矩阵送入自注意力机制层来获取每个字符的概率矩阵P;
自注意力机制层根据每个字符的概率矩阵P计算该字符的不确定性,并获取需要删除的具有高不确定性的数据索引;
根据数据索引删除不确定性大于设定阈值的数据,将其余未删除数据作为自注意力机制层的输出;
将自注意力机制层的输出送入CRF层,进行序列标注,预测得到实体的识别结果。
4.根据权利要求3所述的基于多粒度特征融合和不确定去噪的实体识别方法,其特征在于,根据每个字符的概率矩阵P计算该字符的不确定性包括:
其中,Vuc表示字符的不确定性;n为句子中的字符数;pj为长度为n的文本中第j个字对应每个标签的概率。
5.根据权利要求3所述的基于多粒度特征融合和不确定去噪的实体识别方法,其特征在于,根据数据索引删除不确定性大于设定阈值的数据包括以下步骤:
del_num=sort(Vuc)≥k[:del_index];
其中,Vuc表示字符的不确定性,k为设定的不确定性阈值;x表示当前epoch值,N为输入数据总数,es表示epoch开始计算不确定值的初始值,λ1为不确定因子;si为控制高不确定性数据的删除程度。
6.根据权利要求1所述的基于多粒度特征融合和不确定去噪的实体识别方法,其特征在于,索引值为i样本的控制高不确定性数据的删除程度si表示为:
其中,w1和w2控制每次删除的高不确定数据量的趋势;λ2为不确定因素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110845130.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:流量传感器检定系统
- 下一篇:视频取证方法、系统和介质