[发明专利]应用于文本细粒度实体分类的特征表示方法及相关设备在审
| 申请号: | 202211070958.9 | 申请日: | 2022-09-02 |
| 公开(公告)号: | CN115422913A | 公开(公告)日: | 2022-12-02 |
| 发明(设计)人: | 郭延明;刘盼;雷军;老松杨;李国辉;尹晓晴 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/279;G06F40/30;G06F16/33;G06N3/04;G06N3/08 |
| 代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
| 地址: | 410003 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 应用于 文本 细粒度 实体 分类 特征 表示 方法 相关 设备 | ||
1.一种应用于文本细粒度实体分类的特征表示方法,其特征在于,包括:
对目标文本进行字符表示;
确定所述字符中的实体提及以及所述实体提及对应的上下文字符,将所述实体提及放回至所述上下文字符中得到上下文字符表示;
将所述上下文字符表示输入至上下文表征模型中,进行张量确定处理,得到上下文张量信息,对所述上下文张量信息进行计算处理得到所述目标文本的上下文特征,其中,所述上下文表征模型是利用训练样本对神经网络进行训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述上下文表征模型包括:Fast Text文本分类模型和BILSTM双向长短记忆模型,并在所述BILSTM双向长短记忆模型的后面的增加注意力机制;
所述对目标文本进行字符表示,包括:
利用Fast Text对所述目标文本进行静态字符表示;
所述将所述上下文字符表示输入至上下文表征模型中,进行张量确定处理,得到上下文张量信息,对所述上下文张量信息进行计算处理得到所述目标文本的上下文特征,包括:
所述上下文字符表示为静态字符表示,将所述上下文字符表示输入至BILSTM中进行上下文编码处理,获取所述实体提及在上下文的动态表示,得到所述上下文张量信息;
利用注意力机制对所述上下文张量信息进行计算处理,得到所述目标文本的上下文特征。
3.根据权利要求2所述的方法,其特征在于,所述利用注意力机制对所述上下文张量信息进行计算处理,得到所述目标文本的上下文特征,包括:
利用torch.cumsum函数对所述上下文张量信息沿着所述目标文本的上下文的维度进行累加求和,得到与所述上下文张量信息同尺寸的张量Si,公式为:
其中,Si为上下文张量信息C中前i个的和,Ck为上下文张量信息C中第k个值,i和k均为正整数,k∈i;
确定Si中的尾部数量T的累计张量值ST,以及Si中的头部数量H的累计张量值SH,以及C中头部数量H的累计张量值CH,计算所述目标文本的上下文特征VC,公式为:
4.根据权利要求1所述的方法,其特征在于,所述上下文表征模型包括:BERT模型;
所述将所述上下文字符表示输入至上下文表征模型中,进行张量确定处理,得到上下文张量信息,对所述上下文张量信息进行计算处理得到所述目标文本的上下文特征,包括:
将所述上下文字符表示输入至BERT模型进行上下文编码处理,获取所述实体提及在上下文的动态表示,得到所述上下文张量信息,对所述上下文张量信息进行计算处理得到所述目标文本的上下文特征。
5.根据权利要求4所述的方法,其特征在于,所述BERT模型包括:6层编码器和6层解码器,将所述BERT模型中的前9层进行冻结,在训练过程中对所述BERT模型的最后3层进行训练调整。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述上下文表征模型的训练过程包括:
获取人工标注张量信息的众包数据,以及机器自动标注张量信息的远程监督数据;
将所述众包数据划分为训练集、验证集和测试集;
所述众包数据和所述远程监督数据按照预定比例组成所述训练样本,所述训练样本包括:训练集、验证集、测试集和远程监督数据;
对预先构建的神经网络模型设置对应的学习率;
利用所述训练样本中的训练集和所述远程监督数据对所述神经网络模型进行训练,利用所述验证集对训练后的神经网络模型进行验证,验证完成后利用所述测试集对验证后的神经网络进行测试;
响应于确定测试通过后,将最终得到的神经网络模型作为所述上下文表征模型。
7.根据权利要求6所述的方法,其特征在于,在对所述神经网络模型进行训练过程中使用Adam优化器对所述神经网络模型进行收敛优化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211070958.9/1.html,转载请声明来源钻瓜专利网。





