[发明专利]模型训练、命名实体识别方法及装置有效
申请号: | 202010631307.7 | 申请日: | 2020-07-03 |
公开(公告)号: | CN111523313B | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 李扬名;李小龙;姚开盛 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 命名 实体 识别 方法 装置 | ||
1.一种用于识别命名实体的模型训练方法,通过计算机执行,包括:
获取包含多个分词的第一样本序列,多个分词包含命名实体和非命名实体;
将所述第一样本序列中的第一命名实体替换为第一预设字符,得到第二样本序列,并从所述第二样本序列中确定包含所述第一预设字符的文本片段;所述第一命名实体从所述第一样本序列的各个命名实体中确定;
采用第一递归神经网络,以预设隐向量作为初始隐向量,递归地确定所述第二样本序列中多个分词的隐向量,使得所述第二样本序列中后一个分词的隐向量包含前面各个分词的信息;基于所述第二样本序列中多个分词的隐向量,确定所述文本片段的表征向量;
通过变分自编码器,基于所述表征向量构建高斯分布,基于所述高斯分布确定针对所述文本片段的全局隐向量;
采用所述第一递归神经网络,以所述全局隐向量作为初始隐向量,递归地确定所述文本片段中分词的隐向量,作为解码隐向量,并基于所述解码隐向量,确定所述文本片段中分词的预测值;
基于所述文本片段中分词与其预测值的差异,以及基于所述高斯分布确定的分布差异,确定预测损失值,向减小所述预测损失值的方向,更新所述第一递归神经网络和所述变分自编码器。
2.根据权利要求1所述的方法,所述将所述第一样本序列中的第一命名实体替换为第一预设字符的步骤,包括:
从所述第一样本序列中的至少一个命名实体中随机确定第一数量个命名实体,作为第一命名实体,将所述第一命名实体替换为第一预设字符。
3.根据权利要求1所述的方法,所述从所述第二样本序列中确定包含所述第一预设字符的文本片段的步骤,包括:
将所述第二样本序列中,从所述第一预设字符开始,以所述第一预设字符之后的第一个命名实体结尾的序列,确定为文本片段;或者,将所述第二样本序列中,以所述第一预设字符结尾,以所述第一预设字符之前的第一个命名实体开始的序列,确定为文本片段。
4.根据权利要求3所述的方法,所述基于所述第二样本序列中多个分词的隐向量,确定所述文本片段的表征向量的步骤,包括:
从所述第二样本序列的多个分词的隐向量中,确定所述文本片段的首分词的隐向量和尾分词的隐向量,并分别作为所述首分词的初始隐向量和所述尾分词的初始隐向量,基于所述尾分词的初始隐向量与所述首分词的初始隐向量的差值,确定所述文本片段的表征向量。
5.根据权利要求1所述的方法,所述基于所述表征向量构建高斯分布,基于所述高斯分布确定针对所述文本片段的全局隐向量的步骤,包括:
通过变分自编码器,基于所述表征向量,确定高斯分布的均值和方差,基于所述高斯分布的均值和方差确定针对所述文本片段的全局隐向量。
6.根据权利要求1所述的方法,所述递归地确定所述文本片段中分词的解码隐向量的步骤,包括:
通过所述第一递归神经网络,针对所述文本片段中首分词和尾分词之外的每个中间分词,基于上一分词的解码隐向量确定该中间分词的解码隐向量,其中,第一个中间分词的上一分词的解码隐向量为所述全局隐向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010631307.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三维矢量数据高压缩比的并行压缩方法及装置
- 下一篇:图像处理的方法及装置