[发明专利]模型训练、命名实体识别方法及装置有效
申请号: | 202010631307.7 | 申请日: | 2020-07-03 |
公开(公告)号: | CN111523313B | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 李扬名;李小龙;姚开盛 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 命名 实体 识别 方法 装置 | ||
本说明书实施例提供一种模型训练、命名实体识别方法及装置。在模型训练时,将第一样本序列中的第一命名实体替换为第一预设字符,得到第二样本序列,并从第二样本序列中确定包含第一预设字符的文本片段;采用第一递归神经网络,递归地确定第二样本序列中多个分词的隐向量,并确定文本片段的表征向量;通过变分自编码器,基于表征向量构建高斯分布并确定针对文本片段的全局隐向量;采用第一递归神经网络,以全局隐向量作为初始隐向量,递归地确定文本片段中分词的解码隐向量,并确定文本片段中分词的预测值;基于文本片段中分词与其预测值的差异以及分布差异,确定预测损失值,向减小预测损失值的方向,更新第一递归神经网络和变分自编码器。
技术领域
本说明书一个或多个实施例涉及自然语言处理技术领域,尤其涉及模型训练、命名实体识别方法及装置。
背景技术
在自然语言处理技术领域,对文本序列中的命名实体(Entity)进行分类,是研究的一个重要方向。命名实体,在词性中具有名词性质,包括人名、机构名、地名以及其他所有以名称为标识的实体类别。更广泛的命名实体还包括数字、日期、货币、地址等类别。对命名实体的类别进行准确识别,能够提高自然语言处理的准确性和有效性。
通常,采用训练集训练用于识别命名实体的模型,在模型训练完成后,采用测试集对模型进行测试。命名实体识别中的一大挑战,是对集外词和低频词这些稀有实体的识别。集外词是指测试集中出现,但训练集中没有出现过的命名实体。低频词是指测试集中出现,而训练集中出现次数较低的命名实体。这种训练数据的稀疏性,给模型训练带来巨大挑战。
因此,希望能有改进的方案,可以训练得到有效性更好、准确性更高的模型,使得模型在面临稀有实体时,能更好地对其进行识别。
发明内容
本说明书一个或多个实施例描述了模型训练、命名实体识别方法及装置,以训练得到有效性更好、准确性更高的模型,使得模型在面临稀有实体时,能更好地对其进行识别。具体的技术方案如下。
第一方面,提供了一种用于识别命名实体的模型训练方法,通过计算机执行,包括:
获取包含多个分词的第一样本序列,多个分词包含命名实体和非命名实体;
将所述第一样本序列中的第一命名实体替换为第一预设字符,得到第二样本序列,并从所述第二样本序列中确定包含所述第一预设字符的文本片段;
采用第一递归神经网络,以预设隐向量作为初始隐向量,递归地确定所述第二样本序列中多个分词的隐向量;基于所述第二样本序列中多个分词的隐向量,确定所述文本片段的表征向量;
通过变分自编码器,基于所述表征向量构建高斯分布,基于所述高斯分布确定针对所述文本片段的全局隐向量;
采用所述第一递归神经网络,以所述全局隐向量作为初始隐向量,递归地确定所述文本片段中分词的解码隐向量,并基于所述解码隐向量,确定所述文本片段中分词的预测值;
基于所述文本片段中分词与其预测值的差异,以及基于所述高斯分布确定的分布差异,确定预测损失值,向减小所述预测损失值的方向,更新所述第一递归神经网络和所述变分自编码器。
在一种实施方式中,所述将所述第一样本序列中的第一命名实体替换为第一预设字符的步骤,包括:
从所述第一样本序列中的至少一个命名实体中随机确定第一数量个命名实体,作为第一命名实体,将所述第一命名实体替换为第一预设字符。
在一种实施方式中,所述从所述第二样本序列中确定包含所述第一预设字符的文本片段的步骤,包括:
将所述第二样本序列中,从所述第一预设字符开始,以所述第一预设字符之后的第一个命名实体结尾的序列,确定为文本片段;或者,将所述第二样本序列中,以所述第一预设字符结尾,以所述第一预设字符之前的第一个命名实体开始的序列,确定为文本片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010631307.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三维矢量数据高压缩比的并行压缩方法及装置
- 下一篇:图像处理的方法及装置