[发明专利]多类别实体识别模型训练、实体识别方法、服务器及终端有效
申请号: | 201910397908.3 | 申请日: | 2019-05-14 |
公开(公告)号: | CN110147551B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 陈磊;刘祺;刘书凯;张博;王良栋;刘毅;孙振龙;丘志杰;苏舟;饶君;林乐宇;梁铭霏;商甜甜 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F18/241;G06F18/214;G06F16/36;G06N3/0464 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类别 实体 识别 模型 训练 方法 服务器 终端 | ||
1.一种多类别实体识别模型训练方法,其特征在于,所述方法包括:
对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;
对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;
基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;
其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层,所述实体特征筛选层用于对所述语义序列表征层输出的语义特征向量进行实体类别特征筛选,得到实体类别特征向量,所述实体类别特征向量表征不同类别实体的特征信息。
2.根据权利要求1所述的方法,其特征在于,所述对语料数据进行实体和实体类别标签,得到目标标注语料信息包括:
基于实体词典库对样本语料信息进行匹配标注,得到初始标注语料信息;
对所述初始标注语料信息进行多次验证标注,得到多次验证标注后的标注语料信;
基于可信度分析模型对多次验证标注后的标注语料信息进行可信度分析,得到每次验证标注的可信度;
基于所述可信度从所述多次验证标注后的标注语料信息中确定所述目标标注语料信息。
3.根据权利要求1所述的方法,其特征在于,所述基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型包括:
基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签确定第一数量的训练标注语料信息和第二数量的验证标注语料信息;
基于所述第一数量的训练标注语料信息对所述预设深度学习模型进行多类别实体识别训练,得到拟用多类别实体识别模型;
将所述第二数量的验证标注语料信息中的多维度信息输入所述拟用多类别实体识别模型进行多类别实体识别,得到第一识别结果;
当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配时,将所述拟用多类别实体识别模型作为所述多类别实体识别模型;
当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签不匹配时,调整所述拟用多类别实体识别模型中的模型参数,基于所述第一数量的训练标注语料信息对所述调整后的拟用多类别实体识别模型进行实体类别预测训练,至拟用多类别实体识别模型输出的第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一数量的训练标注语料信息对所述预设深度学习模型进行多类别实体识别训练,得到拟用多类别实体识别模型包括:
将所述第一数量的训练标注语料信息中的多维度信息输入所述预设深度学习模型的特征输入转换层进行特征转化处理,得到多维度的特征向量;
将所述多维度的特征向量输入所述预设深度学习模型的语义序列表征层进行实体语义特征表征和实体语义表征特征的拼接处理,得到多维度的语义特征向量;
将所述多维度的语义特征向量输入所述预设深度学习模型的实体特征筛选层进行实体类别特征筛选,得到实体类别特征向量;
将所述多维度的语义特征向量和所述实体类别特征向量输入所述预设深度学习模型的类别实体输出层进行多类别实体识别,得到第二识别结果;
基于所述第二识别结果与所述第一数量的训练标注语料信息中的实体和实体类别标签调整所述预设深度学习模型中的模型参数,得到拟用多类别实体识别模型。
5.根据权利要求1所述的方法,其特征在于,所述对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息包括:
对所述目标标注语料信息中的语料信息进行分词处理,得到所述目标标注语料信息的分词信息;
对所述分词信息进行分字处理,得到所述目标标注语料信息的分字信息;
对所述分词信息进行词性分析,得到所述目标标注语料信息的词性信息;
将所述分词信息、分字信息和所述词性信息作为所述目标标注语料信息的多维度信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910397908.3/1.html,转载请声明来源钻瓜专利网。