[发明专利]语料定位方法、意图识别方法及其模型训练方法、装置在审
申请号: | 202210709466.3 | 申请日: | 2022-06-21 |
公开(公告)号: | CN115033664A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 华倩龄;赵华;鞠剑勋;李健 | 申请(专利权)人: | 携程旅游信息技术(上海)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F16/36;G06F40/216;G06F40/242;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 罗朗;林嵩 |
地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 定位 方法 意图 识别 及其 模型 训练 装置 | ||
本发明公开了一种语料定位方法、意图识别方法及其模型训练方法、装置、设备以及介质。语料定位方法的训练方法包括:获取多组训练样本,将训练样本中的查询文本和查询文本输入预训练模型进行特征提取,得到特征提取结果;对训练样本的整体特征、查询文本包含的各个字的字特征、以及查询文本的整体特征进行二次特征提取,得到词特征;将特征提取结果以及词特征输入机器阅读理解模型;根据查询本文在语料中的标注定位信息以及预测定位信息,计算机器阅读理解模型的第一计算误差,并根据第一计算误差调整机器阅读理解模型的参数,直至满足收敛条件,得到训练好的语料定位模型。将特征提取结果以及词特征输入机器阅读理解模型,输出更加准确。
技术领域
本发明涉及计算机领域,尤其涉及一种语料定位方法、意图识别方法及其模型训练方法、装置、设备以及介质。
背景技术
当前的意图识别方法主要是基于词典和规则的方法,但是上述的方法中当用户输入的查询文本较为复杂的时候,需要运用机器学习以及深度学习来灵活处理查询文本。但是上述技术对于语料中的重要信息定位能力比较弱。
发明内容
本发明要解决的技术问题是为了克服现有技术中语料中的重要信息定位能力比较弱的缺陷,提供一种语料定位方法、意图识别方法及其模型训练方法、装置、设备以及介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种语料定位的模型训练方法,包括以下步骤:
获取多组训练样本,每组训练样本包括查询文本以及语料集,所述语料集包含与所述查询文本对应的至少一个语料;
对于每组训练样本,将所述查询文本和所述查询文本输入预先训练的预训练模型进行特征提取,得到特征提取结果;其中,所述特征提取结果包括所述训练样本的整体特征、所述查询文本的整体特征、所述查询文本包含的各个字的字特征、所述语料集的整体特征、所述语料集包含的各个字的字特征;
对所述训练样本的整体特征、所述查询文本包含的各个字的字特征、以及所述查询文本的整体特征进行二次特征提取,得到词特征;
将所述特征提取结果以及所述词特征输入机器阅读理解模型,所述机器阅读理解模型用于输出所述查询本文在所述语料中的预测定位信息;
根据所述查询本文在所述语料中的标注定位信息以及所述预测定位信息,计算所述机器阅读理解模型的第一计算误差,并根据所述第一计算误差调整所述机器阅读理解模型的参数,直至满足收敛条件,得到训练好的语料定位模型。
优选地,所述机器阅读理解模型用于输出所述查询本文在所述语料中的预测定位信息的步骤具体包括:
将所述机器阅读理解模型的输出结果经Softmax模型化归为对应于所述查询文本中每个字的第一概率;
所述逻辑向量的各维度与预计算结果中每个字的特征所对应;所述预测定位信息为所述第一概率中最高的字的位置。
具体地,所述机器阅读理解模型用于输出所述查询本文在所述语料中的预测定位信息的步骤具体包括:
将所述机器阅读理解模型的输出结果经Softmax模型化归为对应于所述查询文本中每个字的第一概率;
所述逻辑向量的各维度与预计算结果中每个字的特征所对应;所述预测定位信息为所述第一概率中最高的字的位置。
优选地,所述获取查询文本与所述查询文本对应的语料集的步骤具体包括以下步骤:
确定所述查询文本的相似词;
将包含所述查询文本和/或所述相似词的语料,确定为与所述查询文本对应的语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游信息技术(上海)有限公司,未经携程旅游信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210709466.3/2.html,转载请声明来源钻瓜专利网。