[发明专利]数据处理方法、装置及计算机存储介质在审
申请号: | 202110080558.5 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112784611A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 张高伟;赵德祥;孔二勇;刘宇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/232;G06F16/33;G06F16/387;G06N3/08 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;兰淑铎 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 计算机 存储 介质 | ||
1.一种数据处理方法,包括:
获取包含正确语料元素和错误语料元素的真实平行语料,用所述真实平行语料训练反向错误生成模型;
获取模拟正确语料元素,用所述反向错误生成模型预测所述模拟正确语料元素对应的模拟错误语料元素,生成包含所述模拟正确语料元素和对应的模拟错误语料元素的模拟平行语料;
用所述模拟平行语料训练序列映射模型得到预训练模型;
用所述真实平行语料进行所述预训练模型调整,得到纠错模型。
2.如权利要求1所述的方法,其中,用所述真实平行语料进行所述预训练模型调整,包括:
采用所述真实平行语料训练所述预训练模型,在训练过程中,增大所述真实平行语料中的错误语料元素包含的错误字符所对应的交叉熵的权重系数。
3.如权利要求1所述的方法,其中,用所述真实平行语料进行所述预训练模型调整,包括:
采用所述真实平行语料训练所述预训练模型,在训练过程中,按照真实平行语料包含的字符的顺序调整字符所对应的交叉熵的权重系数,其中,字符排序越靠前,该字符所对应的交叉熵的权重系数越大。
4.如权利要求1所述的方法,其中,用所述真实平行语料进行所述预训练模型调整,包括:
采用包含所述模拟平行语料和真实平行语料的混合语料集合调整所述预训练模型;或者,
采用包含所述真实平行语料的单一语料集合调整所述预训练模型。
5.如权利要求1所述的方法,其中,用所述模拟平行语料训练序列映射模型得到预训练模型,包括:
根据所述模拟平行语料训练序列映射模型得到中间预训练模型;
获取预先确定的错误语料,根据所述错误语料调整所述中间预训练模型,得到调整后的目标预训练模型,其中,所述错误语料中错误语料元素与正确语料元素的差异程度大于所述模拟平行语料中模拟错误语料元素与模拟正确语料元素的差异程度。
6.如权利要求1所述的方法,其中,用所述模拟平行语料训练序列映射模型得到预训练模型,包括:
确定切词粒度,对所述模拟正确语料元素和模拟错误语料元素进行切词处理;
根据切词后的模拟正确语料元素和模拟错误语料元素训练所述列映射模型得到预训练模型。
7.如权利要求6所述的方法,确定切词粒度,包括:
确定所述模拟正确语料元素和模拟错误语料元素的差异部分,将所述差异部分的长度作为切词粒度;和/或,
以单个字符作为切词粒度。
8.如权利要求6所述的方法,确定切词粒度,对所述模拟正确语料元素和模拟错误语料元素进行切词处理,包括:
从多个预设的切词粒度中,确定待使用的切词粒度,其中,所述多个预设的切词粒度包括:单字粒度、词组粒度、语句粒度、混合粒度,所述混合粒度用于指示以单字、词组和语句中部分或全部的组合为粒度;
根据待使用的切词粒度,对所述模拟正确语料元素和所述模拟错误语料元素进行对应切词处理。
9.一种数据处理方法,包括:
接收携带查询词的查询请求;
通过训练完成的纠错模型,对存在错误的查询词进行纠错处理,获得正确的查询词,其中,所述纠错模型为根据权利要求1-8中任一项所述的数据处理方法获得的纠错模型;
根据所述纠错后的查询词,召回所述查询请求对应的查询结果。
10.一种数据处理装置,包括:
错误模型训练模块,获取包含正确语料元素和错误语料元素的真实平行语料,用所述真实平行语料训练反向错误生成模型;
模拟模块,获取模拟正确语料元素,用所述反向错误生成模型预测所述模拟正确语料元素对应的模拟错误语料元素,生成包含所述模拟正确语料元素和对应的模拟错误语料元素的模拟平行语料;
预训练模块,用所述模拟平行语料训练序列映射模型得到预训练模型;
纠错模型训练模块,用所述真实平行语料进行所述预训练模型调整,得到纠错模型。
11.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-8中任一所述的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110080558.5/1.html,转载请声明来源钻瓜专利网。