[发明专利]一种文本翻译模型的训练方法、文本翻译的方法及装置在审
申请号: | 202011271673.2 | 申请日: | 2020-11-13 |
公开(公告)号: | CN112257472A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 王龙跃;刘宏烨 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/45 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 陈松浩 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 翻译 模型 训练 方法 装置 | ||
1.一种文本翻译模型的训练方法,其特征在于,包括:
获取第一文本以及第二文本,其中,所述第一文本对应于源语种,所述第二文本对应于目标语种,所述源语种与所述目标语种属于不同的语种;
若所述第一文本以及所述第二文本满足文本对齐条件,则获取第一待训练平行文本,其中,所述第一待训练平行文本包括第一句子以及第二句子,所述第一句子来源于所述第一文本,所述第二句子来源于所述第二文本,且所述第二句子为所述第一句子对应的翻译结果;
基于所述第一待训练平行文本所包括的所述第一句子,通过文本翻译模型获取第一翻译文本;
根据所述第一翻译文本以及所述第二句子,对所述文本翻译模型进行训练。
2.根据权利要求1所述的训练方法,其特征在于,所述获取第一文本以及第二文本,包括:
获取第一链接地址以及第二链接地址;
根据所述第一链接地址获取第一元信息,其中,所述第一元信息包括所述第一文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
若所述第一元信息满足文本更新条件,则获取所述第一文本;
根据所述第二链接地址获取第二元信息,其中,所述第二元信息包括所述第二文本所对应的标题信息、章节名称、作者信息、文本类型、译员信息、完结标识以及更新日期中的至少一项;
若所述第二元信息满足所述文本更新条件,则获取所述第二文本。
3.根据权利要求1所述的训练方法,其特征在于,所述获取第一文本以及第二文本之后,所述方法还包括:
根据所述第一文本以及所述第二文本,确定标题匹配结果;
根据所述第一文本以及所述第二文本,确定章节匹配结果;
若所述标题匹配结果以及所述章节匹配结果均为第一匹配结果,则确定所述第一文本以及所述第二文本满足所述文本对齐条件,其中,所述第一匹配结果表示匹配成功;
若所述标题匹配结果以及所述章节匹配结果中的至少一项为第二匹配结果,则确定所述第一文本以及所述第二文本未满足所述文本对齐条件,其中,所述第二匹配结果表示匹配失败。
4.根据权利要求3所述的训练方法,其特征在于,所述根据所述第一文本以及所述第二文本,确定标题匹配结果,包括:
获取所述第一文本所对应的第一标题信息以及所述第二文本所对应的第二标题信息;
基于多语种标题集合,对所述第一标题信息以及所述第二标题信息进行匹配,得到所述标题匹配结果,其中,所述多语种标题集合包括至少一组标题信息,每组标题信息至少包括所述源语种所对应的标题信息以及所述目标语种所对应的标题信息。
5.根据权利要求3所述的训练方法,其特征在于,所述根据所述第一文本以及所述第二文本,确定章节匹配结果,包括:
获取所述第一文本的第一章节信息以及所述第二文本的第二章节信息,其中,所述第一章节信息包括第一词语以及第一章节编号,所述第二章节信息包括第二词语以及第二章节编号;
基于多语种词语集合,对所述第一章节信息所包括的所述第一词语以及所述第二章节信息所包括的第二词语进行匹配,得到第一匹配子结果;
对所述第一章节信息所包括的所述第一章节编号以及所述第二章节信息所包括的第二章节编号进行匹配,得到第二匹配子结果;
根据所述第一匹配子结果以及所述第二匹配子结果,确定所述章节匹配结果。
6.根据权利要求1所述的训练方法,其特征在于,所述获取第一待训练平行文本,包括:
获取所述第一文本中的源端句子;
基于所述源端句子,通过所述文本翻译模型获取第一待匹配句子;
获取所述第一待匹配句子以及所述第二文本中的K个第二待匹配句子,其中,所述K为大于或等于1的整数;
根据所述第一待匹配句子以及所述K个第二待匹配句子,确定K个匹配分值,其中,每个匹配分值对应于一个第二待匹配句子与所述第一待匹配句子;
若所述K个匹配分值中的最大值大于或等于匹配分阈值,则将所述第一待匹配句子确定为所述第一句子,并将所述最大值所对应的第二待匹配句子确定为所述第二句子;
根据所述第一句子以及所述第二句子,获取所述第一待训练平行文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011271673.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种经皮钉体外定位器
- 下一篇:一种大功率液压联轴节试验台架