[发明专利]商品标题文本翻译方法及其装置、设备、介质、产品在审
| 申请号: | 202111665083.2 | 申请日: | 2021-12-31 |
| 公开(公告)号: | CN114492470A | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 钟裕滨;庞磊 | 申请(专利权)人: | 广州华多网络科技有限公司 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06F40/295;G06F40/30;G06F16/35;G06N3/08 |
| 代理公司: | 广州利能知识产权代理事务所(普通合伙) 44673 | 代理人: | 王增鑫 |
| 地址: | 511442 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 商品 标题 文本 翻译 方法 及其 装置 设备 介质 产品 | ||
1.一种商品标题文本翻译方法,其特征在于,包括如下步骤:
获取用于描述商品信息的标题文本,确认该标题文本所携带的至少一个词汇包含多个对应的译文;
识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词;
构造包含所述领域词的示范模板,将其与该标题文本组合为源语言文本;
采用已训练至收敛状态的机器翻译模型对所述源语言文本进行翻译,获得该源语言文本相对应的目标语言文本,从目标语言文本中获得标题文本的译文。
2.根据权利要求1所述的商品标题文本翻译方法,其特征在于,获取用于描述商品信息的标题文本,确认该标题文本所携带的至少一个词汇包含多个对应的译文,包括如下步骤:
获取用于描述商品信息的标题文本,对所述标题文本进行分词,获得多个词汇;
查询预设的翻译词典,以判断确认标题文本中的至少一个词汇是否包含多个译文;其中,所述翻译词典包含词汇的源语言文本与其多个不同译文的目标语言文本之间的映射关系数据。
3.根据权利要求1所述的商品标题文本翻译方法,其特征在于,识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词,包括如下步骤:
对所获取的标题文本进行分词,获得多个词汇;
检测所述标题文本的各个词汇是否命中各个领域词典,量化出标题文本命中各个领域词典相对应的命中率,每个领域词典关联一个领域词,且收藏属于其相对应的特定领域的词汇;
判定所述命中率最大的领域词典为与所述标题文本相匹配的领域词典,确定该领域词典相对应的领域词以确定该标题文本相对应的领域类别。
4.根据权利要求1所述的商品标题文本翻译方法,其特征在于,识别该确认的标题文本所属的领域类别,确定该领域类别相对应的领域词,包括如下步骤:
采用预先训练至收敛状态的标题分类模型,对所获取的标题文本进行分类映射,获得该标题文本相对应的领域类别;
根据所述领域类别获得其相对应的领域词。
5.根据权利要求1所述的商品标题文本翻译方法,其特征在于,构造包含所述领域词的示范模板,将其与该标题文本组合为源语言文本,包括如下步骤:
根据预设规则生成示范模板,使该示范模板中包含所述标题文本相对应的领域词及固定词;
将所述示范模板作为前缀或后缀与所述标题文本相拼接,构成源语言文本。
6.根据权利要求1至5中任意一项所述的商品标题文本翻译方法,其特征在于,所述机器翻译模型事为预训练模型,被采用如下步骤实施微调训练:
获取预设的训练数据集中的一个训练样本,该训练样本包括构成平行语料的源语言样本及其相对应的目标语言样本,每个语言样本包括以相应语言表达的示范模板及用于描述商品信息的标题文本,所述示范模板包含其相应的标题文本所对应的领域词;
将所获取的训练样本输入经预训练的所述机器翻译模型对其实施训练,获得该模型对该训练样本中的源语言样本的预测结果;
采用该训练样本的目标语言样本计算该预测结果的损失,获得损失值;
判断所述损失值是否达到预设阈值,当该损失值达到预设阈值时,确认模型训练至收敛状态,终止训练;否则,对模型实施参数回传实现梯度更新,调用所述训练数据集中的下一训练样本对模型实施迭代训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111665083.2/1.html,转载请声明来源钻瓜专利网。





