[发明专利]一种基于迭代降维的词典翻译方法在审
| 申请号: | 202210267120.2 | 申请日: | 2022-03-17 |
| 公开(公告)号: | CN114722844A | 公开(公告)日: | 2022-07-08 |
| 发明(设计)人: | 杨迪;姜炎宏 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/49;G06F40/289;G06N20/00;G06F17/16 |
| 代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
| 地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 迭代降维 词典 翻译 方法 | ||
1.一种基于迭代降维的词典翻译方法,其特征在于包括以下步骤:
1)网上收集任意两个语种的单语语料,使用通用的分词工具分别进行分词后得到训练数据,之后将训练数据用词嵌入算法以相同的参数配置训练出两个语种的词嵌入空间X和Y;
2)利用主成分分析算法将两个单语词嵌入X和Y分别进行降维至规定阈值的维度d;
3)将降维后的词嵌入输入到现有的无监督词典翻译算法中进行训练,模型收敛后保存两个共享词嵌入空间WX与WY;
4)以CSLS作为度量距离在两个共享词嵌入空间WX与WY推断出词频在规定阈值以上的互译词典D;
5)以互译词典D以及降维至维度为2*d的词嵌入输入到监督词典翻译算法中进行训练,模型收敛后保存两个共享词嵌入空间WX与WY;
6)重复步骤4)和步骤5),其中每一轮中词嵌入维度d为上一轮维度的两倍,直到与原始词嵌入维度相等为止;模型收敛后从两个共享的词嵌入WX与WY中进行词典翻译即可得到最终的双语词典。
2.按权利要求1所述的基于迭代降维的词典翻译方法,其特征在于:在步骤1)中,网上收集任意两个语种的单语语料,经过预处理后使用词嵌入算法训练得到两个语种的词嵌入空间X和Y,具体为:
101)网上收集任意两个语种的单语语料,进行清洗去重,对于以空格作为单词分隔符的语种就以空格进行分词,对于没有单词分隔符的语种则以语种相应的分词工具作为分词工具,预处理后形成训练数据;
102)将得到的训练数据用现有的词嵌入算法以相同的参数配置分别进行训练,模型收敛后得到两个语种的词嵌入空间X和Y。
3.按权利要求1所述的基于迭代降维的词典翻译方法,其特征在于:在步骤2)中,利用主成分分析算法将两个单语词嵌入X和Y分别降维至规定的维度d。
4.按权利要求1所述的基于迭代降维的词典翻译方法,其特征在于:在步骤3)中,将两个降维后的词嵌入空间作为输入,基于词嵌入空间近似同构的假设,利用无监督词典翻译算法来得到两个共享词嵌入空间WX与WY,具体如下:
301)初始化阶段得到互译词典,计算然后将矩阵MX和MY按照行进行排序,之后以CSLS作为度量距离推断出词频在规定阈值前的互译词典D,CSLS的计算方式如下:
CSLS(WXxs,WYyt)=2cos(WXxs,WYyt)-rT(WXxs)-rS(WYyt)
其中,WX为词嵌入X的映射矩阵,xs为词嵌入X中的任意一点,WY为词嵌入Y的映射矩阵,yt为词嵌入Y中的任意一点,cos为余弦距离,rT和rS为两个惩罚项,计算方式为:
其中,为点WXxs在词嵌入空间Y中的K个近邻点集合,为点WYyt在词嵌入空间X中的K个近邻点集合;
302)利用互译词典迭代微调阶段提升性能,以X*和Y*表示互译词典D中源语言单词和目标语言单词的词嵌入矩阵,计算W*=UVT,其中U和VT通过奇异值分解得出,即UΣVT=SVD(Y*X*T),利用上式可以获得新的W*,通过W*可以归纳出新的互译词典D,如此迭代进行微调,待模型收敛后保存两个共享词嵌入空间WX与WY。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210267120.2/1.html,转载请声明来源钻瓜专利网。





