[发明专利]一种基于迭代降维的词典翻译方法在审

申请号：	202210267120.2	申请日：	2022-03-17
公开（公告）号：	CN114722844A	公开（公告）日：	2022-07-08
发明（设计）人：	杨迪;姜炎宏	申请（专利权）人：	沈阳雅译网络技术有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/44;G06F40/49;G06F40/289;G06N20/00;G06F17/16
代理公司：	沈阳新科知识产权代理事务所(特殊普通合伙) 21117	代理人：	李晓光
地址：	110004 辽宁省沈阳市***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于迭代降维词典翻译方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于迭代降维的词典翻译方法，其特征在于包括以下步骤：

1)网上收集任意两个语种的单语语料，使用通用的分词工具分别进行分词后得到训练数据，之后将训练数据用词嵌入算法以相同的参数配置训练出两个语种的词嵌入空间X和Y；

2)利用主成分分析算法将两个单语词嵌入X和Y分别进行降维至规定阈值的维度d；

3)将降维后的词嵌入输入到现有的无监督词典翻译算法中进行训练，模型收敛后保存两个共享词嵌入空间W_X与W_Y；

4)以CSLS作为度量距离在两个共享词嵌入空间W_X与W_Y推断出词频在规定阈值以上的互译词典D；

5)以互译词典D以及降维至维度为2*d的词嵌入输入到监督词典翻译算法中进行训练,模型收敛后保存两个共享词嵌入空间W_X与W_Y；

6)重复步骤4)和步骤5)，其中每一轮中词嵌入维度d为上一轮维度的两倍，直到与原始词嵌入维度相等为止；模型收敛后从两个共享的词嵌入W_X与W_Y中进行词典翻译即可得到最终的双语词典。

2.按权利要求1所述的基于迭代降维的词典翻译方法，其特征在于：在步骤1)中，网上收集任意两个语种的单语语料，经过预处理后使用词嵌入算法训练得到两个语种的词嵌入空间X和Y，具体为：

101)网上收集任意两个语种的单语语料，进行清洗去重，对于以空格作为单词分隔符的语种就以空格进行分词，对于没有单词分隔符的语种则以语种相应的分词工具作为分词工具，预处理后形成训练数据；

102)将得到的训练数据用现有的词嵌入算法以相同的参数配置分别进行训练，模型收敛后得到两个语种的词嵌入空间X和Y。

3.按权利要求1所述的基于迭代降维的词典翻译方法，其特征在于：在步骤2)中，利用主成分分析算法将两个单语词嵌入X和Y分别降维至规定的维度d。

4.按权利要求1所述的基于迭代降维的词典翻译方法，其特征在于：在步骤3)中，将两个降维后的词嵌入空间作为输入，基于词嵌入空间近似同构的假设，利用无监督词典翻译算法来得到两个共享词嵌入空间W_X与W_Y，具体如下：

301)初始化阶段得到互译词典，计算然后将矩阵M_X和M_Y按照行进行排序，之后以CSLS作为度量距离推断出词频在规定阈值前的互译词典D，CSLS的计算方式如下：

CSLS(W_Xx_s,W_Yy_t)＝2cos(W_Xx_s,W_Yy_t)-r_T(W_Xx_s)-r_S(W_Yy_t)

其中，W_X为词嵌入X的映射矩阵，x_s为词嵌入X中的任意一点，W_Y为词嵌入Y的映射矩阵，y_t为词嵌入Y中的任意一点，cos为余弦距离，r_T和r_S为两个惩罚项，计算方式为：

其中，为点W_Xx_s在词嵌入空间Y中的K个近邻点集合，为点W_Yy_t在词嵌入空间X中的K个近邻点集合；

302)利用互译词典迭代微调阶段提升性能，以X^*和Y^*表示互译词典D中源语言单词和目标语言单词的词嵌入矩阵，计算W^*＝UV^T，其中U和V^T通过奇异值分解得出，即UΣV^T＝SVD(Y^*X^*T)，利用上式可以获得新的W^*，通过W^*可以归纳出新的互译词典D，如此迭代进行微调，待模型收敛后保存两个共享词嵌入空间W_X与W_Y。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司，未经沈阳雅译网络技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210267120.2/1.html，转载请声明来源钻瓜专利网。

上一篇：基于ADASYN算法和随机森林算法的故障诊断方法及系统
下一篇：基于电缆分支箱的可拆卸灭火装置及其使用方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于迭代降维的词典翻译方法在审

专利文献下载