[发明专利]一种基于用户词典的神经机器翻译方法有效
| 申请号: | 201910099168.5 | 申请日: | 2019-01-31 |
| 公开(公告)号: | CN109840331B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 杜权;徐萍 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06F40/216;G06N3/0455;G06N3/08 |
| 代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
| 地址: | 110004 辽宁省*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 用户 词典 神经 机器翻译 方法 | ||
1.一种基于用户词典的神经机器翻译方法,其特征在于包括以下步骤:
1)构造用户词典:通过网络爬虫技术从网络中爬取海量数据,然后使用命名实体识别技术和命名实体抽取技术从语料中获取双语词对构建用户词典;
2)训练语料词典化:使用用户词典对训练语料进行词典化,将双语语料中包含的词典中出现的词对用占位符代替并抽取出来与原始语料混合在一起,形成新的训练语料,作为神经网络模型训练的输入;
3)用户词典一致性检测:同时读取双语数据中的句对,对句对中所包含的用户词典占位符进行一致性检测,以确认占位符是否同时在源语言和目标语言两端同时出现,以保证模型的性能;
4)模型训练:使用用户词典经步骤2)~3)对训练数据进行处理后,将处理后的数据输入到神经网络模型中开始训练模型至模型收敛;
5)使用用户词典翻译:神经网络模型训练完成后,输入包含用户词典的句子,模型先将目标语中包含用户词典信息位置的词置为占位符,之后通过查找词典后处理操作获取词典信息替换占位符同时进行翻译,获得与用户词典中信息相匹配的高精度译文;
步骤2)中,训练语料词典化具体包括以下步骤:
201)输入训练机器翻译系统的双语平行数据、源语用户词典和目标语用户词典,源语用户词典和目标语用户词典中每一行对应一个词对,互为译文;
202)使用相同的分词工具对双语平行数据、源语用户词典和目标语用户词典进行分词,以确保在下一步用户词典匹配过程中能够在训练语句中匹配到对应的词典信息;
203)根据源语用户词典和目标语用户词典的对应关系将源语用户词典和目标语用户词典合并在一起,生成双语用户词典,使源语用户词典中的词和目标语用户词典中的词相互对应存储,令源语用户词典中每个词都有目标语与之对应,其格式如下所示:
信息 管理 能力 Function department $userdict
其中,针对源语生成的用户词典中第一列为源语,第二列为目标语,第三列为占位符,该词典用于处理源语数据;反之,用于处理目标语数据的用户词典中第一列为目标语,第二列为源语;
204)使用双语用户词典分别遍历双语平行数据,对双语数据做词典化处理;词典化后的双语平行数据中,每一个包含用户词典中的词对的句子都用占位符进行替换,对每个句子中出现的占位符添加序号;
205)对词典化后的双语平行语料进行过滤,将包含占位符的数据与原始数据混合在一起构成新的双语平行数据;
步骤204)中,对每个句子中出现的占位符添加序号为:第一个出现的占位符为$userdict1,第二个为$userdict2;在同一句子中出现的第三个及更多的用户词典中的词对,都不再添加区分序号,使用$userdict代替。
2.根据权利要求1所述的基于用户词典的神经机器翻译方法 ,其特征在于步骤204)中,词典化处理为:
首先,用S表示平行数据中的一个输入语句,w表示该句子中可能出现的所有词或连续短语;
从S的句首开始遍历所有符合条件的w并在用户词典中搜索;
若在用户词典中搜索到词或短语,则将句子中的词或短语用占位符$userdict替代,同时将与w匹配的用户词典中的词对信息INFO追加到S的句尾。
3.根据权利要求2所述的基于用户词典的神经机器翻译方法 ,其特征在于:若是句子中的所有词都未在用户词典中出现,无需做其它处理,转至遍历双语数据是否完成步骤,如果遍历双语数据步骤完成,转至步骤205)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910099168.5/1.html,转载请声明来源钻瓜专利网。





