[发明专利]一种计算机辅助翻译方法及装置有效

申请号：	202010519190.3	申请日：	2020-06-09
公开（公告）号：	CN111652006B	公开（公告）日：	2021-02-09
发明（设计）人：	刘鹏;周玉;邓彪	申请（专利权）人：	北京中科凡语科技有限公司
主分类号：	G06F40/58	分类号：	G06F40/58
代理公司：	北京市盛峰律师事务所 11337	代理人：	席小东
地址：	100190 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种计算机辅助翻译方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种计算机辅助翻译方法，其特征在于，包括以下步骤：

步骤1，接收待翻译文本；

步骤2，根据术语表，匹配待翻译文本中的所有术语，从而在待翻译文本中，定位到每一个术语；

步骤3，将步骤2定位到的每一个术语，替换为特殊标记；其中，对于同一种术语，替换为相同的特殊标记；对于不同种的术语，替换为不相同的特殊标记；

步骤4，对于每一种术语，采用以下方法计算术语的每一种译文的原文匹配度：

步骤4.1，设原文语种的术语为e₀，具有n种目标语种的译文，分别为c₁、c₂、C₃...C_n；

步骤4.2，在原文语种的待翻译文本中，取术语e₀的上下文信息，假设取术语e₀的前面相邻的m个原文语种的词，分别为：e_-m，...，e_-2，e_-1；取术语e₀的后面相邻的u个原文语种的词，分别为：e₁，e₂，...，e_u；

将术语e₀的上下文信息和术语e₀组成原文关键信息e_-m，...，e_-2，e_-1，e₀，e₁，e₂，...，e_u；将原文关键信息分别和每一种目标语种的译文组成形成一种原文关键组合信息，然后以原文关键组合信息为查询条件，在搜索引擎中查找原文关键组合信息的出现次数，即：分别查找以下原文关键组合信息的出现次数：

count(c₁)＝query(e_-m，...，e_-2，e_-1，e₀，e₁，e₂，...，e_u，c₁)

count(c₂)＝query(e_-m，...，e_-2，e_-1，e₀，e₁，e₂，...，e_u，c₂)

count(c₃)＝query(e_-m，...，e_-2，e_-1，e₀，e₁，e₂，...，e_u，c₃)

……

count(c_n)＝query(e_-m，...，e_-2，e_-1，e₀，e₁，e₂，...，e_u，c_n)

其中：

count(c₁)为译文c₁对应的原文关键组合信息的出现次数；

count(c₂)为译文c₂对应的原文关键组合信息的出现次数；

count(c₃)为译文c₃对应的原文关键组合信息的出现次数；

依此类推

count(c_n)为译文c_n对应的原文关键组合信息的出现次数；

步骤4.3，对于术语e₀的第i种目标语种译文c_i，其中，i＝1，2，...，n；采用以下公式计算第i种目标语种译文c_i的原文匹配度M_src(c_i)：

步骤5，步骤3将术语替换为特殊标记后，得到术语替换后的待翻译文本；然后，将术语替换后的待翻译文本输送到翻译引擎，使用机器翻译技术将其翻译为目标语种，得到候选译文；

步骤6，在候选译文中，定位到特殊标记，即定位到术语位置；根据候选译文中的术语位置，计算术语每种翻译的译文匹配度，具体方法为：

步骤6.1，假设术语e₀替换为的特殊标记表示为e^#₀；在候选译文中，取特殊标记e^#₀的上下文信息，假设取特殊标记e^#₀的前面相邻的w个目标语种的词，分别为：p_-w，...，p_-2，p_-1；取特殊标记e^#₀的后面相邻的v个目标语种的词，分别为：p₁，p₂，...，p_v；

将特殊标记e^#₀的上下文信息组成译文关键信息：p_-w，...，p_-2，p_-1，p₁，p₂，...，p_v；

步骤6.2，术语e₀共有n种目标语种的译文，分别为c₁、c₂、c₃...c_n；对于任意一种目标语种译文ci，按下面方法计算目标语种译文c_i的译文匹配度M_tgt(c_i)：

A.1)采用下式计算目标语种译文c_i的语言模型得分LM(c_i)：

LM(c_i)＝log(p_word(p_-w，...，p_-2，p_-1，p₁，p₂，...，p_v))

其中：

采用大量原文语种的文本对语言模型进行训练，得到目标语种的语言模型；

然后，计算术语e₀在候选译文中的上下文的语言模型得分，即为目标语种译文c_i的语言模型得分；

p_word(.)是根据目标语种的语言模型得到的表达式；

A.2)采用下式计算目标语种译文c_i的词法得分POS(c_i)：

POS(c_i)＝log(p_pos(p_-w，...，p_-2，p_-1，p₁，p₂，...，p_v))

其中：

采用大量原文语种的文本对词性序列训练，得到目标语种的词性序列模型；然后，计算术语e₀在候选译文中的上下文的词性序列得分，即为目标语种译文c_i的词性序列得分；

p_pos(.)是根据目标语种的词性序列模型得到的表达式；

A.3)按照如下公式计算目标语种译文c_i的译文匹配度M_tgt(c_i)：

M_tgt(c_i)＝β·LM(c_i)+(1-β)·POS(c_i)

其中：

β是0到1之间的译文匹配度系数；

步骤7，因此，对于术语e₀的每种目标语种译文c_i，均得到原文匹配度M_src(c_i)和译文匹配度M_tgt(c_i)；采用下式，计算术语e₀的每种目标语种译文c_i的最终得分M(c_i)：

M(c_i)＝α·M_src(c_i)+(1-α)·M_tgt(c_i)

其中：

α是0到1之间的译文最终得分系数；

步骤8，将最终得分最高的目标语种译文表示为c_max；目标语种译文c_max即为术语e₀的最终翻译译文；

根据术语e₀的特殊标记，在步骤5得到的候选译文中定位到对应的特殊标记；然后，用最终翻译译文c_max替换对应的特殊标记，得到最终的翻译译文；

步骤9，输出最终的翻译译文。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司，未经北京中科凡语科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010519190.3/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种计算机辅助翻译方法及装置有效

专利文献下载