[发明专利]从翻译源原文生成相似文的方法、记录介质、装置以及系统有效

申请号：	201710674166.5	申请日：	2017-08-09
公开（公告）号：	CN107870901B	公开（公告）日：	2023-05-12
发明（设计）人：	山内真树;藤原菜菜美;今出昌宏	申请（专利权）人：	松下知识产权经营株式会社
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/279
代理公司：	北京市中咨律师事务所 11247	代理人：	段承恩;徐健
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	翻译原文生成相似方法记录介质装置以及系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种方法，是从翻译源原文生成相似文的方法，包括：

输入第1文；

从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句，所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联；

根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值，所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联，所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度；

从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中，提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句；

对所述一个以上的第3词句，算出在第3数据库中的出现频度，所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联；

判定算出的所述出现频度是否在阈值以上；

在判定为算出的所述出现频度在所述阈值以上的情况下，采用所述一个以上的第2文作为所述第1文的相似文，并输出给外部的设备。

2.根据权利要求1所述的方法，

所述第1文用第1语言记述，

所述第1文包含于对译语料库，所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文，

所述方法还包括：

在判定为算出的所述出现频度在所述阈值以上的情况下，将所述一个以上的第2文作为所述第1文的相似文追加到所述对译语料库中。

3.根据权利要求1或2所述的方法，

所述第3数据库包括N-gram语言模型数据库，

所述方法还包括：

根据所述语境依赖值，将所述N-gram语言模型的N决定为i，在此，i为正整数；

通过查对所述第3数据库，求取包括所述第2词句的i-gram的出现频度；

基于包括所述第2词句的i-gram的出现频度，判定是否采用所述一个以上的第2文作为所述第1文的相似文。

4.根据权利要求1或2所述的方法，还包括：

使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文，所述翻译模型基于被判定为作为所述第1文的相似文来采用的所述一个以上的第2文、和将生成了所述一个以上的第2文的所述第1文用第2语言进行翻译所得到的翻译文而生成；

评价所述翻译结果文；

基于所述翻译结果文的评价结果，生成反馈信息，所述反馈信息包括关于所述翻译对象文的语言和/或所述翻译结果文的语言的语言信息、以及对于所述语言信息的评价信息。

5.根据权利要求4所述的方法，

使用所述反馈信息对所述第1数据库、所述第2数据库和所述第3数据库中的至少一方进行更新。

6.根据权利要求4所述的方法，

在所述反馈信息包括具有语境依赖性的所述第2词句的情况下，对所述第2数据库以及所述第3数据库进行更新。

7.根据权利要求4所述的方法，

在所述反馈信息包括新的文表达的情况下，根据所述文表达来改变所述第2数据库的语境依赖值。

8.根据权利要求4所述的方法，

在所述反馈信息包括新的文表达的情况下，更新所述第3数据库以使其包括所述文表达。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于松下知识产权经营株式会社，未经松下知识产权经营株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710674166.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载