[发明专利]通过动态学习提取规则来获取词表外的翻译有效
| 申请号: | 200980161654.X | 申请日: | 2009-09-25 |
| 公开(公告)号: | CN102550049A | 公开(公告)日: | 2012-07-04 |
| 发明(设计)人: | 史磊 | 申请(专利权)人: | 雅虎公司 |
| 主分类号: | H04W4/00 | 分类号: | H04W4/00 |
| 代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 宋鹤 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 通过 动态 学习 提取 规则 获取 词表 翻译 | ||
技术领域
本公开的技术涉及提取并利用来自双语网页的术语翻译知识。
背景技术
查询翻译是交叉语言信息检索(CLIR)系统利用的一种通用技术,其中CLIR系统被设计为检索被以不同于用户查询的语言写出的信息。CLIR系统被实现在搜索引擎、在线词典、以及需要翻译术语的很多其他应用中。对于包含有不能利用翻译对的已知数据库来翻译的词表外(OOV)术语的查询,系统性能严重劣化。例如,针对汉语搜索引擎的查询日志的分析揭示了以下信息:在被最频繁地搜索的19,124个术语中有超过80%没有被包括在一般的汉英词典中。由于web查询的平均长度比较短(诸如,两个或三个词),所以OOV术语在查询中的单次出现都会严重劣化检索出的搜索结果的相关性。为了解决OOV问题,可以建立一般双语词典中不包括的已知翻译的数据库,但是需要翻译的新术语不断地进入该词汇手册。例如,对应于新产品、新电影名称、新艺人、新俚语等的术语不断出现。手动添加针对所有这些新术语的翻译需要无法实现的大量人力。
部分地由于多语资源的数量的急剧增加,互联网已经显示出了作为用于减轻CLIR系统的一些局限性的资源的巨大希望。对于用于术语翻译的自动web挖掘方法的最新研究主要集中在对混合语言网页的利用上,其中在混合语言网页上术语和它们的翻译同时出现在同一页面上。在这些双语网页中,对于外国术语的翻译与外国术语一起出现。这些页面在用于诸如汉英、日英、西英之类的很多语言对以及很多其他语言对的web上相当常见。
提取这些网页中包含的信息的第一种方法是以搜索片断为基础的方法,该方法根据双语网页的搜索片断来得出同时出现的统计信息。基于搜索片断的方法包括:在本国语言文档中搜索外国术语;从相关双语页面的最上面的n个返回片断中,选择具有与该外国术语同时出现的最高计数的本国语言字符串作为该外国术语的翻译。该方法是基于以下假设的:在片断中术语与外国术语同时出现得越频繁,该外国术语越有可能是翻译。该方法在挖掘高频率的术语翻译方面有效,但是对于低频率的术语翻译无效,因为搜索引擎的相关性排名算法一般并不是以术语的翻译的出现为基础的。低频率的术语包括双语词汇手册的大部分术语,所以严重限制了基于片断的挖掘机制的有效性。
为了完善基于搜索片断的挖掘,第二种方法可以被用来使用双语网页上的翻译对的预定布局模式的固定集合或者一个预定布局模式来识别术语翻译,例如,术语及跟随在其后的用圆括号表示出的翻译,超人归来(Superman)。第二种方法能够发现低频率的术语翻译对(只要通过模式捕捉到这些翻译对),但是由于网页是由不同的人创建的,所以假设模式的有限集合可以覆盖每个甚至大多数双语网页是有问题的。
本部分描述的方法是可以被执行的方法,而不必是以前已经想到或者执行的方法。所以,除非以其它方式指明,否则不应该认为本部分中描述的任何方法仅仅是由于被包括在本部分中而被作为现有技术。
附图说明
通过示例而不是通过限制示出了本发明,并且在附图中相同的参考标号指示相似的元件,其中:
图1示出了实现本文中描述的技术的一种方法的流程图。
图2a-b示出了分别包含相同的翻译对但是处于不同的布局模式中的示例文本框。
图3示出了包含具有两种不同的布局模式的多个翻译对的集合的文本框的示例。
图4示出了可以实现本公开的技术的计算机系统的框图。
具体实施方式
在下面的描述中,出于说明的目的,阐述了很多具体细节以提供对于本发明的透彻理解。但是,很显然,本发明可以在没有这些具体细节的条件下被实现。在其他实例中,为了避免不必要地混淆本发明,已知的结构和设备被以框图形式示出。
概述
这里公开的技术包括:在双语网页中识别双语术语对的集合,并且从双语术语对的集合中识别与双语术语对在双语网页中的布局有关的候选模式的集合。一个或多个最佳模式被基于在候选模式中识别出的特征而从候选模式的集合中被选择出来。使用一个或多个所选择的模式,翻译对候选的集合可以被从双语网页中提取出来。翻译对候选可以被验证,以确定每个翻译对候选为精确翻译的可能性。基于该验证,一些或者所有翻译对候选可以被作为不正确的翻译而丢弃,并且剩下的翻译对候选可以被识别为正确的翻译对。
动态学习翻译
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于雅虎公司,未经雅虎公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980161654.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:四支链二自由度平动高速并联机构
- 下一篇:自动跟踪全缝滚焊/切割机械手





