[发明专利]多语言信息检索有效
| 申请号: | 200780017159.2 | 申请日: | 2007-05-09 |
| 公开(公告)号: | CN101443759A | 公开(公告)日: | 2009-05-27 |
| 发明(设计)人: | 姜蓓;陈柏吟 | 申请(专利权)人: | 乐图集团有限公司 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
| 代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 罗正云;王 琦 |
| 地址: | 美国*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语言 信息 检索 | ||
技术领域
本披露涉及信息检索和/或搜索领域。更具体地,本披露涉及属于信息检索(IR)的子领域的跨语言信息检索。
背景技术
跨语言信息检索(CLIR)处理提供一种语言的查询而用一种或多种不同语言搜索文档集。例如,用户可能会使用中文进行他/她的查询,但却希望检索最初用英文书写的相关文档。跨语言信息检索也被称为多语言或跨越语言信息检索。
在这个信息爆炸的时代,尤其是随着因特网(WWW或Web)的发展,人人都可以创建自己的网站(例如,博客),如何在海量的可用信息中查找用户所需的信息成为一项具有挑战性的工作,如果用户需要查找的信息是其它语言书写的,则查找的难度更大。在许多情况下,最相关的信息是使用外语表述的。然而,采用传统的信息检索工具,语言障碍可能会阻碍用户检索到这种文档。例如,如果用户使用英语发出关于“伊拉克战争”的查询请求,传统的信息检索系统不会获取使用中文表述的包含“伊拉克战争”字样的文章,例如可在http://141.155.90.70:88/files/articles/Iraq.htm上获得的这篇文章,因此无法体现中文信息发布者对伊拉克问题所持的观点。另一方面,如果用户使用中文发出“毛泽东”的查询请求,系统也不会获得采用英语书写的文章,例如在http://www.time.com/time/time100/leaders/profile/mao.html上的文章,因此无法展现出英语用户对毛泽东所持的观点。
在执行单语言搜索(信息检索)的传统技术中,用户在一个输入框中指定一组单词,短语或语句(以下单独或统称词语),用以传达所需查找信息的语义,也可称为查询请求,该查询请求可通过点击近旁的“搜索”按钮等方式进行提交。传统系统会以尽可能完整的方式,在目标文档组中(例如,网上的所有或部分文档)搜索与查询请求相关的文档,然后会根据这些文档与查询请求的相关程度进行排序,最终按照排序显示搜索结果。传统信息检索系统的主要目的在于尽可能多地发现与用户查询请求相关的文档(查全)而尽可能少的检索到非相关文档(精准)。传统信息检索系统如图1所示。
网上的文档类型各式各样,且文档的表述语言各不相同。许多文档都采用各种不同格式(如,Html,Doc,PDF),且各种图片上的说明也可能采用不同语言。一项单一的查询请求最好触发对所有这类资源的搜索。
查询请求通常会经过处理,以便信息检索系统可以利用此类查询进行适当的搜索。如果一种信息检索系统能够将查询请求翻译为另一种语言,该系统则能够在文档组中搜索其它语言的相关文档。同样,如果信息检索系统能够将查询请求转换为另外一种形式,则信息检索系统将能够有效扩大搜索范围。通常,为了确保完整地进行搜索,往往需要进行人机互动。
一系列技术被提出用于解决如何在电脑中表述文档的问题。另外,还有许多其它用于解决查询处理,索引,排序的信息检索技术。例如,在一种传统技术中,文档集是通过一组索引词语或关键词来表述的。此类关键词可以从文档的正文中直接提取,也可以通过人工指定,例如图书馆学中经常采用的方式。索引方法案例如图2所示。
在跨语言搜索中,需进行一种或多种语言的翻译,例如,将一项查询请求从源语言翻译为目标语言,然后使用翻译后的查询请求进行单语言搜索,或者将文档从目标语言翻译为源语言,然后使用原查询请求进行单语言搜索。另外也有人提出将查询请求和文档都翻译为某种中间表述,以便能够对两者进行比较。图3中的表格是对当前跨语言信息检索方法的简要概述。
美国专利号码5,301,109,名为“采用隐性语义索引进行计算机化跨语言文档检索”的专利,可为跨语言信息检索提供一种基于语料库的中间表述方法。美国专利号码5,867,811,名为“采用双语数据库包括对齐语料库的方法、设备、系统、存储装置及计算机可读介质”同样也提出了一种基于语料库的方法
美国专利号码6,321,191,名为“拥有多个跨语言检索单元、可根据所提取的独立词语进行语句匹配的相关语句检索系统”,提出一种技术,为从n种跨语言检索系统中检索出相关语句。n种系统中,每一种都包含了一个数据匹配存储单元,可对拥有相同含义的多个匹配数据(两种语言)进行存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐图集团有限公司,未经乐图集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780017159.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:节水灌溉与施肥的方法及其装置
- 下一篇:光电能量转换器
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





