[发明专利]跨语言查询的扩展方法和搜索引擎在审
申请号: | 201210397415.8 | 申请日: | 2012-10-18 |
公开(公告)号: | CN103778126A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 沈文竹;吴甜;春光;吴华;赵世奇 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 查询 扩展 方法 搜索引擎 | ||
技术领域
本发明总地涉及数字信息处理领域,具体地,涉及多语言文本处理领域。
背景技术
为解决从海量信息中查找所需信息的问题,人们发展了信息检索技术。但随着来自世界各地的人们交往日益密切,信息获取需求呈现国际化特点,人们迫切希望只提交用一种语言构造查询,即可获得与此相关的多种语言的信息。
现有的搜索引擎技术是通过对网页做文本分析,建立“关键词”到网页对应的“URL”的索引进行搜索。比如用户提交查询“麻省理工学院”,则搜索引擎会返回所有包含“麻省理工学院”这个词的网页结果。但是从用户的角度,“麻省理工学院”与“MIT”,以及“Massachusetts Institute of Technology”是等价的,也就是说,用户需要的,不只是包含“麻省理工学院”的网页,还有包含“MIT”或者“Massachusetts Institute of Technology”的网页。因此,如果将所有这些相关页面都返回给用户,而不是其中的一部分,必然能够提升用户体验。要解决上述问题,就需要对用户查询进行跨语言扩展,然后结合现有的搜索技术进行索引,这样即可同时召回更多的网页,更大程度地满足用户需求。
现有的跨语言查询的扩展通常是对用户查询进行简单地翻译,以利用翻译后的关键词来检索目标语言的网页。例如,2007年3月19日提交的申请号为200710089117.1的中国专利申请“跨语言检索请求的转换及跨语言信息检索方法和系统”就公开了一种跨语言检索请求的扩展方法,包括下列步骤:1)利用多个不同的机器翻译系统分别对跨语言检索请求进行从源语言到目标语言的翻译,以得到该跨语言检索请求的多个目标语言译文;2)以所述多个目标语言译文为基础,构造与该跨语言检索请求对应的目标语言检索请求。
现有的跨语言查询的扩展方法虽然召回了更多的目标语言的网页,但是可能对一些无需扩展的查询进行了错误扩展,例如用户查询“狗不理包子”,这不仅徒增了计算量还增加了搜索结果的不准确性,难以满足用户的需求。
发明内容
本发明的目的解决上述问题,提供一种跨语言查询扩展方法,获取准确性更高的搜索结果,以便更好地满足用户的需求。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种跨语言查询的扩展方法,该方法包括:
步骤1,对所接收的用户查询进行分词;
步骤2,对分词后的结果来进行跨语言查询的翻译需求判断;
步骤3,对存在翻译需求的查询进行跨语言扩展。
上述方法中,所述步骤2可以包括:
对于分词后的结果中的每个词,查询跨语言查询词典;如果在跨语言查询词典中存在该词,则确定该词具有翻译需求;
其中,所述跨语言查询词典保存反映源语言和目标语言中具有共性的知识的词。
上述方法中,在所述跨语言查询词典中,对于每个词,可以保存关于该词的两种信息:需求类别和对应该需求类别的译文,所述需求类别表示这个词有哪些方面的需求。
上述方法中,所述步骤3可以包括:
将存在跨语言翻译需求的词翻译成目标语言译文;
将所得到词的译文与所述用户查询中的其他未被翻译的词组合成扩展查询。
上述方法中,还可以包括:基于所述扩展查询进行检索的步骤。
又一方面,本发明提供了一种支持跨语言查询的搜索引擎,所述搜索引擎包括:
分词模块,用于对所接收的用户查询进行分词;
翻译需求判断模块,用于对分词后的结果来进行跨语言查询的翻译需求判断;
跨语言扩展模块,用于对存在翻译需求的查询进行跨语言扩展。
上述搜索引擎中,所述翻译需求判断模块可以包括对于分词后的结果中的每个词,查询跨语言查询词典;如果在跨语言查询词典中存在该词,则确定该词具有翻译需求;其中,所述跨语言查询词典保存反映源语言和目标语言中具有共性的知识的词。
上述搜索引擎中,在所述跨语言查询词典中,对于每个词,可以保存关于该词的两种信息:需求类别和对应该需求类别的译文,所述需求类别表示这个词有哪些方面的需求。
上述搜索引擎中,所述跨语言扩展模块可以将存在跨语言翻译需求的词翻译成目标语言译文;将所得到词的译文与所述用户查询中的其他未被翻译的词组合成扩展查询。
上述搜索引擎中,还可以包括基于所述扩展查询进行检索的模块。
与现有技术相比,本发明的优点在于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210397415.8/2.html,转载请声明来源钻瓜专利网。