[发明专利]同义短语的挖掘方法和装置及搜索相关内容的方法和装置在审
申请号: | 201310253731.2 | 申请日: | 2013-06-24 |
公开(公告)号: | CN104239286A | 公开(公告)日: | 2014-12-24 |
发明(设计)人: | 董兴华;吴克文;黄鹏;林锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同义 短语 挖掘 方法 装置 搜索 相关内容 | ||
技术领域
本申请涉及数据处理领域,具体地涉及一种计算机执行的同义短语的挖掘方法和装置以及一种根据查询请求搜索相关内容的方法和装置。
背景技术
现在大多数搜索引擎一般仍采取简单的字符串匹配策略,对于用户的语义、意图等理解不够。具体而言,进行搜索时,搜索引擎首先要对用户输入的词或短句进行词结构分析,确定搜索关键字。对用户来讲,搜索的目的在于得到他想要的内容,而根据用户提供的关键字进行搜索并不是判定是否达到目标的唯一标准。这是因为,首先用户可能不知道确切的搜索关键字,或者说关键字的选取并不十分准确;其次,对于待搜索的信息源来讲,用户需要的信息可能已经存在,只是不包含用户所提交的关键字而已。例如,如果用户用“racket(球拍)”作为关键字搜索相关内容,而待搜索的信息数据库中只包含“racquet(球拍)”,则因关键字不匹配,用户无法查到相应的信息,得不到理想的查询结果。
事实上,一个好的搜索匹配算法或搜索引擎应该是为用户检索到想要的信息,不管他是否提供了明确而全面的关键字。因此,如何在已有的较为成熟的基于字符串匹配的搜索算法上辅之以语义搜索,成了解决问题的关键。同义词的替换搜索则是语义搜索很重要的一个策略,如何找到大量的、精确的同义词日益成为目前数据挖掘领域中研究的热点。
现有的同义词挖掘技术可以分为两类:
第一类为基于现有知识库的挖掘方法。例如从基于语义词典hownet、wordnet、词林等挖掘同义词。由于这类知识库是由语言学家通过规则的方法建立的,所以此类方法受到规模、准确度、语种和应用场景的限制。
第二类为基于用户搜索点击行为的挖掘方法。针对搜索引擎对同一个查询的词产生的搜索列表,用户可能会点击不同的搜索结果项,因此,可以把这些不同的搜索项之间存在的相似性作为同义词挖掘的依据。但基于这种思路挖掘同义词存在以下缺陷:(1)如果搜索引擎本身并不能返回存在语义关系的搜索结果项,则可以挖掘到的同义词将非常有限。(2)如果查询的是一个宽泛词,通过这种方法挖掘的同义词噪音将非常大,比如用户搜索的关键词为“家具”,则搜索结果项“桌子”、“椅子”、“沙发”等可能都会出现,而它们并不是同义或近义关系。
因此,需求一种新的同义词的挖掘方法来克服上述缺陷。
发明内容
相应地,本申请的主要目的在于提供一种同义词的挖掘方法,以便能够找到大量的、精确的同义词。
根据本申请的一个方面的实施例,提供一种计算机执行的同义短语的挖掘方法,其特征在于,包括:(a)依据平行语料库获得当前语言的短语至中间语言的短语的第一短语对齐关系以及中间语言的短语至当前语言的短语的第二短语对齐关系;(b)针对当前语言的目标短语,依据第一短语对齐关系,获得与目标短语对齐的中间语言的第一对齐短语集合;(c)依据第二短语对齐关系,获得与第一对齐短语集合中的选定短语对齐的当前语言的第二对齐短语集合;以及(d)从第二对齐短语集合中获得所述目标短语的同义短语。
根据本申请一个方面的实施例,还提供一种计算机执行的同义短语的挖掘装置,其特征在于,包括:对齐关系获得模块,用于依据平行语料库获得当前语言的短语至中间语言的短语的第一短语对齐关系以及中间语言的短语至当前语言的短语的第二短语对齐关系;第一集合获得模块,用于针对当前语言的目标短语,依据第一短语对齐关系,获得与目标短语对齐的中间语言的第一对齐短语集合;第二集合获得模块,用于依据第二短语对齐关系,获得与第一对齐短语集合中的选定短语对齐的当前语言的第二对齐短语集合;以及同义短语获得模块,用于从第二对齐短语集合中获得所述目标短语的同义短语。
根据本申请的另一方面的实施例,提供一种用于根据查询请求搜索相关内容的方法,其特征在于,包括:根据接收到的查询请求确定搜索关键字;基于上述同义短语的挖掘方法获得搜索关键字的同义短语;以及根据所述搜索关键字和所述搜索关键字的同义短语来搜索并显示相关内容。
根据本申请的另一方面的实施例,还提供一种用于根据查询请求搜索相关内容的装置,其特征在于,包括:搜索关键字确定模块,用于根据接收到的查询请求确定搜索关键字;同义短语挖掘模块,用于基于上述同义短语的挖掘方法获得搜索关键字的同义短语;以及搜索和显示模块,用于根据所述搜索关键字和所述搜索关键字的同义短语来搜索并显示相关内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310253731.2/2.html,转载请声明来源钻瓜专利网。