[发明专利]一种兼容关键词搜索的自然语言搜索方法及系统无效

专利信息
申请号: 201310518467.0 申请日: 2013-10-29
公开(公告)号: CN103530415A 公开(公告)日: 2014-01-22
发明(设计)人: 谭永 申请(专利权)人: 谭永
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 100096 北京市昌*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 兼容 关键词 搜索 自然语言 方法 系统
【说明书】:

技术领域

发明涉及自然语言处理以及互联网搜索引擎技术,特别是将自然语言处理技术与搜索引擎技术相结合,以实现答案搜索并提高搜索结果的相关性。

背景技术

目前的搜索引擎主要提供基于关键词的搜索,它们通过将用户输入的关键词与索引中的网页内容进行匹配,将匹配度最高的一部分网页以摘要列表的形式返回给用户。这种搜索只是进行简单的关键词匹配,并不能理解用户的搜索意图,很多时候不能给出用户真正想要的结果。比如用户输入问题“When was SteveJobs diagnosed with a tumor?”进行搜索,本想搜索这个问题的答案,但目前的关键词搜索只会将匹配到问题中所有词的网页返回,并且将匹配到的词进行高亮,而不知道用户其实是想搜索一个答案。基于上面的情况,很多搜索引擎公司也通过一些方法尝试去理解用户的搜索意图,提供答案搜索。

一种方法是通过增加一个实体库,实现对部分搜索请求直接提供答案,以此作为对现有关键词搜索的一个补充,比如GOOGLE的知识图谱、BING的实体搜索等。但实体搜索有几个缺点:一是并非互联网上的所有内容都可以以实体-属性的形式进行组织;二是搜索实体本身或实体的属性可以给出结果,反过来通过一些相关属性搜索实体则无法给出结果;三是实体库的填充需要大量的线下数据挖掘和人工审核工作;四是实体库的规模跟互联网网页的数量比起来还是相当有限的。

还有一种方法是通过提取文本中的事实关系,生成基于事实的索引系统,从而实现答案搜索功能,比如微软2008年收购的POWERSET就是通过这一方式实现答案搜索的。这种方法的缺点是如果事实关系提取的过少会导致很多搜索没有结果,如果事实关系提取的过多则会导致索引数据异常庞大,无法达到搜索引擎需要的效率。

另外还有一些通过概念匹配的自然语言搜索方法来实现答案搜索,但目前还没能看到这些方法的实际应用效果。

发明内容

鉴于以上情况,本发明提供了一种兼容关键词搜索的自然语言搜索方法,该方法通过句子匹配实现搜索功能,在兼容目前关键词搜索的基础上实现了答案搜索,同时还提高了关键词搜索结果的相关性。

本发明提供的方法是将用户输入的检索串作为一个句子与目标网页中的句子进行完全或部分匹配,将匹配到句子的网页返回给用户。具体的匹配方法为首先将句子转换成语义树(类似于语法树,节点附有语义信息),那么句子跟句子的匹配就变成了语义树之间的匹配,如果一棵树中的每个词在另一棵树中都存在,并且该词在两棵树中的语义属性(类似与语法成分)都相同,则认为两颗树是匹配的;在进一步,在建索引时,将语义树转换成类似于传统搜索引擎的索引结构,不同的是每个词的位置信息不再是词的位置,而是其所在句子的位置,同时每个词都附有它在语义树中所具有的语义属性,在搜索时,将语义树中的查询词转换布尔查询,同时每个查询词附有它在语义树中所具有的语义属性,布尔查询的过程与传统的布尔查询相同,如果所有匹配到的词具有相同的位置,则说明这些词在同一个句子中,这时只要比较关键词的语义属性与匹配到词的语义属性即可,如果所有关键词的语义属性都与目标句子中匹配到词的语义属性相同,则表明两个句子是匹配的。经过上面的一系列转换,最终将句子与句子的匹配转换成了带有语义属性的关键词匹配。如果用户输入的是一个特殊疑问句,疑问词可以与目标句子中具有相同语义属性的任何词进行匹配,疑问词匹配到的部分即为用户要搜索的答案。比如网页中有一个句子“In2003,Steve Jobs wasdiagnosed with a pancreas neuroendocrine tumor.”,用户搜索“When was Steve Jobs diagnosed witha tumor?”时,会匹配到上面网页中的句子,由于检索串是一个特殊疑问句,疑问词“When”表示时间,在匹配到的句子中,“In2003”也表示时间,那么很显然疑问词“When”匹配到的“In2003”即为用户要搜索的答案。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谭永,未经谭永许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310518467.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top