[发明专利]一种搜索方法和系统在审
申请号: | 201210167761.7 | 申请日: | 2012-05-25 |
公开(公告)号: | CN103425714A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 张帆 | 申请(专利权)人: | 北京搜狗信息服务有限公司;北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 方法 系统 | ||
技术领域
本申请涉及计算机技术领域,特别是涉及一种搜索方法和系统。
背景技术
随着网络信息的不断膨胀,越来越多的用户在网络中输入问题,通过搜索引擎寻找答案。
现有技术中,对于用户输入的查询问题,存在两种解决方案:
其一,基于传统搜索引擎的方案,即通过文字的匹配来筛选匹配页面,把筛选出来的文档重新排序后提供给用户,需要用户自己根据标题和摘要来选择文档,之后再逐个点击阅读,之后自己从中找出想要的答案。该种方案,基于文字匹配,导致搜索得到的结果信息可能非常庞大,而与用户问题相关的真实答案可能被隐藏在很靠后的文档中,甚至用户即使阅读了相关文档依然有可能找不到所需的信息,需要用户进行大量的点击搜索过程,延误用户大量的时间,搜索效率低。
其二,基于问答系统的方案:
通常采用的方法是:先给问题分类,再根据类别对问题进行语义解析,再把解析出的结果到检索结果库中文档中匹配,定位答案对应的文本;再解析这些文本得到问题的答案,再将结果按照语义生成自然语言。但按照主语、谓语宾语等语言规则进行的语义解析还相当不成熟,步骤复合且各项操作都没有较理想的解析精度,常常会给出与问题完全不相关的答案,其搜索准确度比较低。
在问答系统中的方案中,基本上是基于问答网站中的匹配过程进行搜索的:当用户输入一个查询后,系统会将问题转化为一段语义编码,再将这段编码放到问答网站问题的索引库中做语义匹配,如果能够匹配上库中的问题,再将匹配到的问题的答案作为搜索结果展示给用户。因此,可回答的问题数量非常有限,对于常见问题可以较好地解决,但对于生僻问题等问题一般都无法解决,搜索范围狭窄。
发明内容
本申请所要解决的技术问题是提供一种搜索方法和系统,解决现有技术中对于问题的解答搜索过程中出现的问答系统中无法解决生僻问题,搜索结果不够精确、便捷的问题。
为了解决上述问题,本申请公开了一种搜索方法,包括:
接收查询词串,并解析所述查询词串中各词所属的词性;所述词性包括实体词、属性词、属性词对应的属性值、关系词、关系词对应的关系值;
根据所述查询词串中各词所属的词性,确认查询词串对应匹配的查询结构及该查询结构中的查询对象;
针对所述查询结构在结构化知识库中进行匹配分析,得到所述查询结构中的查询对象对应的对象值;
将所述对象值在查询词串对应的结果区域中进行单独显示。
优选的,针对所述查询结构在结构化知识库中进行匹配分析,得到所述查询结构中的查询对象对应的对象值包括:
将所述查询结构中的实体词、属性词、属性词对应的属性值、关系词、关系词对应的关系值中一种或几种在结构化知识库中进行匹配分析,得到所述查询结构中的查询对象对应的对象值。
优选的,解析所述查询词串中各词所属的词性时包括:
针对所述查询词串,遍历实体词表,标注各实体词;
根据各实体词所属类别,遍历相应类别中的属性词表、关系词表和疑问词表和特殊疑问模板表,进而标注查询词串中的各属性词、各关系词、各疑问词;
当所述查询词串中的属性词存在相应的属性值时,对应标注各属性值;当所述查询词串中的关系词存在相应的关系值时,对应标注各关系值。
优选的,还包括:
通过从各网页中提取的实体词、所述实体词对应的属性词和属性值、所述实体词对应的关系词和关系值构建所述结构化知识库。
优选的,所述结构化知识库构建时:
针对抓取的同一知识类别的各知识网站,利用相应知识网站的解析模板解析各知识网站的网页内容,获得实体词及与实体词相应的属性词和属性值、关系词和关系值;
针对同一实体词,以:实体词、实体词对应的属性词、属性词对应的属性值、实体词对应的关系词、关系词对应的关系值的数据结构存入结构化知识库。
优选的,还包括:
对抓取的同一知识类别各知识网站,利用该类别各种子挖掘各知识网站的内容存放格式,获取各知识网站的解析模板;
针对所述每一知识网站,利用相应知识网站的解析模板,解析出所述知识网站内与种子的种子属性对应的第一属性词,及相应的第一属性值;
选取各种子属性中与实体词相关的种子属性,将相应的第一属性词的第一属性值作为实体词;
选取各种子属性中与属性词相关的种子属性,将相应的第一属性词作为属性词,将相应第一属性值作为属性值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗信息服务有限公司;北京搜狗科技发展有限公司,未经北京搜狗信息服务有限公司;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210167761.7/2.html,转载请声明来源钻瓜专利网。