[发明专利]一种挖掘具有相似需求的查询的方法及装置在审
申请号: | 201110376378.8 | 申请日: | 2011-11-23 |
公开(公告)号: | CN103136210A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 黄际洲;赵世奇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 挖掘 具有 相似 需求 查询 方法 装置 | ||
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种挖掘具有相似需求的查询的方法及装置。
【背景技术】
随着搜索引擎的广泛使用,搜索引擎技术得到了长足发展。如今的搜索引擎,已经不仅仅停留在为用户提供与检索词匹配的检索结果上,而是越来越关注如何才能更好地满足用户需求。
假如用户输入“qq个性签名”,搜索引擎不仅给出与用户输入的查询一致的结果,还给出与用户的查询需求相似的检索结果,如给出“qq个性签名伤感”、“qq个性签名搞笑”、“qq个性签名幸福”、“qq个性签名可爱”等具有相似需求的查询所对应的检索结果,搜索引擎就可以帮助用户更快地做出判断和选择,从而减少用户的检索次数,提升用户的搜索体验,让用户更快、更准地获得所需信息。而要让搜索引擎能够根据用户输入的查询,返回所有与用户输入的查询具有相似需求的检索结果,就需要对用户具有相似需求的查询进行挖掘。此外,对具有相似需求的查询进行挖掘,还可以为搜索引擎的其他应用提供资源,例如为生成与检索需求相关的查询模版提供语料,或者将相似需求的查询作为训练语料,训练与需求类型相关的分类器等等。
【发明内容】
本发明所要解决的技术问题是提供一种挖掘具有相似需求的查询的方法及装置,以提高搜索引擎满足用户需求的能力,从而减少用户的检索次数,节约搜索流量。
本发明为解决技术问题而采用的技术方案是提供一种挖掘具有相似需求的查询的方法,包括:A.从搜索日志中获取种子查询;B.在搜索日志中提取所述种子查询对应的页面地址,计算所述种子查询对应的页面地址与所述种子查询之间的第一相关度,并根据计算的第一相关度从所述种子查询对应的页面地址中选取满足预设第一要求的页面地址作为挖掘地址;C.在搜索日志中提取所述挖掘地址对应的查询,计算所述挖掘地址对应的查询与所述挖掘地址之间的第二相关度,并根据计算的第二相关度从所述挖掘地址对应的查询中选取满足预设第二要求的查询作为具有相似需求的查询。
根据本发明之一优选实施例,从搜索日志中获取种子查询的方式至少包括以下方式之一:(一)获取搜索日志中人工标注的种子查询;(二)将搜索日志中与预设的查询模版匹配的查询作为种子查询;(三)将搜索日志中与人工标注的页面地址对应的查询作为种子查询;(四)将搜索日志中与预设的页面地址模版匹配的页面地址所对应的查询作为种子查询。
根据本发明之一优选实施例,查询q对应的页面地址u与q之间的第一相关度由搜索日志中记录的q引起u被点击的次数决定,或者,页面地址u对应的查询q与u之间的第二相关度由搜索日志中记录的q引起u被点击的次数决定。
根据本发明之一优选实施例,查询q对应的页面地址u与q之间的第一相关度或页面地址u对应的查询q与u之间的第二相关度采用以下方式之一进行计算:
(一)similarity(q,u)=count(q,u);
(二)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110376378.8/2.html,转载请声明来源钻瓜专利网。