[发明专利]一种搜索方法和系统有效
申请号: | 201210457609.2 | 申请日: | 2012-11-14 |
公开(公告)号: | CN103810213B | 公开(公告)日: | 2017-09-12 |
发明(设计)人: | 赫南;姚伶伶;刘小兵;王迪;杨俊丽;王艳敏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京派特恩知识产权代理有限公司11270 | 代理人: | 蒋雅洁,程立民 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 方法 系统 | ||
技术领域
本发明涉及计算机搜索技术领域,尤其涉及一种搜索方法和系统。
背景技术
搜索是指互联网用户使用个人计算机(PC)、手机等终端设备,通过向搜索引擎输入框提交检索串(query),在后台匹配系统中触发逻辑相关搜索结果的过程。
在匹配系统中,目前主要通过以下几种方式进行query到素材的关键词(keyword)之间的触发匹配:
1、按匹配类型的关键词触发
在系统数据库中,keyword及其对应的素材会以倒排索引的形式存放;匹配系统会对用户提交的query进行在线分析,找到对应各种匹配类型的keyword,并通过keyword的倒排信息,完成素材的拉取。一个典型的在线分析匹配keyword的方法如下:
例如,有query:ABCD(其中A、B、C、D是对query进行分词后的语素,语素是指字符串分词后的最小结果单元),对query的分词语素取组合遍历:
C(4,4)={A,B,C,D},
C(4,3)={A,B,C},{A,B,D},{A,C,D},{B,C,D},
C(4,2)={A,B},{A,C},{A,D},{B,C},{B,D},{C,D},
C(4,1)={A},{B},{C},{D}
用组合结果去检索keyword索引,可以找到当前所有生效的keyword,它们对应各种匹配类型。
2、用户检索串的纠错、改写触发
用户在使用搜索引擎的过程中,可能会出现拼写错误或不规范的输入,虽然用户本人(和智能的搜索引擎)可以理解,但是直接用来触发素材可能导致结果不理想。因此,除了正常的query归一化过程,还需要结合离线的历史统计信息,针对性的对输入的query进行纠错、query改写,从而正确触发含有用户检索意图的素材。
3、历史高频query的离线挖掘扩展
一种典型的实现方案是,预先统计好历史n天的高频query,使用各种离线挖掘的方法,扩展出高质量的keyword,最终以词表的形式加载到匹配系统中。这样,当用户提交一个已经离线分析过的query时,就可以形成素材keyword的即时触发,起到快速缓存的作用。
4、匹配系统中keyword的等价扩展补充
离线挖掘过程解决了大部分高频query的触发问题,但针对长尾query(即低频query,检索次数较少的、不常见的query)的匹配,如果只有在线分析过程,则很难保证匹配结果的数量和质量(往往找到的关键词语义上会形成偏离)。因此,在实际的匹配系统中,还会对已经找到的keyword进行等价补充。通常会大量使用诸如keyword等价聚类、同义替换等技术。
目前一种常见的匹配系统的关键词匹配流程,如图1所示,其应用到前述query的在线分析、高频query的离线挖掘、keyword等价聚类等技术手段。
在线分析过程找到的keyword往往是query的子串,容易局限于字面内容,而且找到的子串不能保证保留了query的核心意图,有时语义偏差较大。
用户检索串的纠错、改写触发可以解决一部分匹配问题,但应用范围较窄,对query的覆盖有限。
历史高频query的离线扩展,其使用的前提是query的精确命中,粒度太粗,如果query表达有细微变化,即使没有语义的偏移,也无法直接关联已有结果。
keyword的等价扩展补充也存在触发粒度较粗的问题,等价的聚类关系必须是与在线分析找到的keyword完全匹配,且在线分析找到的keyword还必须是当前生效的。这些限制条件往往导致keyword聚类资源本身不能发挥更大的作用。
基于此,需要提出一种触发粒度更细、搜索结果更全面的搜索方案,以解决上述不足。
发明内容
有鉴于此,本发明的主要目的在于提供一种搜索方法和系统,以实现触发粒度更细、搜索结果更全面的关键词和相关素材搜索。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供一种搜索方法,该方法包括:
基于历史高频检索串构建检索串语素签名和倒排索引;所述检索串语素签名和倒排索引为对所述历史高频检索串进行分词后,语素签名和相同的各组检索串的倒排索引数据结构;
根据输入匹配系统的原始检索串查询所述检索串语素签名和倒排索引,得到与所述原始检索串语素签名相同的检索串集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210457609.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:使用VTAG调停的负载均衡SCTP关联
- 下一篇:一种灯罩