[发明专利]一种搜索需求的挖掘方法、智能搜索方法及其装置有效
申请号: | 201210554903.5 | 申请日: | 2012-12-19 |
公开(公告)号: | CN103885947B | 公开(公告)日: | 2018-08-10 |
发明(设计)人: | 黄荣升;辜斯缪 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 词表 搜索关键词 智能搜索 日志 挖掘 匹配 返回结果 过滤策略 搜索结果 搜索引擎 预设 过滤 关联 | ||
1.一种搜索需求的挖掘方法,包括:
A.从搜索日志的关键词中确定泛需求词,所述泛需求词为表意范围覆盖若干个命名实体的词语;
B.从所述搜索日志中提取泛需求词对应的后继词,并确定泛需求词与对应的后继词之间的关联强度,其中一个泛需求词的后继词是与该泛需求词共同出现在一个会话中且在该泛需求词之后出现的词语;
C.根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。
2.根据权利要求1所述的方法,其特征在于,所述步骤A中确定泛需求词的方式至少包括以下一种:
方式一、从搜索日志中提取以预设的模式词表中的词为前缀的关键词作为泛需求词;或者,
方式二、从搜索日志中提取以预设的模式词表中的词为前缀的关键词,并将提取的关键词去除所述前缀后的剩余部分作为泛需求词;或者,
方式三、确定搜索日志中各关键词的后继词,并将属于同一实体类别的后继词所占比例超过第一设定阈值的关键词作为泛需求词,其中一个关键词的后继词是与该关键词共同出现在一个会话中且在该关键词之后出现的词语。
3.根据权利要求1所述的方法,其特征在于,所述步骤B中根据下列公式计算泛需求词X与对应的后继词Y之间的关联强度:
其中,R表示X与Y的关联强度,m表示所述搜索日志中Y作为互异泛需求词的后继词出现的总次数,n表示所述搜索日志中Y作为X的后继词出现的总次数,wi表示Y在与X共同出现的第i个会话中的权重,其中wi的大小与第i个会话中X的后继词总数成反比,与第i个会话中Y作为X的后继词出现的位序成正比。
4.根据权利要求1所述的方法,其特征在于,所述过滤策略至少包括以下一种:
策略一、将泛需求词对应的后继词中与该泛需求词之间的关联强度低于第二设定阈值的后继词过滤掉;
策略二、将泛需求词对应的后继词中与该泛需求词具有相同分词的后继词过滤掉;
策略三、将泛需求词对应的后继词中属于同一实体类别所占比例低于第三设定阈值的后继词过滤掉。
5.一种智能搜索方法,包括:
获取用户的搜索关键词;
将所述搜索关键词与权利要求1至4中任一项所述方法得到的对应关系词表中的泛需求词进行匹配,并在匹配通过时,利用所述对应关系词表中所述搜索关键词对应的精确需求词获取第一搜索结果。
6.根据权利要求5所述方法,其特征在于,所述第一搜索结果中的各结果项分别由所述搜索关键词对应的不同精确需求词得到,且各结果项的排列顺序由得到该结果项的精确需求词与所述搜索关键词之间的关联强度确定。
7.根据权利要求5所述的方法,其特征在于,所述方法进一步包括:
利用所述搜索关键词获取第二搜索结果,并将所述第一搜索结果嵌入到所述第二搜索结果中返回给用户。
8.一种搜索需求的挖掘装置,包括:
泛需求词挖掘单元,用于从搜索日志的关键词中确定泛需求词,所述泛需求词为表意范围覆盖若干个命名实体的词语;
后继词确定单元,用于从所述搜索日志中提取泛需求词对应的后继词,并确定泛需求词与对应的后继词之间的关联强度,其中一个泛需求词的后继词是与该泛需求词共同出现在一个会话中且在该泛需求词之后出现的词语;
精确需求词确定单元,用于根据预设的过滤策略对泛需求词对应的后继词进行过滤,以得到泛需求词对应的精确需求词,并根据泛需求词与对应的精确需求词之间的关联强度建立对应关系词表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210554903.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息处理方法及装置
- 下一篇:一种浅沟槽隔离结构的制备方法