[发明专利]基于用户搜索日志的兴趣实体获得方法及装置有效
申请号: | 201310298364.8 | 申请日: | 2013-07-16 |
公开(公告)号: | CN103399879A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 戴岱;李大任 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 搜索 日志 兴趣 实体 获得 方法 装置 | ||
1.一种基于用户搜索日志的兴趣实体获得方法,其特征在于,包括:
获得待匹配的Session段,所述Session段中包括客户端的至少一个用户搜索日志;
对每个所述用户搜索日志的query和title进行切词处理,以获得每个所述用户搜索日志的第一term;
根据预先设置的实体库,匹配出与每个所述用户搜索日志的第一term相关的候选实体;
利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体。
2.根据权利要求1所述的方法,其特征在于,所述根据预先设置的实体库,匹配出与每个所述用户搜索日志的第一term相关的候选实体,包括:
根据预先设置的实体库,建立实体的倒排索引;
根据所述倒排索引,获得与每个所述用户搜索日志的第一term相关的实体;
根据所述实体的term重要性权值覆盖率,对所述实体进行排序;
选择所述term重要性权值覆盖率最高的指定数量的所述实体,以作为所述候选实体。
3.根据权利要求1或2所述的方法,其特征在于,所述利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体,包括下列中的至少一项:
利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,作为输入,运行GBDT模型,以获得每个所述候选实体的预测label;若所述候选实体的预测label大于或等于预先设置的label阈值,保留所述候选实体,以作为所述兴趣实体,若所述候选实体的预测label小于预先设置的label阈值,过滤掉所述候选实体;
根据所述候选实体的预测label、所述候选实体的名称长度、所述候选实体完整匹配的次数、所述候选实体的预设属性是否匹配到所述Session段、以及所述候选实体的所有属性匹配到所述Session段中的个数中的至少一项,获得所述候选实体的排序分数;若所述候选实体的排序分数小于预先设置的第一分数阈值,过滤掉所述候选实体;若所述候选实体的排序分数大于或等于预先设置的第一分数阈值,且小于预先设置的第二分数阈值,若所述候选实体的排序分数大于或等于所述预测label,保留所述候选实体,以作为所述兴趣实体,若所述候选实体的排序分数小于所述预测label,过滤掉所述候选实体;若所述候选实体的排序分数大于或等于预先设置的第二阈值分数,保留所述候选实体,以作为所述兴趣实体;其中,所述第二分数阈值大于所述第一分数阈值;以及
根据所述候选实体的名称,确定存在名称包含关系的候选实体,保留包含其他候选实体的名称的候选实体,以作为兴趣实体。
4.根据权利要求1~3任一权利要求所述的方法,其特征在于,所述Session段的特征包括下列中的至少一个:
所述Session段所包含的所有第一term的长度之和。
5.根据权利要求1~4任一权利要求所述的方法,其特征在于,所述候选实体的特征包括下列中的至少一个:
所述候选实体的名称长度之和;
所述候选实体的名称中所包含的所有第二term的term重要性权值之和;以及
所述候选实体的名称中所包含的所有第二term的IDF权值之和;其中,
所述第二term为对所述候选实体的名称进行切词处理获得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310298364.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:加密中控机
- 下一篇:一种高速信号采集系统