[发明专利]基于多数据源的行为意图确定方法及装置有效
| 申请号: | 201310270571.2 | 申请日: | 2013-07-01 |
| 公开(公告)号: | CN103399855B | 公开(公告)日: | 2017-04-12 |
| 发明(设计)人: | 陈明星;徐倩 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙)11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 多数 行为 意图 确定 方法 装置 | ||
【技术领域】
本发明涉及数据挖掘技术,尤其涉及一种基于多数据源的行为意图确定方法及装置。
【背景技术】
随着通信技术的发展,终端集成了越来越多的功能,从而使得终端的系统功能列表中包含了越来越多相应的应用程序,例如,电脑中安装的应用程序,第三方智能手机中安装的应用程序(Application,APP)等,例如,推荐应用、检索应用或地图应用等。这些应用程序每天都会产生大量的用户的行为日志,这些行为日志已经成为研究分析用户的搜索行为、改进搜索引擎/推荐引擎的宝贵资源。数据挖掘工具可以根据预先设置的时间间隔(Time Interval,TI),对指定用户的行为日志进行划分,以组成用户意图(Session)段,进而则可以根据Session段,确定该用户的行为意图。其中,Session段是一个逻辑意义,它代表一个用户在某段时间内的一个行为意图,从用户的浏览行为来看,Session段具体可以规约成在语义上具有相同关联的连续检索行为。
然而,在一些情况下,例如,指定用户在同一段时间之内,使用多种服务的客户端从多个数据源获取相应的服务,等情况,由于在一段时间之内可能会产生多个数据源的不相关的行为日志,或者几个相关的行为日志可能会持续较长的时间,因此,根据预先设置的时间间隔对用户的行为日志进行划分,可能会导致将不同行为意图的行为日志划分到同一个Session段中,或者将同一行为意图的行为日志划分到不同的Session段中,使得无法根据每个Session段准确地确定出用户的一个行为意图,从而导致了行为意图的确定的可靠性的降低。
【发明内容】
本发明的多个方面提供一种基于多数据源的行为意图确定方法及装置,用以提高行为意图的确定的可靠性。
本发明的一方面,提供一种基于多数据源的行为意图确定方法,包括:
从至少一个数据源中,获取指定用户的行为日志;
根据所述行为日志的属性信息,对所述行为日志进行划分,以获得至少一个Block,每个所述Block中所包括的行为日志具有文本的相似性;
利用分类模型,将所述至少一个Block,映射到至少一个Session段,以使得每个所述Session段中所包括的Block之间的文本相似度大于或等于预先设置的相似度阈值;
根据所述至少一个Session段,确定所述用户的行为意图。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述行为日志的属性信息包括下列中的至少一项:
所述行为日志的时间信息;
所述行为日志的数据源信息;以及
所述行为日志的文本信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述属性信息包括所述行为日志的时间信息、所述行为日志的数据源信息和所述行为日志的文本信息;所述根据所述行为日志的属性信息,对所述行为日志进行划分,以获得至少一个Block,包括:
若两个行为日志的时间信息相同,则将所述两个行为日志划分到同一个Block中;
若连续的两个行为日志的时间信息所指示的时间差值小于或等于预先设置的时间间隔阈值,且当前行为日志的文本信息为空,则将所述当前行为日志与所述当前行为日志之前的一个行为日志划分到同一个Block中;
若连续的两个行为日志的时间信息所指示的时间差值小于或等于预先设置的时间间隔阈值,且所述连续的两个行为日志的文本信息相同,则将所述连续的两个行为日志划分到同一个Block中;
若连续的两个行为日志的时间信息所指示的时间差值大于预先设置的时间间隔阈值,且所述连续的两个行为日志的数据源信息为新闻、音乐、影视或地图,则将所述连续的两个行为日志划分到同一个Block中;
若连续的两个行为日志的时间信息所指示的时间差值大于预先设置的时间间隔阈值,且所述连续的两个行为日志的数据源信息不为新闻、音乐、影视或地图,则将所述连续的两个行为日志划分到不同的Block中。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用分类模型,将所述至少一个Block,映射到至少一个Session段,包括:
获得当前Block中所包括的第一个行为日志与所述当前Block之前的一个Block中所包括的第一个行为日志之间的第一时间间隔、当前Block中所包括的第一个行为日志与所述当前Block之前的一个Block中所包括的最后一个行为日志之间的第二时间间隔,以及当前Block与所述当前Block之前的一个Block之间的文本相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310270571.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可配重的有线鼠标
- 下一篇:文件切割粒度的选择方法





