[发明专利]基于用户操作记录和资源内容的信息关联方法有效
申请号: | 201210345320.1 | 申请日: | 2012-09-17 |
公开(公告)号: | CN102915335A | 公开(公告)日: | 2013-02-06 |
发明(设计)人: | 杨智强;殷钊;王衡;汪国平 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 操作 记录 资源 内容 信息 关联 方法 | ||
1.基于用户操作记录和资源内容的信息关联方法,其步骤包括:
1)监听用户在计算机中多个操作事件,获取资源内容和操作记录并储存于本地或远程数据库;
2)将所述操作记录转化为特定格式向量,建立基于操作记录的任务模型;
2-1)对所述操作记录进行时间片序列切分和向量转化;
2-2)根据隐式狄利克雷分配模型以所述操作事件为数据,同时以所述时间片为单元,建立任务模型;
3)根据所述资源内容建立基于资源内容的主题模型;
3-1)根据所述资源内容中提取的单词集合和词汇表,将每个资源的内容转换为词频向量表示;
3-2)将所述词频向量通过隐式狄利克雷分配模型表示,建立主题模型;
4)分别计算当前资源与其他资源所述主题模型和任务模型的关联程度,完成信息关联的处理并选择关联度最高的资源返回用户。
2.如权利要求1所述的基于用户操作记录和资源内容的信息关联方法,其特征在于,所述操作事件包括:打开资源事件、关闭资源事件、由一资源切换到另一资源事件,所述资源内容包括:文档和网页。
3.如权利要求1所述的基于用户操作记录和资源内容的信息关联方法,其特征在于,与所述文档有关的操作事件需要采集的属性包括时间、事件类型、资源的标题和资源的路径,与所述网页有关的操作事件需要采集的属性包括时间、事件类型、网页标题和网页URL。
4.如权利要求1所述的基于用户操作记录和资源内容的信息关联方法,其特征在于,所述时间片序列切分方法是:
i)统计操作记录中所有资源,建立每个资源在词汇表中的编号,将所述资源组成一词汇表;
ii)定义采样向量Aj={a1,a2,…,an,…,aN}用于表示第j次采样时所有资源的状态,其中a=(0,1),n为操作事件对应资源编号,N为资源总数,j为第j次采样;
iii)根据周期c对时间片进行采样,得到切分时间片序列其中,为向量总个数,i为采样次数,t为时间片的长度,c为采样周期。
5.如权利要求1所述的基于用户操作记录和资源内容的信息关联方法,其特征在于,所述资源内容的提取包括:去除标点符号、中文分词、去除停用词、统计词汇表,得到词频向量,通过上述操作每个资源的内容转换为词频向量。
6.如权利要求1所述的用户操作记录和资源内容的信息关联方法,其特征在于,在所述任务模型中,得到给定时间片的任务分布概率和给定任务的资源分布概率及任务关于某个资源的发生的分布概率。
7.如权利要求1所述的基于用户操作记录和资源内容的信息关联方法,其特征在于,在所述主题模型中,得到给定资源的主题分布概率和给定主题的单词分布概率。
8.如权利要求1所述的基于用户操作记录和资源内容的信息关联方法,其特征在于,计算关联程度的方法是:根据Kullback-Leibler模型距离计算当前资源与其他资源在所述主题模型和任务模型的概率分布的相似性,进行加权得到总的距离。
9.如权利要求6所述的基于用户操作记录和资源内容的信息关联方法,其特征在于,所述任务模型和主题模型的学习中通过Gibbs采样进行参数估计。
10.如权利要求1所述的基于用户操作记录和资源内容的信息关联方法,其特征在于,所述用户计算机安装Windows或者Android系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210345320.1/1.html,转载请声明来源钻瓜专利网。