[发明专利]一种水利门户信息混合推荐方法有效
申请号: | 201910496474.2 | 申请日: | 2019-06-10 |
公开(公告)号: | CN110362740B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 王继民;张玲;王飞;王磊;杨江 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35;G06Q50/06 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 梁耀文 |
地址: | 211100 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 水利 门户 信息 混合 推荐 方法 | ||
1.一种水利门户信息混合推荐方法,其特征在于,包括如下步骤:
(1)建立水利门户信息分类,将水利门户信息分为:水文信息、水资源信息、水环境水生态信息、水利工程信息、农村水利信息、水灾害即防汛抗旱信息、水土保持信息、移民信息、政务信息以及其他信息一共十类;
(2)建立水利门户信息分类模型;
(3)利用构建的分类模型实现水利门户信息推荐数据集每条水利门户信息类别判断;
(4)建立基于时空敏感的热点信息推荐模型,依据不同时间和空间位置,为用户推荐当前热点水利门户信息,具体步骤如下:
(4.1)网站根据水利门户信息所涉及流域所处的空间位置事先定义好当前时间的热门水利门户信息类别;
(4.2)根据水利门户信息流行度和时效性计算用户对水利门户信息的兴趣度I;
(4.3)根据兴趣度I对水利门户信息进行排名,生成Top-N推荐列表;
(5)建立基于用户和信息类别的协同过滤推荐模型,实现Top-N推荐,具体步骤如下:
(5.1)根据用户行为数据中用户阅读的水利门户信息的类别构建用户-水利门户信息类别兴趣度向量,并加入用户兴趣衰减函数f(t)实现用户兴趣更新;具体为:
用户兴趣初始表示:
对用户首次行为当天的浏览记录分析,用户对每种类别的初始兴趣计算方法如下:
其中,pi表示用户对水利门户信息的i兴趣度,都设置为1;ωij表示水利门户信息i是否属于类别j,如果属于则ωij为1,反之,则为0;s表示用户阅读的总的水利门户信息的篇数;最终生成用户对所有类别的单日兴趣度向量Cday,公式如下:
其中,ci表示类别i,表示用户对该类别的兴趣度,l表示类别总个数;
用户兴趣更新:对用户的类别兴趣度进行更新,计算方法如下:
Cnow=f(t)×Cupdate+Cday
其中,Cnow表示用户当前的类别兴趣度向量,Cupdate表示上一次更新后生成的用户类别兴趣度向量,Cday表示本次行为当天行为产生的类别兴趣度向量;表示用户的兴趣衰减函数,tnow为当前日期,tupdate为兴趣值最近一次更新的日期;ω为系统预置参数,决定着用户兴趣衰减的速率;
(5.2)根据向量Cnow利用余弦相似度公式计算用户之间的相似度,找与当前用户类别兴趣相似的用户;
假设用户a对水利门户信息类别的兴趣度为xa={xa1,xa2,...xak},用户b对水利门户信息类别的兴趣度为xb={xb1,xb2,...xbk},则用户a和用户b的余弦相似度如下:
根据用户相似度,选出U个喜好最接近的用户;
(5.3)与水利门户信息时效性公式k(t)相乘计算用户对相似用户阅读的水利门户信息的兴趣度I;
时效性如下:
其中,tnow表示当前时间,tpublish表示水利门户信息发布时间;
用户兴趣度计算方式如下:
I(a,b,n)=simab×μan×k(t)
其中,a是目标用户,b是相似用户,n是用户b看过的水利门户信息,I(a,b,n) 是用户a对相似用户b看过的水利门户信息n的最终兴趣程度,simab表示用户a和用户b之间的相似度,μan表示用户a对水利门户信息n的初始兴趣度,μan设置为1,k(t)表示时效性;
(5.4)根据兴趣度I对水利门户信息进行排名,去除用户已经看过的水利门户信息,生成Top-N推荐列表;
(6)建立基于信息内容的推荐模型,实现Top-N推荐,具体步骤如下:
(6.1)对水利门户信息推荐数据以及用户行为数据进行预处理,包括分词和去除停用词;
(6.2)通过LDA主题模型和向量空间模型提取用户行为数据中用户的主题兴趣向量Tu和关键词兴趣向量Ku,构建用户兴趣模型,具体为:
利用主题模型挖掘水利门户信息隐含主题,得到用户阅读的第一次阅读的所有水利门户信息的主题权值,用如下矩阵表示:
其中,TS={(t1,ωs1),(t2,ωs2),...,(tk,ωsk)}表示用户当日阅读的每篇水利门户信息的主题特征向量,ωij表示用户阅读的第i篇文章的第j个主题的权重,k为主题的个数,s表示文章篇数,
计算用户对每个主题的兴趣度,用户的主题兴趣度计算如公式如下:
其中,pi表示用户对水利门户信息的i兴趣度,都设置为1, ωij表示用户阅读的水利门户信息i中主题j的权值, s表示用户阅读的总的水利门户信息的篇数,最终生成用户对所有主题的初始兴趣向量Tday:
其中,ti表示主题,表示用户对该类别的兴趣度,k表示主题总个数,
用户主题兴趣向量更新原理与业务兴趣向量的更新原理类似,因此对用户兴趣向量进行更新,最终生成用户当前主题兴趣向量Tu:
Tu={(t1,ω1),(t2,ω2),…,(tk,ωk)}
关键词兴趣向量初始表示与更新:
利用向量空间模型挖掘用户关键词兴趣,使用TF-IDF进行关键词权值计算,得到用户首次阅读的所有水利门户信息的主题权值,计算用户对每个关键词的兴趣度,关键词兴趣向量的初始表示与更新方式与主题类似,最终生成用户当前关键词兴趣向量Ku:
Ku={(k1,ω1),(k2,ω2),…,(kn,ωn)}
(6.3)通过LDA主题模型和向量空间模型提取水利门户信息推荐数据集中的主题特征向量Tn和关键词特征向量Kn,构建水利门户信息模型;
(6.4)计算用户兴趣模型和水利门户信息模型两种模型的配度,与水利门户信息时效性公式k(t)相乘计算用户对每篇水利门户信息的兴趣度I;
分别计算用户主题兴趣向量Tu与水利门户信息主题特征向量Tn相似度sim(Tu,Tn)以及用户关键词兴趣向量Ku与水利门户信息关键词特征向量Kn相似度sim(Ku,Kn),该过程采用余弦相似度公式完成,判断用户兴趣模型与水利门户信息模型之间相似度如下:
sim(u,n)=α×sim(Tu,Tn)+β×sim(Ku,Kn)
其中,α和β用于调整两种相似度之间的比例,α+β=1;
计算用户对水利门户信息的兴趣度,这部分用户兴趣度的计算也需要考虑水利门户信息时效性,用户兴趣度计算如公式如下:
I(u,n)=sim(u,n)×μun×k(t)
其中,u是目标用户,n是待推荐水利门户信息集中的水利门户信息,I(u,n)是用户u对水利门户信息n的最终兴趣程度,sim(u,n)表示用户和用户之间的相似度,μun表示用户u对水利门户信息n的初始兴趣度,μun设置为1,k(t)表示时效性;
(6.5)根据兴趣度I对水利门户信息进行排名,去除用户已经看过的水利门户信息,生成Top-N推荐列表;
(7)建立基于步骤(4)的时空敏感的热点信息推荐模型、基于步骤(5)的用户和信息类别的协同过滤推荐模型和步骤(6)的信息内容推荐模型线性加权的混合推荐模型,实现Top-N推荐;
(8)对于新用户,采用步骤(4)的基于时空敏感的热点信息推荐模型推荐当前时间和空间位置的热点门户信息,对老用户,采用步骤(7)的混合推荐模型,推荐门户信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910496474.2/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置