[发明专利]基于用户潜在需求的资源推荐方法及系统有效
申请号: | 201310549102.4 | 申请日: | 2013-11-08 |
公开(公告)号: | CN103577579A | 公开(公告)日: | 2014-02-12 |
发明(设计)人: | 王庆红;李鹏;周育忠;陶秀洁;龚婷;陈传夫;王平;王晓光;冉从敬 | 申请(专利权)人: | 南方电网科学研究院有限责任公司;武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京万慧达知识产权代理有限公司 11111 | 代理人: | 张金芝;杨颖 |
地址: | 510062 广东省广州市越秀区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 潜在 需求 资源 推荐 方法 系统 | ||
技术领域
本发明涉及数据检索领域,尤其是涉及一种基于用户潜在需求的资源推荐方法及系统。
背景技术
随着Web2.0技术的不断发展,通过Internet这种快捷、方便的信息载体,人们每天都会创造出成千上万的信息,因此它已经成为了人们在日常生活中获取信息的重要平台之一。但是,信息量快速膨胀之后随之而来的问题是信息泛滥问题,无数重复的数据通过Internet呈现在用户面前,使得人们想通过网络查找自己感兴趣的信息变得非常困难和耗时,这种现象称为“信息过载”。
面对这样的挑战,基于互联网的搜索引擎应运而生。人们通常会利用搜索网站来查找自己想要的数据,但通用的搜索引擎仅仅只是通过用户输入的关键词来匹配相关的信息并将之返回给用户,不同用户输入相同检测条件时返回的内容完全相同,并没有考虑到用户个人兴趣进行差异化设计。因此,搜索引擎所能提供的信息筛选能力有限,不能从根本上解决信息过载的问题。
此外,搜索引擎的另外一个显著特点就是采用信息拉取方式,即用户根据自己的信息需求,从互联网将信息“拉取”到用户面前。但如果用户无法准确描述自己的信息需求而输入了不恰当的检索词,将会拉取回来大量的和自己的需求并不匹配的信息资源。这些问题到导致现有的搜索引擎难以全面地体现不同用户的需求差异,搜索效率、精确度和用户满意度很难达到理想的状态。
发明内容
针对现有技术中存在的上述缺陷,本发明所要解决的技术问题是如何针对不同用户的差异提供精确的信息。
为解决上述技术问题,一方面,本发明提供了一种基于用户潜在需求的资源推荐方法,该方法包括步骤:
S1,利用文本聚类和主题挖掘算法对资源进行聚类和主题抽取;
S2,基于聚类结果,计算每个主题下的主题词,得到对应领域的主题词表;
S3,利用主题词表对资源进行自动标引,计算出每个独立资源包含的主题词;
S4,结合用户对独立资源的操作记录以及用户属性,计算用户对某个主题的关注度,建立用户需求模型并计算用户之间的主题相似度;利用独立资源中数据间的关系计算指定信息对主题的权威度;
S5,根据用户需求模型筛选资源,将匹配度较高的资源推荐给用户。
优选地,所述步骤S1中,采用改进的层次化主题抽取模型hLDA进行所述聚类和主题抽取。
优选地,所述步骤S4中,用户u和v之间的主题相似度计算步骤为:
首先建立用户u和v各自的需求模型Mu和Mv;同时记Mu和Mv各自的主题集合为和
根据Mu和Mv中包含的主题建立主题集合n为Mu和Mv各自包含的主题个数之和;
分别计算用户u和v对的Ti的关注度S(u,Ti)和S(v,Ti);
在主题空间{T1,T2,...,Tn}上分别建立用户u、v的主题关注度向量U和V:U={S(u,T1),S(u,T2),...,S(u,Tn)}以及V={S(v,T1),S(v,T2),...,S(v,Tn)};计算向量U和V的夹角的余弦值作为u和v之间的主题相似度。
优选地,所述步骤S5中,根据用户需求模型Mu筛选资源包括步骤:
对于Mu包含的每个主题,将该主题下的规范主题词及其相应的辅助词放入词表Dic;当所有主题处理完毕后,词表Dic包含了模型Mu中所有的规范主题词和辅助词;
对于Mu包含的每个主题T,得到包含该主题的所有文档,将这些文档放入集合Docs;当所有主题处理完毕后,集合Docs为所有包含了Mu中至少一个主题的文档集合;
对集合Docs中的每个文档,统计词表Dic中的词在该文档中出现次数之和TFDic;当集合Docs中所有文档统计完毕后,根据每个文档的TFDic进行排序,将最靠前的若干个文档推荐给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网科学研究院有限责任公司;武汉大学,未经南方电网科学研究院有限责任公司;武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310549102.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:全自动书套盒包装机
- 下一篇:一种计算机信息系统及其动态容灾方法