[发明专利]一种获取用户和文档个性化特征的方法和系统在审
| 申请号: | 201210086681.9 | 申请日: | 2012-03-20 |
| 公开(公告)号: | CN103324648A | 公开(公告)日: | 2013-09-25 |
| 发明(设计)人: | 祁勇 | 申请(专利权)人: | 祁勇 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 518053 广东省深*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 获取 用户 文档 个性化 特征 方法 系统 | ||
技术领域
本发明涉及互联网领域,具体来说涉及一种获取用户和文档个性化特征的方法和系统。
背景技术
搜索引擎和社交网络是互联网上获取网络信息的主要工具。但是这两种工具存在一个共同的缺点,即没有考虑到用户和文档的个性化特征在信息检索中的作用。
搜索引擎是利用信息检索技术进行大规模的网页收集、索引、排序,以及根据排序结果将网页呈现给查询用户的应用程序。搜索引擎的核心技术是排序算法。最为有效的排序算法是超链分析算法,例如谷歌的PageRank算法。超链分析算法的输入是由网页设计者根据其主观意愿构建的网页链接关系,尽管它充分反映了网页设计者的个人偏好和对网页链接关系的理解,但是它却没有反映出搜索引擎的使用者-用户的个人偏好。由于从事不同行业或具有不同爱好的用户对同一个网页的重要性评价通常是不同的,而PageRank等超链分析算法无法进行这种区分,它们只能对每个网页给出唯一的网页排名,因此,超链分析算法的设计是有缺陷的。一个可行的解决方案是结合用户和网页的个性化特征来改进搜索结果,使得每个网页的排名不仅依赖于网页之间的链接关系,而且依赖于提交搜索查询的用户和被查询的网页的个性化特征。有分析表明,借助用户和网页的个性化特征,能够提高搜索引擎的查准率,减少用户对无效信息的扫描和浏览。
社交网络是在互联网上人们彼此之间进行沟通的平台。社交网络每天发布的信息已达数亿条。虽然在社交网络中用户可以通过其关系网络来过滤和筛选信息,例如通过加关注(follow)获得他人的信息或通过点击喜欢(like)按钮帮助其他人筛选信息等,但是目前在微博和脸谱(Facebook)等社交网络中已经出现了信息过载现象。由于担心有重要的或者有趣的信息被遗漏,用户通常会在社交网络中关注更多的人或者加入更多的好友。研究发现当朋友数量超过邓巴数(Dunbar)150之后,社交网络将会逐渐演变成为一种对用户进行“信息轰炸”的服务。另外,用户关系网络中的好友发送的每条信息,也未必都是用户所需要的。例如在微博中用户A关注了用户B,即使用户A只对用户B发布的某类信息感兴趣,用户A也不得不接收来自用户B发布的所有信息,而不能有选择地接收这些信息。一个可行的解决方案是结合用户和信息本身的个性化特征来过滤和筛选这些信息,使得用户在社交网络上获得的信息不仅依赖于用户自己建立的关系网络,而且依赖于用户和信息本身的个性化特征。为表述方便起见,本文把社交网络中的一条信息,如一条微博,也当作一个文档。有分析表明,结合用户和文档的个性化特征能够对社交网络上的海量信息进行有效地过滤和筛选,进而提高社交网络的信息检索效率。
从上述分析看出,用户和文档的个性化特征在信息检索领域能够发挥重要的作用。但是在互联网上获取用户和文档的个性化特征通常是困难的,主要有以下几个难点。第一是个性化信息的自动获取问题。据估算目前互联网上有数千亿个网页和二十亿用户,手工维护网页文档和用户的个性化特征是不现实的。如何自动获取用户和网页文档的个性化特征是一个难题。第二是个性化信息的更新问题。随着时间的推移,用户的兴趣爱好、工作地点、从事的行业和教育程度等个人信息会发生改变,但是要求大多数用户实时地更新其个性化信息是困难的。第三是个性化信息的语义差异问题。在用户设置的个性化特征中,术语不同但语义相同的个性化特征,难以进行有效归类。第四是个性化信息的完备性问题。用户在网站上提供的个人信息通常比较简略。例如用户兴趣爱好的典型描述是喜欢音乐、打棒球或看书等几项内容,而要求用户全面地细致地描述出其感兴趣的领域是困难的。
综上所述,如何有效地获取用户和文档的个性化特征,并根据所述个性化特征来提高搜索引擎的查准率以及提高社交网络的信息检索效率,是一个亟待解决的问题。
发明内容
鉴于上述现有技术存在的问题,本发明的目的在于提供一种获取用户和文档个性化特征的方法和系统,来自动获取用户和文档的个性化特征,进而根据所述个性化特征,提高用户在互联网上检索信息的效率。
根据以上所述的目的,本发明提出了一种获取用户和文档个性化特征的方法,其特征在于,
获取并存储由多个文档组成的文档集D={1,2,...,M},获取并存储由多个用户组成的用户集U={1,2,...,N},设置并存储特征集K={1,2,...,L};
为所述文档集D中的部分文档设置参数向量初始值以及为所述用户集U中的部分用户设置参数向量初始值;
多次执行如下参数向量更新算法:
接收任意一个用户j(j∈U)访问任意一个文档i(i∈D)的信号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于祁勇,未经祁勇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210086681.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种糖膏冷却水回收装置
- 下一篇:包装盒整型装置





