[发明专利]基于伪本体的用户画像-项目推荐系统及方法有效
申请号: | 201810563501.9 | 申请日: | 2018-06-04 |
公开(公告)号: | CN108920521B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 张涛;邓悦;翁康年;张滨 | 申请(专利权)人: | 上海财经大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/906 |
代理公司: | 上海盈盛知识产权代理事务所(普通合伙) 31294 | 代理人: | 孙佳胤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 本体 用户 画像 项目 推荐 系统 方法 | ||
本发明提供基于伪本体的用户画像‑项目推荐系统及方法,本发明提供的基于伪本体的用户画像‑项目推荐系统包括:伪本体模块、用户画像模块、项目画像模块、基于偏好度的推荐模块;所述伪本体模块获取领域相关文本,生成领域伪本体,并输出到用户画像模块和项目画像模块;所述用户画像模块获取用户的网络浏览行为,根据所述领域伪本体,向基于偏好度的推荐模块输出优化的用户特征向量;所述项目画像模块获取项目相关描述文本,根据所述领域伪本体,向基于偏好度模块的推荐输出优化的项目特征向量;所述基于偏好度的推荐模块根据所述优化的用户特征向量和优化的项目特征向量输出用户对应的项目偏好度排名。
技术领域
本发明属于用户画像生成技术领域,具体涉及基于伪本体的用户画像-项目推荐系统及方法。
背景技术
基于用户画像的推荐属于推荐领域中基于内容的推荐方法。该方法的定义为根据用户选择的物品或选择物品时进行的相关行为中提取出能反映用户兴趣的特征,如物品的特性(颜色,形状)或用户对物品的评论等,将提取出的用户兴趣特征作为用户画像,同时把待推荐的物品也用同样维度的特征表示,通过将用户画像与物品画像进行计算来进行推荐,推荐的结果极大的依赖于用户画像与物品画像的准确性。用户画像的结果依据数据的不同而异,目前研究用到的数据主要有三种类型:一类是用户的交易数据,第二类是用户发表的文本数据,主要来自于电商网站用户的评论和社交网站用户自发的状态等,第三类数据为用户浏览网页的行为数据。第一类数据的特点是只包含数值型数据,不包含文本数据,仅能获取用户的购买习惯为特征,刻画的画像维度有限。第二类数据能刻画用户的主观情绪和情感值,但受限于用户通常会有不同的文本表达习惯这一实际情况,且只能收集到网络上活跃用户的信息。第三类数据主要描述了用户在何时浏览了哪些网页。不管用户是否喜欢在网络上发表评论或状态,网页浏览已经成为了用户获取信息最直接的方式,因此用户的网页浏览行为数据中蕴含了大量客观的关于用户兴趣的信息,较前两类数据刻画用户画像更具有优势,因此本系统采用用户的网络浏览行为刻画用户画像。
尽管网络浏览行为中蕴含了大量关于用户的兴趣信息,但从中提取出有效特征并不容易。早期的研究工作通常会将用户浏览频繁的网页域名或网页关键词作为特征集,将浏览的频率经过一定变换后作为特征值,然而如果将该方法应用到用户群,则会因为用户群的频繁兴趣网站不同而使得各用户画像的维度不统一。在近几年,基于本体的用户画像建模方法逐渐发展并取得成效。由于本体天然的优势:各概念之间有明确的关系定义,使得基于本体的方法刻画的用户画像能客观清晰地描述用户的特征,且对于不同的用户,基于本体的方法生成的特征集具有固定不变的特点。
用本体进行基于网络浏览行为的用户画像建模的关键技术之一在于如何将网络浏览行为用本体来表示。比较典型的工作有Domen等根据其研究的问题采用了专家映射法。借助其团队在其研究领域有深厚的基础,有能力通过专家识别的方法对固定领域的网页进行主题识别和分类,但该方法不能扩展到其他领域,且专家映射虽然精确度高,但会耗费大量的时间和人力成本。Hawalah等提出了tf-idf映射法,即通过tf-idf法将网页文本内容和本体概念的解释文本内容分别表示成词袋向量,再度量两个文本之间相似性,最后将该相似度作为网页到本体的映射值。该方法基本解决了各个领域的网页难以映射到本体的问题,但这是基于本体已经存在,并且本体内的概念有完整的说明文档的情况。但实际情况是只有极少数领域有本体。
网络浏览行为在蕴含海量与用户有关的信息的同时,也蕴含着大量干扰信息,如何从这些海量而杂乱的数据中提取出真实有效的信息是这类研究的关注点。解决这类问题的研究普遍认同的假设为:如果用户对某一主题感兴趣,则会多次浏览相关主题的网页。基于该假设,有学者提出了the Contextual Concept Clusteringalgorithm(3C)算法,从网页中识别出的主题进行基于相似度权重的地聚类,将权重最大的概念用来代表网页的主题,并使用参数β来控制参与聚类的候选概念个数。该方法能有效的排除掉网页中的干扰信息,但当网页原本就含有多个主题时,由于该算法最终只选择权重最高的概念来代表网页主题,使得最终的映射结果会漏掉网页中包含的其他主题,当用户浏览该网页是出于对多个主题的兴趣时,该算法又会使得画像刻画的用户兴趣不完整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海财经大学,未经上海财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810563501.9/2.html,转载请声明来源钻瓜专利网。