[发明专利]基于伪本体的用户画像-项目推荐系统及方法有效
申请号: | 201810563501.9 | 申请日: | 2018-06-04 |
公开(公告)号: | CN108920521B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 张涛;邓悦;翁康年;张滨 | 申请(专利权)人: | 上海财经大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/906 |
代理公司: | 上海盈盛知识产权代理事务所(普通合伙) 31294 | 代理人: | 孙佳胤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 本体 用户 画像 项目 推荐 系统 方法 | ||
1.基于伪本体的用户画像-项目推荐系统,其特征在于,包括:伪本体模块、用户画像模块、项目画像模块、基于偏好度的推荐模块;所述伪本体模块获取领域相关文本,生成领域伪本体,并输出到用户画像模块和项目画像模块;所述用户画像模块获取用户的网络浏览行为,根据所述领域伪本体,计算优化的用户特征向量,并输出到基于偏好度的推荐模块;所述项目画像模块获取项目相关描述文本,根据所述领域伪本体,计算优化的项目特征向量,并输出到基于偏好度的推荐模块;所述基于偏好度的推荐模块根据所述用户特征向量和项目特征向量输出用户对应的项目偏好度排名;所述伪本体模块包含领域概念识别子模块和概念关系识别子模块,所述领域概念识别子模块对领域相关文本进行词频统计,去除停用词后,将词频大于α的词记为领域概念词,α为预定值;所述概念关系识别子模块的流程为:其中,ch为领域概念词集合C中的第h个概念词,为ch的n维词向量表示,表示领域概念词ch通过层次聚类被划分为伪本体的第y层第m个类;
所述领域概念识别子模块判断领域概念词是否领域专属,若不是领域专属,则将其定义为虚概念,若是领域专属,则定义其为实概念;所述用户画像模块包括初始用户画像生成子模块和用户画像优化子模块,所述初始用户画像生成子模块将用户浏览的所有网页词汇进行基于词向量的表示:其中tijk表示第i个用户浏览的第j个网页中的第k个词,为tijk的n维词向量表示;将网页词汇与概念词进行相似度量:其中表示第i个用户浏览的第j个网页中的第k个词与伪本体中第h个概念间基于词向量的相似度,表示tijk的词向量中第g个维度值,表示ch的词向量中第g个维度值;以每一个概念词为单位,将大于阈值的相似度累加:其中q为阈值,|tij|表示第i个用户浏览的第j个网页中包含的词汇个数,dij表示第i个用户浏览的第j个网页,表示第i个用户浏览的第j个网页对第h个概念的偏好度,对每个概念,将按用户进行累加,计算出每个用户对概念的偏好值其中,|di|表示第i个用户浏览的网页数量,di表示第i个用户,表示第i个用户对第h个概念的偏好值,用N表示用户的某偏好概念在一段时间不同网页中识别出的次数,当该偏好概念出现次数小于N时,该偏好概念无效:其中,为ch被识别出的次数,最终,第i个用户对所有概念的偏好值构成用户特征向量;所述用户画像优化子模块将无值父实概念的值更新为父概念与每个子概念之间的距离与子概念值的乘积的累加:其中,表示第i个用户在最终画像上对于概念ch的偏好值,表示第i个用户在初始画像上对于概念ch的偏好值,c′h表示伪本体中概念ch的所有子概念的集合,|c′h|表示伪本体中概念ch的所有子概念的数量,表示第i个用户对ch的第v个子概念的偏好度,表示概念ch与其第v个子概念基于词向量的相似度,计算方法为:其中,表示的词向量中第g个维度值;最终,第i个用户对所有概念的偏好值构成优化的用户特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海财经大学,未经上海财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810563501.9/1.html,转载请声明来源钻瓜专利网。