[发明专利]一种融合文本相似度和协同过滤的标签推荐方法和系统在审
| 申请号: | 202111059171.8 | 申请日: | 2021-09-10 |
| 公开(公告)号: | CN113722443A | 公开(公告)日: | 2021-11-30 |
| 发明(设计)人: | 张灿;房鹏展 | 申请(专利权)人: | 焦点科技股份有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/216;G06F40/30;G06K9/62 |
| 代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
| 地址: | 210032 江苏省南京*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 融合 文本 相似 协同 过滤 标签 推荐 方法 系统 | ||
1.一种融合文本相似度和协同过滤的标签推荐方法,其特征在于:包括如下步骤:
步骤一:生成标签知识库;对数据库中全部物品的文本内容进行新词发现,获取指定数量的关键词,所述文本内容包括标题、详情描述,所述关键词是描述物品关键属性的业务术语,对于每个所述的关键词,筛选包含该关键词的物品,对筛选后的物品的文本内容进行文本聚类,通过文本聚类发掘包含该关键词的相似标签词,所述相似标签词组成标签知识库,其中包含若干类知识,每条知识的形式为[标准标签,相似标签1,…,相似标签k],其中,所述标准标签为所有相似标签中共现频率最高的词语,所述相似标签为该类知识中除标准标签以外的其他相似标签词;
步骤二:物品标签映射得到物品标签相似度矩阵;具体为:基于标签知识库训练深度学习的句向量模型,将文本内容中每一个句子都输入句向量模型得到内容向量,计算内容向量与标签知识库中每条标签的向量的余弦相似度,选择余弦相似度最高的标签所对应的标准标签作为物品的标签;每个物品被映射到至少一个标签;基于tf-idf算法计算物品与全量标准标签的tf-idf权值,得到物品标签相似度,构成物品标签相似度矩阵,所述物品标签相似度矩阵是一个Nprods行T列的矩阵,所述Nprods是指所有物品的数量,T等于标签知识库中所有标准标签的数量;
步骤三:计算用户标签相似度矩阵;基于数据库中用户历史行为记录构建用户行为偏好矩阵,构建用户标签相似度矩阵为行为评分与物品标签相似度矩阵的乘积,所述用户标签相似度矩阵中的第i个值为用户与单个标准标签i的相似度;
步骤四:计算物品协同相似矩阵和用户协同相似矩阵;所述物品协同相似矩阵的计算方法为:对所有物品,计算两两之间的第一相似度和第二相似度的加权平均值;所述用户协同相似矩阵的计算方法为:计算两两用户标签相似度矩阵向量的余弦相似度;
步骤五:计算用户对物品的兴趣预测评分,所述兴趣预测评分为行为兴趣评分、用户协同评分和物品协同评分三者的融合;所述行为兴趣评分的计算方法为:用户标签相似度矩阵乘以物品标签相似度矩阵的转置;所述用户协同评分是指根据用户协同相似矩阵匹配与当前用户最相似的指定数量用户,计算这批用户的用户行为偏好矩阵的加权平均值;所述物品协同评分是指对行为兴趣评分中得0分的物品,根据物品协同相似矩阵补充评分,使其评分大于0。
2.如权利要求1所述的一种融合文本相似度和协同过滤的标签推荐方法,其特征在于:所述步骤一中,还包括:新词发现方法采用信息熵与互信息算法将物品的全部文本内容作为输入后进行计算获取指定数量的关键词,所述文本聚类还包括进行文本聚类后得到指定数量的子类,每一个子类中包含指定数量的语义相似的文本内容,将聚类结果表示为[keywordi,subclass1,…,subclassn],所述聚类结果中的subclassi的形式为[text1,text2,…,textk],对subclassi中所有text进行词语共现分析,将词频最高的词语作为标准标签,所有text作为相似标签,并组成一条知识[标准标签,相似标签1,…,相似标签k]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111059171.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无掩模光刻系统及其对应的光刻方法
- 下一篇:一种天然矿石负氧离子发生器





