[发明专利]一种文章相似度推荐方法和装置在审
申请号: | 201911368567.3 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111061957A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 周昉昉;赖蔚蔚;吴广财;郑杰生;郑颖龙;高尚;林嘉鑫 | 申请(专利权)人: | 广东电网有限责任公司;广东电力信息科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠 |
地址: | 510600 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文章 相似 推荐 方法 装置 | ||
本申请公开了一种文章相似度推荐方法和装置,其中方法包括:提取用户当前发布的目标内容中的特征词;计算目标内容的每个特征词的第一TF‑IDF值;基于第一TF‑IDF值和目标内容中的第一关键词生成词频向量,第一关键词基于第一TF‑IDF值对目标内容的特征词筛选得到;基于词频向量和文档库中的待推荐文章的预置词频向量构建关键词‑文档矩阵;对关键词‑文档矩阵进行奇异值分解,得到文本主题矩阵;基于文本主题矩阵计算目标内容与待推荐文章的相似度;基于相似度对待推荐文章进行降序排序,并将降序排序后的待推荐文章推荐给用户,解决了现有的网络文章推荐方法推荐精度低的技术问题。
技术领域
本申请涉及推荐技术领域,尤其涉及一种文章相似度推荐方法和装置。
背景技术
随着互联网+时代的到来,网络信息的数量呈现指数级增长,大量的信息使得用户准确找到自己需要的信息变得异常困难,主要体现在当用户在网络发布信息需求后,系统向用户推荐的内容与用户需求信息的相关度低,干扰内容过多;以及当用户在网络浏览文章时,系统在用户浏览的文章下推送的内容与当前浏览的文章相关度低。因此,提高现有的推荐方法的推荐精度,是目前亟待解决的问题。
发明内容
本申请提供了一种文章相似度推荐方法和装置,用于解决现有的网络文章推荐方法推荐精度低的技术问题。
有鉴于此,本申请提供了一种文章相似度推荐方法,包括:
提取用户当前发布的目标内容中的特征词;
计算所述目标内容的每个特征词的第一TF-IDF值;
基于所述第一TF-IDF值和所述目标内容中的第一关键词生成词频向量,所述第一关键词基于所述第一TF-IDF值对所述目标内容的特征词筛选得到;
基于所述词频向量和文档库中的待推荐文章的预置词频向量构建关键词-文档矩阵;
对所述关键词-文档矩阵进行奇异值分解,得到文本主题矩阵;
基于所述文本主题矩阵计算所述目标内容与所述待推荐文章的相似度;
基于所述相似度对所述待推荐文章进行降序排序,并将降序排序后的所述待推荐文章推荐给所述用户。
优选地,所述提取用户当前发布的目标内容中的特征词,包括:
对用户当前发布的所述目标内容进行分词处理,得到分词结果;
对所述分词结果进行同义词转换,得到所述目标内容的特征词。
优选地,所述计算所述目标内容的每个特征词的第一TF-IDF值,包括:
计算所述目标内容的每个特征词的词频和逆文档频率;
将所述词频和所述逆文档频率相乘得到所述第一TF-IDF值。
优选地,所述基于所述第一TF-IDF值和所述目标内容中的第一关键词生成词频向量,之前还包括:
根据所述第一TF-IDF值的大小进行降序排序,取前第一预置数量的所述第一TF-IDF值对应的所述目标内容的特征词作为所述第一关键词。
优选地,所述基于所述词频向量和文档库中的待推荐文章的预置词频向量构建关键词-文档矩阵,之前还包括:
获取所述文档库中的所有所述待推荐文章;
提取每个所述待推荐文章的特征词;
计算每个所述待推荐文章的每个特征词的第二TF-IDF值;
基于所述第二TF-IDF值和所述待推荐文章中的第二关键词生成所述预置词频向量,所述第二关键词基于所述第二TF-IDF值对所述待推荐文章中的特征词筛选得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司;广东电力信息科技有限公司,未经广东电网有限责任公司;广东电力信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911368567.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:调整摄像器光源切换模块
- 下一篇:卧式储热仓