[发明专利]一种基于文章相似数量的文章热度计算方法在审
申请号: | 202011443545.1 | 申请日: | 2020-12-11 |
公开(公告)号: | CN112487782A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 赖朝彬;沈健欢;许剑峰 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/216;G06F40/289;G06K9/62;G06F16/2455;G06F16/31;G06F16/335 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 蔡金塔 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文章 相似 数量 热度 计算方法 | ||
本发明涉及一种基于文章相似数量的文章热度计算方法,其包括以下步骤:S1.数据预处理,根据文章内容利用相似度算法获得文章相似度指纹码;S2.将S1计算的文章相似度指纹码与文章信息的关联关系保存到数据库;S3.根据要统计的时间范围和数量,对S2步骤数据库保存的相似度指纹码与文章信息关联关系进行聚合查询,根据聚合结果进行排序;S4.根据S3查询结果计算文章的热度评分。本发明的方法无需获得用户交换数据即可分析特定领域的热门文章及文章的热门程度,不会产生延时,计算量小,速度快。
技术领域
本发明涉及大数据分析领域,具体地涉及一种基于文章相似数量的文章热度计算方法。
背景技术
目前互联网信息的热度算法主要由用户交互产生热度分和时间衰减的热度分计算得出。此类数据只有发布平台才有全面的数据,而通过互联网采集到的数据没有全面的用户交互数据,由于用户交互数据是实时产生的,所以爬虫采集的部分用户交互数据也有延迟。互联网爬虫把有限的资源用于采集文章内容,而用户交互的数据是实时产生的,采集的数据不准确、有延迟。
发明内容
本发明旨在提供一种基于文章相似数量的文章热度计算方法,以解决上述问题。为此,本发明采用的具体技术方案如下:
一种基于文章相似数量的文章热度计算方法,其包括以下步骤:
S1.数据预处理,根据文章内容利用相似度算法获得文章相似度指纹码;
S2.将S1计算的文章相似度指纹码与文章信息的关联关系保存到数据库;
S3.根据要统计的时间范围和数量,对S2步骤数据库保存的相似度指纹码与文章信息关联关系进行聚合查询,根据聚合结果进行排序;
S4.根据S3查询结果计算文章的热度评分。
进一步地,S1的具体过程如下:
S11.将文章标题加文章内容合并成一个字符串;
S12.利用互联网开源分词器Ansj进行分词;
S13.对分词结果进行优化,根据位置计算权重,对关键词进行排序;
S14.根据关键词列表计算sha-1哈希值,sha-1哈希值即为相似度指纹码。
进一步地,S2的数据库字段至少包括文章标题、文章内容、发布时间和相似度指纹码。
进一步地,S2采用Elasticsearch进行存储。
进一步地,S3中根据聚合结果进行排序具体是相似文章数量由高到低进行排序。
进一步地,S4具体过程如下:
S41.根据聚合结果计算平均相似文章数量S,计算规则为:去掉相似最多和最少的数据,再求剩余的相似文章数量的平均值,计算公式如下:
其中,Si为排在第i位的相似文章数量;
S42.将需要查询的时间范围转换为以天为单位,时间范围天数为D;
S43.计算热度评分Score,公式如下:
其中,Sn为当前计算的文章的相似文章数量,评分基数BS是一个整数值,用于计算评分的基准,是热度评分结果的最高期望分值;
间隔时间IT是当前时间与文章发布时间间隔时间;
相似数量权重SW是相似文章数量在计算评分时评分时所占的权重,与时间权重相加为1;
时间权重TW是间隔时间在评分时所占的比重,相似权重一样的情况评分会随着时间递减,与相似度权重相加为1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011443545.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电控硅油风扇控制方法、装置、系统和车辆
- 下一篇:药品处方在线管理系统