[发明专利]一种基于文章相似数量的文章热度计算方法在审

申请号：	202011443545.1	申请日：	2020-12-11
公开（公告）号：	CN112487782A	公开（公告）日：	2021-03-12
发明（设计）人：	赖朝彬;沈健欢;许剑峰	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G06F40/194	分类号：	G06F40/194;G06F40/216;G06F40/289;G06K9/62;G06F16/2455;G06F16/31;G06F16/335
代理公司：	厦门市精诚新创知识产权代理有限公司 35218	代理人：	蔡金塔
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文章相似数量热度计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于文章相似数量的文章热度计算方法，其包括以下步骤：S1.数据预处理，根据文章内容利用相似度算法获得文章相似度指纹码；S2.将S1计算的文章相似度指纹码与文章信息的关联关系保存到数据库；S3.根据要统计的时间范围和数量，对S2步骤数据库保存的相似度指纹码与文章信息关联关系进行聚合查询，根据聚合结果进行排序；S4.根据S3查询结果计算文章的热度评分。本发明的方法无需获得用户交换数据即可分析特定领域的热门文章及文章的热门程度，不会产生延时，计算量小，速度快。

技术领域

本发明涉及大数据分析领域，具体地涉及一种基于文章相似数量的文章热度计算方法。

背景技术

目前互联网信息的热度算法主要由用户交互产生热度分和时间衰减的热度分计算得出。此类数据只有发布平台才有全面的数据，而通过互联网采集到的数据没有全面的用户交互数据，由于用户交互数据是实时产生的，所以爬虫采集的部分用户交互数据也有延迟。互联网爬虫把有限的资源用于采集文章内容，而用户交互的数据是实时产生的，采集的数据不准确、有延迟。

发明内容

本发明旨在提供一种基于文章相似数量的文章热度计算方法，以解决上述问题。为此，本发明采用的具体技术方案如下：

一种基于文章相似数量的文章热度计算方法，其包括以下步骤：

S1.数据预处理，根据文章内容利用相似度算法获得文章相似度指纹码；

S2.将S1计算的文章相似度指纹码与文章信息的关联关系保存到数据库；

S3.根据要统计的时间范围和数量，对S2步骤数据库保存的相似度指纹码与文章信息关联关系进行聚合查询，根据聚合结果进行排序；

S4.根据S3查询结果计算文章的热度评分。

进一步地，S1的具体过程如下：

S11.将文章标题加文章内容合并成一个字符串；

S12.利用互联网开源分词器Ansj进行分词；

S13.对分词结果进行优化，根据位置计算权重，对关键词进行排序；

S14.根据关键词列表计算sha-1哈希值，sha-1哈希值即为相似度指纹码。