[发明专利]一种基于文章相似数量的文章热度计算方法在审
申请号: | 202011443545.1 | 申请日: | 2020-12-11 |
公开(公告)号: | CN112487782A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 赖朝彬;沈健欢;许剑峰 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/216;G06F40/289;G06K9/62;G06F16/2455;G06F16/31;G06F16/335 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 蔡金塔 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文章 相似 数量 热度 计算方法 | ||
1.一种基于文章相似数量的文章热度计算方法,其特征在于,包括以下步骤:
S1.数据预处理,根据文章内容利用相似度算法获得文章相似度指纹码;
S2.将S1计算的文章相似度指纹码与文章信息的关联关系保存到数据库;
S3.根据要统计的时间范围和数量,对S2步骤数据库保存的相似度指纹码与文章信息关联关系进行聚合查询,根据聚合结果进行排序;
S4.根据S3查询结果计算文章的热度评分。
2.如权利要求1所述的方法,其特征在于,S1的具体过程如下:
S11.将文章标题加文章内容合并成一个字符串;
S12.利用互联网开源分词器Ansj进行分词;
S13.对分词结果进行优化,根据位置计算权重,对关键词进行排序;
S14.根据关键词列表计算sha-1哈希值,sha-1哈希值即为相似度指纹码。
3.如权利要求1所述的方法,其特征在于,S2的数据库字段至少包括文章标题、文章内容、发布时间和相似度指纹码。
4.如权利要求3所述的方法,其特征在于,S2采用Elasticsearch进行存储。
5.如权利要求1所述的方法,其特征在于,S3中根据聚合结果进行排序具体是相似文章数量由高到低进行排序。
6.如权利要求5所述的方法,其特征在于,S4具体过程如下:
S41.根据聚合结果计算平均相似文章数量S,计算规则为:去掉相似最多和最少的数据,再求剩余的相似文章数量的平均值,计算公式如下:
其中,Si为排在第i位的相似文章数量;
S42.将需要查询的时间范围转换为以天为单位,记为D;
S43.计算热度评分Score,公式如下:
其中,评分基数BS是一个整数值,用于计算评分的基准,是热度评分结果的最高期望分值;
间隔时间IT是当前时间与文章发布时间间隔时间,单位为天;
相似数量权重SW是相似文章数量在计算评分时评分时所占的权重,与时间权重相加为1;
时间权重TW是间隔时间在评分时所占的比重,相似权重一样的情况评分会随着时间递减,与相似度权重相加为1;
S44.根据文章相似指纹码获取发布时间最早的文章信息,从而获得热门文章列表与热门文章评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011443545.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电控硅油风扇控制方法、装置、系统和车辆
- 下一篇:药品处方在线管理系统