[发明专利]文章热点得分的预测方法、介质、装置和计算设备有效
| 申请号: | 201910415015.7 | 申请日: | 2019-05-17 |
| 公开(公告)号: | CN110119511B | 公开(公告)日: | 2023-05-02 |
| 发明(设计)人: | 聂卉;田乐逍;魏望 | 申请(专利权)人: | 网易传媒科技(北京)有限公司 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205 |
| 代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 杨瑾瑾;陈建民 |
| 地址: | 100084 北京市海淀区西北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文章 热点 得分 预测 方法 介质 装置 计算 设备 | ||
本发明的实施方式提供了一种文章热点得分的预测方法、介质、装置和计算设备。该方法包括:确定待预测文章的文章特征,所述文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项;对所述文章特征进行离散化处理,得到所述待预测文章的待预测样本;将所述待预测样本输入预先训练的热点得分预测模型,得到所述待预测文章的热点得分。本发明实施例预测出的热点得分准确率较高,并且能够适用的文章类型的范围更广。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
现有的新闻热点得分计算方法中,常用的有基于用户行为统计的热点得分计算方法。这种方法能充分利用在线系统用户与新闻的实时及历史交互行为进行热点得分计算。这些交互行为包括曝光点击、曝光未点击、分享、跟帖等。
基于用户行为统计的热点得分计算方法,简单易懂,但是由于文章的很多特征(例如文章源等级、文章源等)无法被量化,在计算文章热点得分时这些无法被量化的文章特征不能被使用,导致计算出的热点得分准确率不高。
发明内容
本发明期望提供一种文章热点得分的预测方法和装置,以及一种热点得分预测模型的训练方法和装置。
在本发明实施方式的第一方面中,提供了一种文章热点得分的预测方法,包括:
确定待预测文章的文章特征,所述文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项;
对所述文章特征进行离散化处理,得到所述待预测文章的待预测样本;
将所述待预测样本输入预先训练的热点得分预测模型,得到所述待预测文章的热点得分。
在本发明的一个实施例中,所述文章属性特征包括:发布源、发布源等级、对应分类、发布时间及增量特征中的至少一项;
所述文章点击相关特征包括:前N小时每小时威尔逊置信区间点击率、前N小时总点击数、曝光数、预设时段的威尔逊置信区间点击率及跟帖数中的至少一项;其中,所述N为正数;
所述文章上下文特征包括:曝光时间戳及地理位置中的至少一项。
在本发明的一个实施例中,所述待预测文章的增量特征的确定方式为:
确定所述待预测文章所对应的至少一个兴趣点;
确定各个所述兴趣点所对应的文章增加数及各个所述兴趣点所对应的文章总数;
针对各个兴趣点,计算所述兴趣点所对应的文章增加数与所述兴趣点所对应的文章总数的比值;
比较各个兴趣点的所述比值,将数值最大的比值确定为所述待预测文章的增量特征。
在本发明的一个实施例中,所述对所述文章特征进行离散化处理,包括:
采用有监督式的分箱算法对所述文章特征进行离散化处理。
在本发明的一个实施例中,所述热点得分预测模型为逻辑回归模型。
在本发明实施方式的第二方面中,提供了一种热点得分预测模型的训练方法,包括:
确定样本文章的文章特征,所述文章特征包括文章属性特征、文章点击相关特征及文章上下文特征中的至少一项;
对所述文章特征进行离散化处理,得到所述样本文章的训练样本;
采用所述样本文章的真实热点得分及所述训练样本训练所述热点得分预测模型。
在本发明的一个实施例中,所述采用所述样本文章的真实热点得分及所述文章特征训练所述热点得分预测模型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易传媒科技(北京)有限公司,未经网易传媒科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910415015.7/2.html,转载请声明来源钻瓜专利网。





