[发明专利]文章热点得分的预测方法、介质、装置和计算设备有效
| 申请号: | 201910415015.7 | 申请日: | 2019-05-17 |
| 公开(公告)号: | CN110119511B | 公开(公告)日: | 2023-05-02 |
| 发明(设计)人: | 聂卉;田乐逍;魏望 | 申请(专利权)人: | 网易传媒科技(北京)有限公司 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205 |
| 代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 杨瑾瑾;陈建民 |
| 地址: | 100084 北京市海淀区西北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文章 热点 得分 预测 方法 介质 装置 计算 设备 | ||
1.一种文章热点得分的预测方法,其特征在于,包括:
确定待预测文章的文章特征,所述文章特征包括文章属性特征,还包括文章点击相关特征及文章上下文特征中的至少一项,所述文章属性特征包括增量特征;
对所述文章特征进行离散化处理,得到所述待预测文章的待预测样本;
将所述待预测样本输入预先训练的热点得分预测模型,得到所述待预测文章的热点得分;
其中,所述待预测文章的增量特征的确定方式为:
确定所述待预测文章所对应的至少一个兴趣点;
确定各个所述兴趣点所对应的文章增加数及各个所述兴趣点所对应的文章总数;
针对各个兴趣点,计算所述兴趣点所对应的文章增加数与所述兴趣点所对应的文章总数的比值;
比较各个兴趣点的所述比值,将数值最大的比值确定为所述待预测文章的增量特征。
2.根据权利要求1所述的方法,其特征在于,
所述文章属性特征还包括:发布源、发布源等级、对应分类及发布时间中的至少一项;
所述文章点击相关特征包括:前N小时每小时威尔逊置信区间点击率、前N小时总点击数、曝光数、预设时段的威尔逊置信区间点击率及跟帖数中的至少一项;其中,所述N为正数;
所述文章上下文特征包括:曝光时间戳及地理位置中的至少一项。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述文章特征进行离散化处理,包括:
采用有监督式的分箱算法对所述文章特征进行离散化处理。
4.根据权利要求1或2所述的方法,其特征在于,所述热点得分预测模型为逻辑回归模型。
5.一种热点得分预测模型的训练方法,其特征在于,包括:
确定样本文章的文章特征,所述文章特征包括文章属性特征,还包括文章点击相关特征及文章上下文特征中的至少一项,所述文章属性特征包括增量特征;
对所述文章特征进行离散化处理,得到所述样本文章的训练样本;
采用所述样本文章的真实热点得分及所述训练样本训练所述热点得分预测模型;
其中,所述样本文章的增量特征的确定方式为:
确定所述样本文章所对应的至少一个兴趣点;
确定各个所述兴趣点所对应的文章增加数及各个所述兴趣点所对应的文章总数;
针对各个兴趣点,计算所述兴趣点所对应的文章增加数与所述兴趣点所对应的文章总数的比值;
比较各个兴趣点的所述比值,将数值最大的比值确定为所述样本文章的增量特征。
6.根据权利要求5所述的方法,其特征在于,所述采用所述样本文章的真实热点得分及所述文章特征训练所述热点得分预测模型,包括:
将所述训练样本输入所述热点得分预测模型;
获取所述样本文章的预测热点得分,所述预测热点得分由所述热点得分预测模型输出;
比较所述预测热点得分及所述真实热点得分,根据比较结果调整所述热点得分预测模型的参数。
7.根据权利要求5或6所述的方法,其特征在于,
所述文章属性特征还包括:发布源、发布源等级、对应分类及发布时间中的至少一项;
所述文章点击相关特征包括:前N小时每小时威尔逊置信区间点击率、前N小时总点击数、曝光数、预设时段的威尔逊置信区间点击率及跟帖数中的至少一项;其中,所述N为正数;
所述文章上下文特征包括:曝光时间戳及地理位置中的至少一项。
8.根据权利要求5或6所述的方法,其特征在于,所述对所述文章特征进行离散化处理,包括:
采用有监督式的分箱算法对所述文章特征进行离散化处理。
9.根据权利要求5或6所述的方法,其特征在于,所述热点得分预测模型为逻辑回归模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易传媒科技(北京)有限公司,未经网易传媒科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910415015.7/1.html,转载请声明来源钻瓜专利网。





