[发明专利]预测文章热度的方法和装置有效
申请号: | 201511018545.6 | 申请日: | 2015-12-29 |
公开(公告)号: | CN105488599B | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 李鹏 | 申请(专利权)人: | 杭州数梦工场科技有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06F16/35 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 310024 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预测 文章 热度 方法 装置 | ||
1.一种预测文章热度的方法,其特征在于,包括:
根据待预测文章包含的预设参数,确定待预测文章所属的类别;
根据预先建立的类别与关键字的对应关系,确定与所述类别对应的多个关键字,其中,所述类别与所述多个关键字的对应关系在训练阶段建立;
在所述多个关键字中获取与所述待预测文章匹配的一个关键字,其中,所述多个关键字的优先级不同,所述一个关键字是所述多个关键字中,与所述待预测文章匹配且优先级最高的关键字;
根据预先建立的关键字与预测模型之间的对应关系,确定与所述匹配的关键字对应的预测模型;
采用所述对应的预测模型,对所述待预测文章进行热度预测;
还包括:
对原始训练集,根据所述预设参数进行分类,得到多个类别的训练集,所述原始训练集包括多个类别的作为训练样本的文章;
在每个类别的训练集中,提取关键字,并获取与每个关键字对应的预测模型;
根据每个类别中提取出的关键字,建立类别与关键字的对应关系,以及,根据获取的每个关键字对应的预测模型,建立关键字与预测模型之间的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述提取关键字,包括:
在组成训练集的训练样本包含的内容中,选取预选关键字,所述预选关键字包括如下项中的至少一项:主题名称、人名、采用TF-IDF算法确定的分词;
判断所述预选关键字的出现频率是否大于预设频率值;
如果所述出现频率小于预设频率值,则获取所述预选关键字对应的拟合差值;
判断所述拟合差值是否小于预设差值;
如果所述预选关键字的出现频率大于预设频率值,或者,如果所述预选关键字对应的拟合差值小于预设差值,则将所述预选关键字确定为提取的关键字。
3.根据权利要求2所述的方法,其特征在于,所述获取所述预选关键字对应的拟合差值,包括:
在所述训练集中,选取包含所述预选关键字的训练样本;
根据选取的训练样本进行模型训练,得到预测模型;
采用所述预测模型对包含所述预选关键字的训练样本进行预测,得到包含所述预选关键字的训练样本的预测值;
比较包含所述预选关键字的训练样本的实际值和预测值,得到所述预选关键字对应的拟合差值。
4.根据权利要求1所述的方法,其特征在于,所述获取与每个关键字对应的预测模型,包括:
对应每个关键字,在所述训练集中选取包含所述关键字的训练样本;
根据包含所述关键字的训练样本进行模型训练,得到所述关键字对应的预测模型。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述预设参数是文章的作者。
6.一种预测文章热度的装置,其特征在于,包括:
归类模块,用于根据待预测文章包含的预设参数,确定待预测文章所属的类别;
匹配模块,用于根据预先建立的类别与关键字的对应关系,确定与所述类别对应的多个关键字,其中,所述类别与所述多个关键字的对应关系在训练阶段建立;
所述匹配模块,还用于在所述多个关键字中获取与所述待预测文章匹配的一个关键字,其中,所述多个关键字的优先级不同,所述一个关键字是所述多个关键字中,与所述待预测文章匹配且优先级最高的关键字;
确定模块,用于根据预先建立的关键字与预测模型之间的对应关系,确定与所述匹配的关键字对应的预测模型;
预测模块,用于采用所述对应的预测模型,对所述待预测文章进行热度预测;
还包括:
分类模块,用于对原始训练集,根据所述预设参数进行分类,得到多个类别的训练集,所述原始训练集包括多个类别的作为训练样本的文章;
获取模块,用于在每个类别的训练集中,提取关键字,并获取与每个关键字对应的预测模型;
建立模块,用于根据每个类别中提取出的关键字,建立类别与关键字的对应关系,以及,根据获取的每个关键字对应的预测模型,建立关键字与预测模型之间的对应关系。
7.根据权利要求6所述的装置,其特征在于,所述获取模块用于提取关键字,包括:
在组成训练集的训练样本包含的内容中,选取预选关键字,所述预选关键字包括如下项中的至少一项:主题名称、人名、采用TF-IDF算法确定的分词;
判断所述预选关键字的出现频率是否大于预设频率值;
如果所述出现频率小于预设频率值,则获取所述预选关键字对应的拟合差值;
判断所述拟合差值是否小于预设差值;
如果所述预选关键字的出现频率大于预设频率值,或者,如果所述预选关键字对应的拟合差值小于预设差值,则将所述预选关键字确定为提取的关键字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州数梦工场科技有限公司,未经杭州数梦工场科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511018545.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动发热贴
- 下一篇:义肢用套筒的改良结构
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理