[发明专利]一种新闻处理方法及装置在审
申请号: | 202110429183.9 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113761439A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 康战辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/953;G06K9/62 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 刘星雨;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 处理 方法 装置 | ||
1.一种新闻处理方法,其特征在于,所述方法包括:
从网页排序模型训练数据中抽取符合时新性要求的部分训练数据,作为新闻排序模型训练数据;
基于所述新闻排序模型训练数据的时新性、以及所述新闻排序模型训练数据的相关性标签,确定所述新闻排序模型训练数据的时新性标签;
基于所述新闻排序模型训练数据以及对应的时新性标签,训练新闻排序模型;
基于训练好的所述新闻排序模型对多个新闻信息进行排序处理。
2.根据权利要求1所述的方法,其特征在于,在确定所述新闻排序模型训练数据的时新性标签之前,所述方法还包括:
获取所述新闻排序模型训练数据对应的查询串在多个时间段的搜索量;
遍历所述多个时间段中任意的两个相邻时间段,对所述任意的两个相邻时间段的搜索量进行检验处理,得到所述查询串对应的两个相邻时间段;
将所述查询串对应的两个相邻时间段的后一时间段的结束时刻与当前时刻之间的时间间隔,作为所述新闻排序模型训练数据的时新性。
3.根据权利要求2所述的方法,其特征在于,所述对所述任意的两个相邻时间段的搜索量进行检验处理,得到所述查询串对应的两个相邻时间段,包括:
对任意的两个相邻时间段执行以下处理:
对所述两个相邻时间段的搜索量进行拟合处理,得到检验统计量;
基于卡方分布将所述检验统计量映射为可信度;
其中,所述可信度表征所述结束时刻与所述两个相邻时间段的搜索量的增量的相关程度;
将最大可信度对应的两个相邻时间段作为所述查询串对应的两个相邻时间段。
4.根据权利要求1所述的方法,其特征在于,所述基于所述新闻排序模型训练数据的时新性、以及所述新闻排序模型训练数据的相关性标签,确定所述新闻排序模型训练数据的时新性标签,包括:
获取所述时新性的权重值和所述相关性标签的权重值;其中,所述时新性的权重值大于所述相关性标签的权重值;
根据所述时新性的权重值和所述相关性标签的权重值,对所述时新性和所述相关性标签进行加权求和处理,将加权求和结果作为所述新闻排序模型训练数据的时新性标签。
5.根据权利要求1所述的方法,其特征在于,在基于所述新闻排序模型训练数据以及对应的时新性标签,训练所述新闻排序模型之前,所述方法还包括:
根据不同的时新性敏感度与所述新闻排序模型的不同的训练数据数量比例之间的对应关系,确定与所述新闻排序模型的时新性敏感度对应的训练数据数量比例;
其中,所述时新性敏感度与目标训练数据的数量成正相关,所述目标训练数据为所述时新性标签的目标等级对应的所述新闻排序模型训练数据,所述目标等级包括所述时新性标签的等级降序排序的前二分之一中的至少之一;
调整所述新闻排序模型训练数据中不同类型的训练数据之间的数量比例,以符合与所述新闻排序模型的时新性敏感度对应的训练数据数量比例。
6.根据权利要求1所述的方法,其特征在于,所述从网页排序模型训练数据中抽取符合时新性要求的部分训练数据,包括:
获取所述网页排序模型训练数据的时间戳;
将所述时间戳与当前时间点的时间间隔,作为所述网页排序模型训练数据的时新性;
将所述时新性大于时新性阈值的部分所述网页排序模型训练数据,作为符合时新性要求的部分训练数据。
7.根据权利要求1所述的方法,其特征在于,所述从网页排序模型训练数据中抽取符合时新性要求的部分训练数据,包括:
获取各类历史新闻专题的标题;
将所述网页排序模型训练数据与所述历史新闻专题的标题进行匹配处理,得到标题匹配度;
将所述标题匹配度大于匹配度阈值的部分所述网页排序模型训练数据,作为符合时新性要求的部分训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110429183.9/1.html,转载请声明来源钻瓜专利网。