[发明专利]一种信息处理方法、装置及存储介质有效
申请号: | 201710660877.7 | 申请日: | 2017-08-04 |
公开(公告)号: | CN110008334B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 王树伟;温旭;花贵春;范欣;姜国华 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;王花丽 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 方法 装置 存储 介质 | ||
本发明公开了一种信息处理方法、装置及存储介质,所述方法包括:提取待评估的第一文字信息的文字特征,基于所述文字特征和预设的映射关系获得描述时间参数,所述描述时间参数表征所述第一文字信息内容描述的时间信息;依据预设的聚类方式对包括所述第一文字信息在内的待评估的所有文字信息进行聚类,以识别所述第一文字信息对应的类别;基于所述第一文字信息对应的类别确定所述第一文字信息的有效时间参数;所述有效时间参数表征对应所述类别的有效时长;基于所述描述时间参数、所述有效时间参数以及当前时间信息,得到所述第一文字信息的第一时新度参数。
技术领域
本发明涉及互联网信息处理技术,尤其涉及一种信息处理方法、装置及存储介质。
背景技术
互联网中每天都有数以万计的文章被发布,而文章的“新鲜度”无疑是用户非常关注的,它表征了文章的及时性,比如文章为最近的新闻,或者是已经过期的旧闻,而衡量文章的新鲜程度的被称作时新度。目前,评估文章时新度的方式通常是通过识别文章中携带的时间信息,然而采用此种方式,当文章内部没有明确的时间表达时,则无法识别,导致召回率多低;而且,若文章内容讲的是最近发生的事,却由于在文章某部分引用了很久以前发生的历史事件,则会导致识别错误。
发明内容
本发明实施例提供一种信息处理方法、装置及存储介质,能够准确的评估文章的时新度,召回率高。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种信息处理方法,所述方法包括:
提取待评估的第一文字信息的文字特征,基于所述文字特征和预设的映射关系获得描述时间参数,所述描述时间参数表征所述第一文字信息内容描述的时间信息;
依据预设的聚类方式对包括所述第一文字信息在内的待评估的所有文字信息进行聚类,以识别所述第一文字信息对应的类别;
基于所述第一文字信息对应的类别确定所述第一文字信息的有效时间参数;所述有效时间参数表征对应所述类别的有效时长;
基于所述描述时间参数、所述有效时间参数以及当前时间信息,得到所述第一文字信息的第一时新度参数。
上述方案中,所述提取待评估的第一文字信息的文字特征之前,所述方法还包括:
分别对采集的多个第二文字信息的文字特征进行标记,得到多个样本信息;
采用文字特征作为训练特征对所述多个样本信息训练学习模型,以基于所述学习模型形成所述文字特征与所述描述时间参数的映射关系。
上述方案中,所述方法还包括:
分别获取所述所有文字信息中除所述第一文字信息外的每个文字信息的第一时新度参数;
依据所有文字信息中每个文字信息的第一时新度参数对所有文字信息进行排序,得到第一排序结果;
依据所述第一排序结果将所述所有文字信息中至少一个文字信息作为候选推荐文字信息。
上述方案中,所述方法还包括:
确定所述所有文字信息中与所述第一文字信息的相似度满足预设要求的第三文字信息;所述第三文字信息对应的描述时间参数为空;
将所述第三文字信息的描述时间参数设置为等同于所述第一文字信息的描述时间参数。
上述方案中,所述方法还包括:
确定与所述第一文字信息类别相同的文字信息的数量,以及所述数量在预设的至少两个时间段内的变化;
依据所述数量、所述数量的变化及预设的热度判决条件,得到用于表征文字热度的所述第一文字信息的热度等级;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710660877.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种论文初步审查评价方法
- 下一篇:自然语言处理的方法及装置