[发明专利]一种资讯处理方法及装置有效
| 申请号: | 201710106771.2 | 申请日: | 2017-02-27 |
| 公开(公告)号: | CN106933993B | 公开(公告)日: | 2019-12-24 |
| 发明(设计)人: | 闫丹凤;韩昫;柯楠;林荣恒;赵耀;邹华 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F16/14 | 分类号: | G06F16/14 |
| 代理公司: | 11413 北京柏杉松知识产权代理事务所(普通合伙) | 代理人: | 孙翠贤;项京 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 资讯 处理 方法 装置 | ||
1.一种资讯处理方法,其特征在于,所述方法包括:
获得针对预设时间段的目标资讯组,所述目标资讯组中包括属于同一领域的至少两条目标资讯;
分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯;
对所述第一处理资讯进行关键词提取,将提取到的关键词作为所述预设时间段的资讯热点;
针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度;
所述对所述第一处理资讯进行关键词提取,包括:
利用词频-逆向文件频率TF-IDF算法对第二处理资讯中包含的词语进行权重计算,得到每一词语的权重值,所述第二处理资讯为:采用预设的分词库对所述第一处理资讯中包含的无关词进行过滤后得到的资讯,所述无关词为与所述目标资讯所属领域无关的词语;
将第一词语序列的前第一预设数量个词语确定为关键词,所述第一词语序列为按照词语对应权重值从大到小排列的词语序列;
所述计算所述目标资讯的热度所采用的公式为:
其中,H(x)表示所述目标资讯组中包含的目标资讯x对应的热度,q(x)为该目标资讯x对应的热点相关因子,T(x)为该目标资讯x对应的时间因子;具体的,所述q(x)和所述T(x)表达式如下:
该式中,q(x)为该目标资讯x对应的热点相关因子,f(kx)表示所述目标资讯x中关键词k对应的权重值,Ntitle(kx)表示所述关键词k在所述目标资讯x的标题中出现的频次,Ncontent(kx)表示所述关键词k在所述目标资讯x的正文中出现的频次;
该式中,T(x)为该目标资讯x对应的时间因子,tc(x)表示计算所述目标资讯x的热度时对应的时间,tp(x)表示所述目标资讯x对应的发布时间。
2.根据权利要求1所述的方法,其特征在于,所述分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯,包括:
分别对所述目标资讯组中每一目标资讯所包含的超文本标记语言HTML标签和/或图像进行过滤,得到每一目标资讯对应的纯文本形式的第一处理资讯。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述目标资讯组中所有目标资讯对应的关键词进行向量化,生成针对所述目标资讯组的文本向量空间,所述文本向量空间中每一维度的向量均对应一个关键词;
基于所述文本向量空间中每一目标资讯所包含关键词的向量,对所述目标资讯组中每一目标资讯进行聚类,得到第一数量的类簇;
将每一类簇的第二词语序列的前第二预设数量个关键词作为该类簇的代表词,所述第二词语序列为按照关键词对应的权重值从大到小排列的词语序列。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
将所述资讯热点推送至显示界面,所述显示界面为展示资讯内容的界面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710106771.2/1.html,转载请声明来源钻瓜专利网。





