[发明专利]一种层次化新闻热点及其演化的挖掘与可视化方法有效

专利信息
申请号: 201710198955.6 申请日: 2017-03-29
公开(公告)号: CN106951554B 公开(公告)日: 2021-04-20
发明(设计)人: 汤斯亮;董浩灵;吴飞;吴江琴;庄越挺 申请(专利权)人: 浙江大学
主分类号: G06F16/953 分类号: G06F16/953;G06F16/33;G06F16/34;G06F16/35
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 张法高;傅朝栋
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 层次 新闻 热点 及其 演化 挖掘 可视化 方法
【权利要求书】:

1.一种层次化新闻热点及其演化的挖掘与可视化方法,其特征在于,包括如下步骤:

1)获取新闻文本数据集,并对新闻文本进行预处理;

2)利用层次分类主题模型对新闻文本进行层次分类主题建模,挖掘出树状的从抽象到具体的层次化新闻热点;

3)利用预设的布局对层次化新闻热点进行可视化展示;

4)利用相对熵对同一分类下的新闻热点在时序上的关联度进行计算,并且将新闻热点在时序上分为四种演化行为:产生、演变、分裂和消亡;根据当前时间片上新闻热点与前一时间片上新闻热点的相关度,计算当前时间片上新闻热点的演化行为;

5)利用动态可视化技术可视化层次化的新闻热点在时序上的演化过程;

所述的步骤2)包括:

2.1)利用层次分类主题模型对每篇新闻文本进行采样,构建出层次化的新闻热点,挖掘出的新闻热点形成“新闻热点树”,且从根节点到叶节点的新闻热点由抽象到具体;

采样的过程是:首先按照公式(1)对每篇文本采样出一条从根节点到叶节点的路径:

其中,C(d)为对第d篇文本采样出的路径;C为“新闻热点树”的结构;Cnews为部分文本的分类信息,由先验Φ控制;C-d为除去第d篇文本外的“新闻热点树”从根节点到叶节点的路径集合;CR为文本分类信息,W为新闻文本集合,Z为主题分布,γ为超参数先验,β为主题关于单词分布的先验;

然后按照公式(2)将文本中的每个单词分配到这条路径上的节点,“新闻热点树”的第一层节点是半监督分类新闻热点,表示新闻的类别;

其中,zd,i为第d篇文本第i个单词所属的主题;zd,-i为第d篇文本除了第i个单词以外,其他单词所属的主题的集合;α为所有文本关于主题的狄利克雷分布的先验;αd为第d篇文本关于主题的狄利克雷分布的先验;βk为第k个主题关于单词的概率分布先验;L为“新闻热点树”的层数;V为单词集合;为第d篇文本中,除了第i个单词,剩余单词属于第k个主题的单词数,为第k个主题中,除去第i个单词后,第h个单词在主题中出现的次数;

2.2)待“新闻热点树”的结构收敛后,对建模得到的每个叶节点新闻热点,根据公式(3)计算该新闻热点相关的文本;

其中,n表示第d篇文本的单词数,L表示“新闻热点树”的层数;w(d)代表第d篇文本的单词向量,z(d)表示第d篇文本对应的新闻热点向量,代表第d篇文本的分配路径上叶节点新闻热点;表示新闻热点z中,第d篇文本的第i个单词出现的次数;N(z)为新闻热点z中所有单词出现的总次数。

2.根据权利要求1所述的一种层次化新闻热点及其演化的挖掘与可视化方法,其特征在于,所述的步骤1)包括:

1)爬取新闻文本标题、原文、新闻文本所属的分类标签和新闻文本关键词;

2)若爬取的文本为中文新闻文本,需要利用新闻文本关键词对新闻文本进行分词,之后得到中文新闻文本的词典;若爬取的文本为英文新闻文本,需要利用新闻文本关键词得到词组或缩写词,之后得到新闻文本集的词典,词典中包括词组和缩写词;中文词典和英文词典中均需要过滤低频词语和停词;

3)将新闻文本表示成能够被概率主题模型处理的形式。

3.根据权利要求1所述的一种层次化新闻热点及其演化的挖掘与可视化方法,其特征在于,所述的步骤3)包括:

1)利用“Nested Circle”布局呈现层次化的新闻热点结构,在这个可视化布局中,每个新闻热点用一个圆圈表示,圆圈的大小与和这个新闻热点相关的文本数成正比;

2)可视化每个分类新闻热点下的子新闻热点的相关新闻文本原文;当点击某叶节点新闻热点时,系统会显示与该新闻热点最相关的四篇新闻文本原文。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710198955.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top