[发明专利]一种层次化新闻热点及其演化的挖掘与可视化方法有效

专利信息
申请号: 201710198955.6 申请日: 2017-03-29
公开(公告)号: CN106951554B 公开(公告)日: 2021-04-20
发明(设计)人: 汤斯亮;董浩灵;吴飞;吴江琴;庄越挺 申请(专利权)人: 浙江大学
主分类号: G06F16/953 分类号: G06F16/953;G06F16/33;G06F16/34;G06F16/35
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 张法高;傅朝栋
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 层次 新闻 热点 及其 演化 挖掘 可视化 方法
【说明书】:

发明公开了一种层次化新闻热点及其演化的挖掘与可视化方法。包括如下步骤:1).利用概率主题建模技术挖掘由抽象到具体的具有层次化结构的新闻热点。2).提出全新的“Nested‑circle”可视化布局对层次化的新闻热点进行可视化。3).利用相对熵方法挖掘相邻时间片同一粒度的层次化新闻热点的关联性,即新闻热点在时序上的演化行为。4).采用动态可视化技术呈现新闻热点在时序上的演化行为。5).结合上述层次化新闻热点及其演化的挖掘与可视化技术,集成了“层次化新闻热点及其演化的分析系统”,方便读者分析层次化新闻热点及其演化。

技术领域

本发明涉及新闻文本的热点挖掘与可视化,尤其涉及一种层次化新闻热点及其演化的挖掘与可视化方法。

背景技术

在如今互联网和大数据日益发展的背景下,各类数据通过互联网各异地互联网平台被大量产生出来。新闻报道由于叙述详实规范,来源可靠,观点客观等特点,是互联网海量数据中一个重要的信息来源,新闻文本对于经济形势研究、国内国际政治研究、商业决策研究、社会文化研究、甚至科学技术发展方向研究等领域都有着十分重要的作用。从海量地新闻数据分析筛选出有价值的信息需要耗费大量的资源,因此如何运用计算机技术自动归纳出有价值的值得关注的新闻话题,即新闻热点,并通过可视化方法将新闻热点的内容全方位地呈现给用户,是一个重要的研究课题。

新闻热点挖掘技术能够对海量新闻文本进行准确而高效地分析,并归纳一个时间范围内发生的有价值的新闻热点。新闻热点挖掘技术主要有基于监督学习和基于无监督学习两种方式。监督学习方式需要大量的标注数据对挖掘模型进行训练,而新闻文本大多不是结构化的,获取大量标注信息的代价很大,所以本文认为无需使用标注数据训练模型的基于非监督学习的新闻热点挖掘技术更具研究价值。其中非常有效的一种方式就是概率主题建模技术。概率主题建模技术以Blei等人提出的隐形狄利克雷分布(Latent DirichletAllocation,LDA)为代表,可以用来发现新闻文本中的隐含语义,对新闻文本中语义相关的单词进行聚类,从而挖掘新闻热点。挖掘出新闻热点后,我们希望以尽可能少的时间,来获得尽可能多的信息,比如一段时间范围内的新闻热点,与新闻热点相关的新闻文本原文,新闻热点的情感色彩等信息,于是新闻热点可视化技术研究也日益增多,通过可视化技术,我们可以从各个维度解释和分析大量的新闻文本数据。

通过传统的LDA概率主题建模挖掘新闻热点的技术虽然可以获取文本中隐含的语义信息,但是也具有很多的局限性。首先LDA无法挖掘出热点的层次性结构。在现实世界中,热点本身是具有层次性的,比如一个关于“体育”的热点,会包含“奥运会”、“世界杯”、“世锦赛”等子热点。所以在挖掘新闻热点的同时,我们也需要了解热点间的层次结构关联。再者,LDA无法挖掘出新闻热点在时间上的演化过程。随着时间推进,新闻热点的内容会逐渐发生变化,同时,很多新的新闻热点也会产生,而旧的新闻热点可能会消失。比如2016年10月,有“美国大选”这个热点,而在2016年11月,这个热点可能会演化为“特朗普当选”。所以我们在了解新闻热点的结构关联的同时,还需要了解新闻热点随时间的演化。基于新闻热点具有层次结构关联性、时序关联性这两个特性和LDA在这两方面的不足,我们需要一种同时挖掘新闻热点层次结构、时序关联的方法,能够深度挖掘新闻热点的层次关联和随时间的演化过程。

可视化技术的目的是将杂乱的、高密度的数据用各种方式整理之后呈现给用户,使用户可以方便的从复杂的数据中获取有用的信息。面对互联网中海量的新闻数据,可视化技术必不可少。迄今为止,文本可视化技术的应用主要有对特定领域学术论文文本进行可视化、对新闻文本进行可视化以及对词典百科文本进行可视化等。由于新闻本文跨越了不同领域,语义内容丰富,因此需要大量不同的可视化技术方式来呈现,例如呈现新闻热点本身、新闻热点词、新闻文本原文、新闻相关图片等等。同时也要展现新闻热点的层次结构以及新闻热点在时序上的演化过程。所以对新闻文本以及层次化新闻热点及其演化的可视化研究也成为了非常重要的理解新闻数据的方式。

发明内容

本发明的目的在于解决现有技术中存在的问题,并提供一种层次化新闻热点及其演化的挖掘与可视化方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710198955.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top