[发明专利]一种面向网络话题的热度评价方法有效
| 申请号: | 201510032875.4 | 申请日: | 2015-01-22 |
| 公开(公告)号: | CN104615685B | 公开(公告)日: | 2018-01-26 |
| 发明(设计)人: | 程学旗;杜慧;伍大勇;张瑾;郭岩;余智华;刘悦;刘玮 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 网络 话题 热度 评价 方法 | ||
技术领域
本发明涉及数据挖掘技术领域,更具体地,涉及一种面向网络话题的热度评价方法。
背景技术
互联网已成为最重要的信息传播载体,并依靠其自由和便利性巩固了其在新闻传播中的主力地位。海量的各种类型的数据在网络上形成一个极其丰富的信息源,网络新闻媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。人们已经习惯于通过网络查看最新资讯,然而新闻数量的庞大要求网民必须有选择地阅读新闻,因此最新最热的事件相关信息成为关注的重点.
网络信息数据经过信息采集与抽取后,半结构化或者结构化的网页信息变成了易于处理的结构化的文本内容,其中包括标题、内容、作者、点击量、评论量等属性。TDT技术能够自动将文本按照内容聚类成话题,一般选取聚类集合中的一篇文档的标题来代表该话题。话题的数量较原始的互联网网页的数量大大降低。但是互联网中话题的数量相对于用户的精力来说仍然比较庞大,对用户获悉热点、洞察整个互联网的发展态势带来了困难。对话题热度的评价是解决这个问题的一种方法,热度评价可以衡量话题在网络中受到的关注程度、能够方便用户对热点事件的把握,具有实用性。
目前,对话题热度的研究主要是从排序问题入手的,现有技术大多考虑用户关注度和媒体关注度。其中一种方法考虑新闻网页、来源网站和话题之间的相关增强。另有一种方法将热度定义为这两者的加权和,其中使用相关报道数量来量化一定时间内站点上主题的媒体关注度,并且使用用户的浏览行为来量化用户关注度;或者采用话题相关的文章数目来计算媒体关注度,并且使用用户的搜索日志来计算用户关注度。此外,还有一种方法进一步增加了时效性,利用回归模型来研究话题热度。
尽管对于话题热度的研究已有不少成果,但大多缺乏统一的衡量标准,热度值的范围往往是不确定的,用户无法通过数值对事件当前的受关注程度获得一个直观的理解;并且,对于计算过程中的参数的获取多数是通过人工指定或者打分得到的,这样计算得到的结果偏重主观性;此外,不同时段之间的热度值可比性较弱,现有方法往往是采用某一段时间内的语料来计算话题排序,从而无法用于话题趋势的描述。
发明内容
为解决上述问题,根据本发明的一个实施例,提供一种面向网络话题的热度评价方法,包括:
步骤1)、从目标时段的文档流中获得要进行热度评价的网络话题;
步骤2)、将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;
步骤3)、根据对比的结果得到该网络话题的热度值。
上述方法中,步骤2)包括:
计算所述网络话题的属性向量与规则中的属性向量的距离,其中,属性向量的各分量是所属网络话题的各属性值。
上述方法中,步骤3)包括:
将与所述网络话题的属性向量距离最小的规则中的属性向量所对应的热度值,作为所述网络话题的热度值。
上述方法中,步骤1)还包括:
获得所述网络话题的属性向量;根据训练得到的离散点集合离散化所述网络话题的属性向量的分量;其中,每个离散点集合与一种属性相对应,其包括一个或多个按大小顺序排列的值,用于与网络话题的属性向量中对应的分量进行比较以将该分量转换为预定范围内的值。
上述方法中,对于属性Am对应的非空离散点集合{p1,…,pR},其中R≥1且为整数,根据下式离散化所述网络话题的属性向量的对应分量:
其中,表示在目标时段t网络话题i的属性向量中与属性Am对应的离散化分量,表示在目标时段t网络话题i的属性向量中与属性Am对应的分量;
对于属性Am对应的空离散点集合,
上述方法中,所述网络话题的属性向量的分量包括在目标时段的网页内容属性的属性值和所述网络话题在目标时段的前一时段的热度值。
上述方法中,根据以下步骤训练所述离散点集合以及所述规则:
步骤a)、按时段采集网页,得到每个时段的网络话题;
步骤b)、给定热度值的范围,由不同知识背景的参与者对每个时段的每个网络话题进行热度评价,得到每个时段的每个网络话题的热度值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510032875.4/2.html,转载请声明来源钻瓜专利网。





