[发明专利]网络新闻表情分布的自动预测方法有效
| 申请号: | 201010534624.3 | 申请日: | 2010-11-03 |
| 公开(公告)号: | CN101984431A | 公开(公告)日: | 2011-03-09 |
| 发明(设计)人: | 吴偶;胡卫明 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 梁爱荣 |
| 地址: | 100080 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网络新闻 表情 分布 自动 预测 方法 | ||
技术领域
本发明涉及计算机应用技术领域,特别涉及一种网络新闻表情分布的自动预测方法。
背景技术
网络新闻表情是阅读网络新闻后反应,国内主要新闻门户网站(如搜狐网、人民网、腾讯、凤凰网等)在每一个网络新闻的后面设立了新闻表情烂,内容包括:高兴、愤怒、感动、难过、搞笑、无聊等;每一个网络用户在上述的主要新闻门户网站阅读完一个网络新闻后,都可以在该新闻后面的新闻表情栏目上进行投票,以表达自己的心情与情感。大量的网络用户对某一个网络新闻投票之后,其投票数据能够大体上反映当前的网络大众对该篇新闻的心态和情感。图1为一则搜狐新闻的新闻表情投票数据。新闻表情可以很好的反应阅读者对新闻的即时心态,相比新闻评论更简洁,有利于迅速掌握网络大众对该新闻事件看法的快速统计。通过对网络新闻内容与新闻表情分布之间关系的建模,能够在一则新闻发布之前有效的预测该新闻可能产生的新闻表情分布,以便各个新闻门户网站在新闻发布之前有效的预测网络大众的反应。
图1示出一则搜狐新闻的新闻表情投票数据,网络新闻表情的分布预测不同于传统的多分类问题或者多标签问题。在多分类问题里面,训练集里面的每个样本的标签是多个类别中的一个类别;在多标签问题里面,训练集里面的每个样本的标签是多个类别中的一个或者多个类别。而在网络新闻表情的分布预测里面,所收集到的网络新闻的标签是建立在多个新闻表情类别上的一个分布。难以直接利用多文本分类问题或者多标签问题上的特征选择方法来选择关键词。此外,由于不同的新闻收到的关注度不同,有些新闻的受关注程度很大,因此参与投票的用户个数非常大,因此这类新闻的投票分布比较稳定,可信度强;有些新闻的受关注程度较小,参与投票的用户个数比较少,这类新闻的投票分布不太稳定,可信度较差。例如一个搜狐新闻当仅仅只有1个用户对其投票时,这1个用户投票产生的分布随机性很大,当越来越多的用户对该新闻进行投票后,其投票产生的分布才能够比较真实的反应了网络大众对该则新闻的反应。现有的方法都忽略了以上两点,一般都直接把每个网络新闻样本收到用户投票最多的新闻表情作为该网络新闻样本的类别,然后利用面向多类的文本特征选择方法进行关键词选择,丢失了很多用户投票的信息;同时不考虑不同用户投票数所导致的新闻表情的投票分布的不可靠性。
发明内容
(一)要解决的技术问题
本发明的主要目的是解决现有技术丢失很多用户投票的信息,及新闻表情的投票分布不可靠的技术问题,提出一种新的对网络新闻的新闻表情分布进行预测的方法。基于这样的一个背景,我们首先把所收集到的数据集转化为一个多类文本集合,这样就可以利用多类文本特征选择方法来进行关键词提取;同时根据不同新闻样本投票用户个数的不同,我们定义了一个置信度来反应样本的新闻表情分布的可靠程度,然后利用概率表情传播算法来对收集到的样本的新闻表情分布进行修正,以希望提高新闻表情分布的可靠性。
(二)技术方案
为达到上述目的,本发明提供了一种网络新闻表情分布的自动预测方法,该方法解决技术问题的技术方案包括:
步骤1:首先计算机收集的网络新闻样本以及每个网络新闻样本的新闻表情投票数据,对每一个网络新闻样本对应的新闻表情投票数据,进行如下归一化处理:设不同新闻表情的个数为K,设收集的网络新闻样本的个数为M,则待处理的第i个网络新闻样本的新闻表情投票数据为(V1(i),V2(i),…,Vj(i),…,VK(i)),其中i=1,...,M,Vj(i)为对第i个网络新闻样本的第j个新闻表情进行过投票的用户的个数,则对待处理的第i个网络新闻样本投票的用户总个数为然后计算机计算(V1(i)/N(i),V2(i)/N(i),…,Vj(i)/N(i),…,VK(i)/N(i))得到待处理的网络新闻样本的初始新闻表情分布用ED0(i)来表示;所有收集的网络新闻样本的新闻表情投票数据进行归一化处理之后,获得初始新闻表情分布集合;
步骤2:计算机对收集的网络新闻样本集合以及初始新闻表情分布集合进行关键词选择,利用选择后的关键词对每个网络新闻样本进行特征提取,得到每个网络新闻样本的特征,则由每个网络新闻样本的特征组成网络新闻样本的特征集合,把收集到的网络新闻的样本以及其初始新闻表情分布转化为一个多类别文本集合,利用面向多类别的文本特征选择方法来选择关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010534624.3/2.html,转载请声明来源钻瓜专利网。





