[发明专利]一种网络谣言的识别方法及装置在审
| 申请号: | 201510750244.6 | 申请日: | 2015-11-05 |
| 公开(公告)号: | CN105354305A | 公开(公告)日: | 2016-02-24 |
| 发明(设计)人: | 牛凯;杨也康 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网络 谣言 识别 方法 装置 | ||
技术领域
本发明涉及计算机网络应用技术领域,特别涉及一种网络谣言的识别方法及装置。
背景技术
谣言是一种以公开或非公开渠道传播的对公众感兴趣的事物、事件或问题的未经证实的阐述或诠释。传统的谣言传播采用扩散的方式,暗地里在人际的互动间传播。而随着网络技术的快速发展,为谣言的传播开辟了新的场域。同时,网络的匿名性、更易向公众传播的特性助长了谣言的传播及影响力,这不得不引起人们的重视。
现有技术中,网络谣言的识别方法为分类学习方法。该方法将网络信息是否可信看成分类问题,利用网络信息的特征,采取特定的分类算法训练分类器,确定网络信息是否可信,以预测网络信息是否为谣言。
特征选取是识别谣言的关键步骤,在很大程度上影响分类预测的准确性。目前主流研究认为影响信息可信度的因素主要来自于文本内容、用户属性信息和网络传播深度。对网络信息进行谣言识别时,将浅层的文本统计特征作为识别谣言的文本特征,如文本中是否包含URL、信息发布客户端媒介类型(Web/移动)、事件发生地点和情感极性等,这些文本特征能直接反映网络信息的真实性。进行用户特征提取时,主要考虑有:真实性越高的用户,其发布的信息可信度也越高,考虑因素包括用户粉丝数、关注数、注册年龄、已发布信息数量和是否验证用户等个人信息。传播类特征,主要考虑了信息是否被转发、转发次数与评论数等。
但是,这种方法不能很好地利用复杂网络的拓扑结构,训练特征过多,操作复杂,通用性差。
发明内容
本发明实施例的目的在于提供一种网络谣言的识别方法及装置,以利用复杂网络的拓扑结构识别网络谣言,简化操作。
为达到上述目的,本发明实施例公开了一种网络谣言的识别方法,所述方法包括如下步骤:
接收用户输入的网络数据信息;
根据所述网络数据信息,采集原创网络信息及所述原创网络信息中具有网络表情的评论信息,所述评论信息包含:评论文本内容、评论用户信息、评论发布时间和评论点赞次数;
根据网络表情的情感极性,将所述评论信息区分正向评论训练数据和负向评论训练数据,对所述评论信息中的评论文本内容进行分词,删除所述评论信息中的停用词,并结合情感词典,确定所述每条评论信息的第一情感极性;
根据所述每条评论信息的第一情感极性、所述正向评论训练数据、所述负向评论训练数据、评论文本内容中未被删除的词组成的词向量、评论影响力和评论发布时间间隔确定所述每条评论信息的第二情感极性;所述评论影响力根据所述评论点赞次数获得;
根据所述评论用户的注册时间、粉丝与好友比例和网络信息的原创比例,获得真实评论用户;
根据所述真实评论用户的好友关系的网络特征,对所有所述真实评论用户进行聚类;
根据类中与各个所述真实评论用户对应的第二情感极性,归一化每个类的第二情感极性,获得每个类的情感极性的权值;
根据所有类的所述情感极性的权值,判断所述网络数据信息是否为谣言。
在本发明的一种可实现方式中,所述根据所述网络数据信息,采集原创网络信息,包括:
根据所述网络数据信息,利用正则表达式构建关键词语法,在网络中采集预设数量的所述原创网络信息;
若采集的所述原创网络信息的数量未达到预设数量,则根据转发关系,在网络中采集所述原创网络信息的转发网络信息,并将其作为所述原创网络信息,直到所述原创网络信息的数量达到所述预设数量。
在本发明的一种可实现方式中,所述对所述评论信息中的评论文本内容进行分词,删除所述评论信息中的停用词,并结合情感词典,确定所述每条评论信息的第一情感极性,包括:
对所述评论文本内容进行分词,删除所述评论信息中的语气助词、连词和介词;
根据情感词典,确定每个未被删除的词wn的情感值k(wn),所述情感值的范围为[-1,1];
根据所述情感值k(wn)和所述每个词与该评论文本内容的主体e的距离dis(wn,e),确定该评论信息的第一情感极性score(e),所述距离dis(wn,e)为第n个词wn与该评论文本内容的主体e间间隔的字符数,所述第一情感极性score(e)为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510750244.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种利用大数据进行信用评估的方法
- 下一篇:一种终端定位方法和用户终端





