[发明专利]一种基于文本倾向性分析的网络意见领袖的识别方法在审
申请号: | 201610240853.1 | 申请日: | 2016-04-18 |
公开(公告)号: | CN107305545A | 公开(公告)日: | 2017-10-31 |
发明(设计)人: | 陈芬;彭玥;许青青;汤丽萍 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 马鲁晋 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 倾向性 分析 网络 意见 领袖 识别 方法 | ||
技术领域
本发明涉及一种识别方法,具体涉及一种基于文本倾向性分析的网络意见领袖的识别方法。
背景技术
随着互联网的发展,社交网站的普及率也不断提高,这种以微博、论坛为代表的网络人际沟通方式已渐渐渗透进人们的生活,成为群众针对社会现象和社会问题表达信念、态度、意见和情绪的重要平台之一。这种线上民情民意的表达、传播和互动就称为网络舆情。由于网络的自发性和自由性,网络舆情中既包含理性的言论,也会存在偏激言论甚至谣言,所以需要采取一定的措施对网络舆情进行监控预警。网络意见领袖就是该类事件中,能够帮助舆论议题存活以及促使舆论转变的重要人物,不但给予了话题的讨论框架,也无形中影响其他网民的态度。因此通过识别不同事件内的网络意见领袖,可以快速发现网民的普遍态度和舆论走向,以此对民生民意进行捕捉和预测,并可作为预防衍生群体突发事件发生的重要措施。
现有对意见领袖识别的方法可以依靠人工进行网页浏览、评论搜集、观点分析再去识别意见领袖,但该方法不但工作效率低下而且人为评价标准不一致,难以应对网上海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络意见领袖识别系统。而已有的自动化意见领袖识别系统主要借助社会网络分析法和聚类分析方法,这类方法主要集中于对博主个人信息以及评论转发关系的抽取和利用,缺少了公众评论态度的识别机制,这可能导致经过筛选的意见领袖中出现虽然能够引发网民广泛讨论,但讨论内容都是反对甚至谩骂声音的博主。这些“伪意见领袖”并不满足意见领袖的定义,也无法实现意见领袖的基本作用。
发明内容
本发明的目的在于提供一种对评论语料进行文本倾向性分析,发掘充斥情感态度的社会性事件中网友的态度,从而真正识别网络意见领袖的方法。
实现本发明目的的技术解决方案为:一种基于文本倾向性分析的网络意见领袖的识别方法,步骤如下:
第一步、指标体系建立,即首先通过分析意见领袖的不同特征建立指标;然后利用层次分析法计算各个指标对应的权重;再通过网络抓取的实际数据与指标进行配对,最 后代入公式中得到领袖值,通过分数的排名来识别潜在的意见领袖。
第二步,评价对象的提取,即借助Stanford句法分析方法,对评论的语法结构进行剖析,从而区分微博下评论是针对博主的评论还是针对内容的,实现评价对象的提取。
第三步,文本倾向性分析,即首先是文本预处理,将不同的语料预先进行断句、格式处理、分词和词性标注;然后提取依存关系,即在分句的基础上进行句法分析,找出句子中的依存关系及主导词和修饰词;再确定词典,利用Word2vec模型来实现网络情感新词发现,完善正负情感词典,最终得到正负词典、程度级别词典、否定词词典和标点符号词典。最后进行情感分数的计算,将主导词在正、负面词典中比对得到初始词语极性,再将修饰词与词语程度级别词典和否定词词典比对得到修饰词权重,把二者相乘得出依存关系层次的情感分数。然后提取句子中的标点符号和句子顺序所带有的权值,将其与句子中所有依存关系情感分数之和相乘,就可以得出该条语句的情感倾向分数。
第四步,识别意见领袖,即对抓取微博平台上的数据作为实验语料,进行上述三个步骤的操作,识别出真正的网络意见领袖,并与WeiboRank意见领袖算法进行对比验证。
本发明与现有技术对比,其显著优点包括:(1)意见领袖识别指标体系的构建,一方面综合评价用户本身和用户关系等信息,另一方面建立新指标——“媒介接触度”和“行业性”作为识别的重要依据,抽取用户之间的评论转发关系,全面衡量网络意见领袖的各项标准。(2)加入文本倾向分析方法对评论内容进行语义分析,在现有意见领袖识别方法的基础上增加网民评论态度识别过程,完善了意见领袖识别体系的技术路线,剔除无法代表群众的“伪意见领袖”,使识别结果更加准确可信。(3)利用Google的Word2Vec算法,形成一部较为完善的情感词典。该方法利用神经网络模型,速度快且效果好,为准确分析文本倾向性打下良好基础。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是本发明基于文本倾向性分析的网络意见领袖识别方法流程图。
图2是构建的网络意见领袖识别的指标体系。
图3是评价对象筛选的流程图。
图4是文本倾向性分析的流程图。
具体实施方式
结合图1,本发明基于文本倾向性分析的网络意见领袖的识别方法,步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610240853.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语言翻译的装置
- 下一篇:一种出行场景中建筑物的语义刻画方法以及装置