[发明专利]一种对重点人员言论监督与关联关系挖掘的方法在审
申请号: | 201410459905.5 | 申请日: | 2014-09-11 |
公开(公告)号: | CN104199947A | 公开(公告)日: | 2014-12-10 |
发明(设计)人: | 范莹;于治楼;梁华勇 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种对重点人员言论监督与关联关系挖掘的方法,该方法步骤如下:1)建立Hadoop大数据平台;2)微博数据采集及解析;3)数据清洗及人员匹配;4)言论倾向及关联关系分析;5)数据可视化展现。本发明的一种对重点人员言论监督与关联关系挖掘的方法和现有技术相比,具有设计合理、使用方便等特点,系统在大数据平台基础上,应用分布式存储和处理技术,采集网民在微博的注册信息和浏览信息,经过信息匹配和关联关系挖掘,分析出给定重点关注人员的言论倾向与关联关系,将挖掘数据进行可视化展现,并根据微博刷新情况持续跟踪。 | ||
搜索关键词: | 一种 重点 人员 言论 监督 关联 关系 挖掘 方法 | ||
【主权项】:
一种对重点人员言论监督与关联关系挖掘的方法,其特征在于该方法步骤如下:1)建立Hadoop大数据平台:建立由11个节点组成的Hadoop集群;2)微博数据采集及解析:网络爬虫采用经过二次开发的nutch,实现主题爬虫采集;对与给定重点关注人员的相关信息作为主题,爬取互联网上的微博数据,并根据自定义词库进行分词解析,将预定义的特征属性值存入数据库,形成结构化数据;3)数据清洗及人员匹配:对结构化数据进行数据预处理,使用欧式距离,与提供的重点关注人员特性向量进行相似度计算,选取相似度超过阈值的网民信息作为分析对象;4)言论倾向及关联关系分析:根据自定义词库,采用语义分析与词频统计等技术对重点关注人员言论倾向进行分析;根据从微博采集的人员互动信息,采用关联关系算法挖掘重点关注人员的关系网,并根据微博更新情况进行追踪;5)数据可视化展现:对重点关注人员的言论倾向和关联关系进行可视化展现。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司;,未经浪潮集团有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410459905.5/,转载请声明来源钻瓜专利网。