[发明专利]实时流式文本分级监控方法和装置有效
| 申请号: | 201710058647.3 | 申请日: | 2017-01-23 |
| 公开(公告)号: | CN106886579B | 公开(公告)日: | 2020-01-14 |
| 发明(设计)人: | 张日崇;李晨;兰天;李建欣;彭浩 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
| 代理公司: | 11205 北京同立钧成知识产权代理有限公司 | 代理人: | 宋扬;刘芳 |
| 地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实时 文本 分级 监控 方法 装置 | ||
本发明实施例提供一种实时流式文本分级监控方法和装置,包括:实时获取流式的短文本;对所述短文本进行数据清洗、数据补齐和数据过滤处理,生成结构化数据;对所述结构化数据进行文本分词处理,获得K个词;所述K为大于0的整数;根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值;根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值;根据所述敏感值与所述情感值,获得所述短文本所属的用户的监控等级。本实施例获得的用户的监控等级更精确也更迅速。
技术领域
本发明实施例涉及社交网络技术领域,尤其涉及一种实时流式文本分级监控方法和装置。
背景技术
近年来,伴随着信息技术的蓬勃发展,互联网的使用大范围迅速普及,大量不同领域、不同地域、不同时域的信息在产生伊始便经由互联网广泛传播,这一方面有利于人们及时了解实时信息,把握新鲜资讯;但大量冗余、重复乃至错误的“暗信息”不仅会增加广大用户浏览有效信息的难度,甚至会误导用户对信息或事态产生错误的理解或判断。以新浪微博、腾讯微博为代表的一系列实时用户在线分享交流社区自出现以来很快便被广大互联网用户接受并使用,其原因主要包含以下几点:
注册方便,仅通过邮箱或电话号码即可快速拥有账户;
自由便捷,用户可以根据自身需要及心情变化随时随地分享自己的想法或状态;
实时快速,用户能够通过消息推送、主动搜索、订阅关注等多种方式及时获取想要的多种信息;
用户广泛,用户不仅能够获取自身亲友圈的信息与状态,还能与喜欢的明星发生互动;
增强社交,可以方便陌生人相互熟悉,创建新的社交模式。
微博等新颖的社交模式拥有众多出众的优点,因此产品受众范围十分广泛,自推出时起便快速积攒大量活跃用户。快速发展的社交网络及用户群一方面有利于用户的交流、信息的传播,但也更加剧了文首说明情况的发生,此类微博信息的发布很少或根本未经过人工审核,这就导致很多包含过激情绪或不当言论微博大量的出现在社交网络中,造成一系列连锁反应;且微博未实名用户也同样可以自由的发表博客,这就会使得信息的产生十分随意,极易被不法分子或水军利用,传播垃圾或反动言论,迷惑群众。
上述情况的出现对社会危害十分巨大,由于微博类流式短文本所涉及的用户遍布社会各个阶层,且微博类应用用户基数达到亿级,快速传播的信息将会携带文本中的信息与情绪通过社交网络爆发式扩散,造成难以挽回的影响。因此及时在海量信息中发现此类文本并实施预警,进行舆情管控是一项十分必要的工作。
发明内容
本发明实施例提供一种实时流式文本分级监控方法和装置,用于使得用户的监控等级更精确。
第一方面,本发明实施例提供一种实时流式文本分级监控方法,包括:
实时获取流式的短文本;
对所述短文本进行数据清洗、数据补齐和数据过滤处理,生成结构化数据;
对所述结构化数据进行文本分词处理,获得K个词;所述K为大于0的整数;
根据敏感词数据库,对所述K个词进行敏感分析,获得所述短文本的敏感值;
根据情感词数据库,对所述K个词进行情感分析,获得所述短文本的情感值;
根据所述敏感值与所述情感值,获得所述短文本所属的用户的监控等级。
第二方面,本发明实施例提供一种实时流式文本分级监控装置,包括:
第一获取模块,用于实时获取流式的短文本;
生成模块,用于对所述短文本进行数据清洗、数据补齐和数据过滤处理,生成结构化数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710058647.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据列映射方法及系统
- 下一篇:一种基于深度学习的图片情感极性分析方法





