[发明专利]一种提取网络事件关键词以及情绪倾向的方法及装置有效
申请号: | 201611155167.0 | 申请日: | 2016-12-14 |
公开(公告)号: | CN108228612B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 贺达 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 网络 事件 关键词 以及 情绪 倾向 方法 装置 | ||
本发明公开了一种提取网络事件关键词以及情绪倾向的方法及装置,涉及数据分析技术领域,主要目的在于通过对网络热门事件的文本数据进行处理,得到能够准确反映热门事件的关键词以及通过关键词所表达的情绪倾向。本发明主要的技术方案为:利用爬虫技术爬取文本数据;分析所述文本数据对应的文本关键词以及文本情绪倾向,得到所述文本数据与文本关键词以及文本情绪倾向的关联关系;获取事件的查询条件;利用所述查询条件检索到的文本数据计算所述事件的核心关键词;在检索到的文本数据中提取含有所述核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向。本发明主要用于网络事件的关键词以及情绪倾向的计算。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种提取网络事件关键词以及情绪倾向的方法及装置。
背景技术
随着科技的发展,互联网已经成为生活中不可获取的一部分,大量的信息通过互联网进行传播,相对于传统的新闻媒体而言,互联网媒体不仅具有传统新闻媒体发表新闻事件的功能,同时互联网媒体也给了广大通过互联网获取新闻信息的网民一个表达自身对于新闻事件的看法和评论的渠道。而通过网民对于新闻事件的看法和评论的收集、整理就能够分析出网民对于新闻时间的关注程度以及对应的情绪倾向等数据,从而为更好的发挥新闻媒体舆论导向能力提供数据支持。
但是,目前这些网民反馈的信息以及新闻事件因为不同新闻媒体报道的渠道不同,会分散在各个新闻媒体网站中,同时,对于热门事件,网民的观点表达会较为丰富,信息数据量较大,通过传统的人工对评论数据进行筛选和归纳总结很难全面的反映对于一个新闻事件网民真实的整体的情绪倾向和观点表达。因此,目前对于热门事件的相关数据分析一般所采用的分析方法为:通过网络爬虫从主流媒体爬取新闻报道数据和网民在新闻报道下的评论数据,针对热门事件,通过使用事件相关的关键词进行筛选得到和热门事件相关的议论文本,再对议论文本进行分词,将分词结果进行词频统计得到高频词,将高频词作为事件的归纳关键词。然而利用这种方法所计算得到的关键词往往会将很多的常见词提取出来使得这些关键词不能很好的表达文本的核心观点,而更为重要的是其不能通过所得到的关键词得到文本对热门事件的情绪倾向。
发明内容
有鉴于此,本发明提供一种提取网络事件关键词以及情绪倾向的方法及装置,主要目的在于通过对网络热门事件的文本数据进行处理,得到能够准确反映热门事件的关键词以及通过关键词所表达的情绪倾向。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供了一种提取网络事件关键词以及情绪倾向的方法,该方法包括:
利用爬虫技术爬取文本数据,所述文本数据包括网络媒体发布的文本数据;
分析所述文本数据对应的文本关键词以及文本情绪倾向,得到所述文本数据与文本关键词以及文本情绪倾向的关联关系;
获取事件的查询条件,所述查询条件用于检索与所述事件相关的文本数据;
利用所述查询条件检索到的文本数据计算所述事件的核心关键词;
在检索到的文本数据中提取含有所述核心关键词的文本数据所对应的文本情绪倾向,计算所述事件的情绪倾向。
优选的,所述分析所述文本数据对应的文本关键词以及文本情绪倾向,得到所述文本数据与文本关键词以及文本情绪倾向的关联关系包括:
利用TF-IDF算法分别提取每篇文本数据的文本关键词;
利用NLP技术分析每篇文本数据的文本情绪倾向;
分别建立文本数据与对应的文本关键词以及文本数据与对应的文本情绪倾向的关联关系;
将含有所述关联关系的文本数据保存在全文搜索引擎中。
优选的,所述利用所述查询条件检索到的文本数据计算所述事件的核心关键词包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611155167.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:单据信息抄写方法和装置
- 下一篇:数据的读取方法及装置