[发明专利]一种基于时空变化的社交媒体文本主题提取方法及系统有效
申请号: | 201810364959.1 | 申请日: | 2018-04-23 |
公开(公告)号: | CN108717421B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 岳隽;陈小祥;黄卫东;杜雁;徐雅莉;郜昂;张文晖;温洲冰;童岩冰 | 申请(专利权)人: | 深圳市城市规划设计研究院有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/951 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 唐致明;洪铭福 |
地址: | 518028 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 变化 社交 媒体 文本 主题 提取 方法 系统 | ||
本发明公开了一种基于时空变化的社交媒体文本主题提取方法,其包括以下步骤:系统提取社交媒体数据的时间、位置、文本信息;构建基于时间变化信息的社交媒体文本主题;基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题。一种基于时空变化的社交媒体文本主题提取系统,其包括:信息获取模块、时间文本获取模块、空间文本获取模块。本方案将社交媒体数据的时间和空间特征与文本信息相结合,为基于社交媒体数据的文本主题提取提供了一种新的思路,广泛应用于社交媒体领域。
技术领域
本发明涉及社交媒体文本提取领域,具体为基于时空变化的社交媒体文本主题提取方法及系统。
背景技术
“大数据”时代的到来,为人们深入理解居民活动空间和社会经济环境带来了新的机遇。近年来,随着脸谱(Facebook)、推特(Twitter)和微博(Micro Blog)等移动社交平台的兴起,其产生的社交媒体数据已逐渐成为探究居民活动特征和社会经济特征的重要数据来源。这类数据中,80%以上都为文本数据类型,也有很多数据带有其发布时的时间和位置信息。因此,对社交媒体数据进行文本挖掘,并结合位置属性分析,已成为当前研究的热点。
随着主题模型的提出与广泛应用,其已经被证明是文本挖掘和主题提取的一种非常有效的方式。现有技术研究较好的提取了社交媒体数据中的文本主题,但他们都仅仅应用到了社交媒体数据中的文本信息,忽略了其数据包含的时间和位置属性。
事实上,社交媒体数据所包含的时间和位置属性,能够很好的反映人们所处的活动空间和社会环境。例如,社交媒体数据中跟饮食相关的主题多集中于居民下班高峰期,具有显著的时间分布规律;科教相关的主题多分布于城市教育功能区,餐饮娱乐类主题多位于商业区,它们具有特定的空间分布特征。
现有社交媒体文本提取方法仅仅应用到了社交媒体数据中的文本信息,忽略了其数据包含的时间和位置属性。因此,有必要进行改进。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于时空变化的社交媒体文本主题提取方法及系统。
本发明所采用的技术方案是:
本发明提供一种基于时空变化的社交媒体文本主题提取方法,其包括以下步骤:
系统提取社交媒体数据的时间、位置、文本信息;
构建基于时间变化信息的社交媒体文本主题;
基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题。
作为该技术方案的改进,所述方法还包括文本预处理,其具体为:去除标点符号、将英文字母变为小写、去除停顿词、去除出现频率小于5的词语。
作为该技术方案的改进,所述方法还包括:
系统构建各时间间隔内的文本文档;
系统构建顾及时间变化的文本主题,并计算其分布概率;
系统对构建的文本主题的分布概率进行归一化处理。
进一步地,所述步骤提取基于空间位置信息的社交媒体文本主题,其包括:
系统基于路网数据,划分社交媒体数据位置所在的空间单元,并提取落入同一个空间单元的社交媒体数据集,构建每个空间单元的文本文档;
将带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率。
进一步地,所述社交媒体数据集包括:新浪微博数据集,Twitter数据集,Facebook数据集。
另一方面,本发明还提供一种基于时空变化的社交媒体文本主题提取系统,其包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市城市规划设计研究院有限公司,未经深圳市城市规划设计研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810364959.1/2.html,转载请声明来源钻瓜专利网。