[发明专利]一种基于时空变化的社交媒体文本主题提取方法及系统有效
申请号: | 201810364959.1 | 申请日: | 2018-04-23 |
公开(公告)号: | CN108717421B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 岳隽;陈小祥;黄卫东;杜雁;徐雅莉;郜昂;张文晖;温洲冰;童岩冰 | 申请(专利权)人: | 深圳市城市规划设计研究院有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/951 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 唐致明;洪铭福 |
地址: | 518028 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 变化 社交 媒体 文本 主题 提取 方法 系统 | ||
1.一种基于时空变化的社交媒体文本主题提取方法,其特征在于,其包括以下步骤:
系统提取社交媒体数据的时间、位置、文本信息;
构建基于时间变化信息的社交媒体文本主题;
基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题;
其中,所述方法还包括:
系统构建各时间间隔t内的文本文档dt,其中,t为时间间隔,t为大于0的整数;
系统构建各时间变化的文本主题,并计算其分布概率;
系统对构建的文本主题的分布概率进行归一化处理,将归一化后的分布概率作为文本主题的时间变化信息;
其中,所述提取基于空间位置信息的社交媒体文本主题,包括:
系统基于路网数据,划分社交媒体数据位置所在的空间单元;
提取落入同一个空间单元的社交媒体数据集,构建每个空间单元的文本文档其中,p指空间单元,pi为第i个空间单元,i为大于0的整数;
将带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率;
其中,所述系统构建各时间变化的文本主题,并计算其分布概率包括:引入LDA主题模型,计算每个时间间隔t内的主题及主题分布,所述LDA主题模型的公式表示为第一公式,所述第一公式为:
其中,z为LDA主题模型计算所得主题,为文本文档dt内的社交媒体文本信息,t为时间间隔,n为文本文档dt内所有文本信息的数量;θ为文本主题在每个文本文档dt内的分布概率,α,β为模型的超参数,α=50/k,β=0.1;
k为社交媒体文本主题的数量,由第二公式计算所得,所述第二公式为:
选取最小的P(D)的值所对应的社交媒体文本主题的数量k,k为大于0的整数;
其中,所述将带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率包括:
将带有时间变化信息的文本主题引入所述LDA主题模型,利用所述第一公式,得到每个空间单元内带有时间变化信息的文本主题的分布概率的矩阵表示为:
其中,pi为第i个空间单元;zi为第i个文本主题,矩阵的每一行表示每一个空间单元内各个文本主题的分布概率,每一列表示每个主题在各个空间单元内的分布概率。
2.根据权利要求1所述的基于时空变化的社交媒体文本主题提取方法,其特征在于,所述方法还包括文本预处理,其具体为:去除标点符号、将英文字母变为小写、去除停顿词、去除出现频率小于5的词语。
3.根据权利要求1所述的基于时空变化的社交媒体文本主题提取方法,其特征在于,所述社交媒体数据集包括:新浪微博数据集,Twitter数据集,Facebook数据集。
4.一种基于时空变化的社交媒体文本主题提取系统,其特征在于,其包括:
信息获取模块,用于执行步骤系统提取社交媒体数据的时间、位置、文本信息;
时间文本获取模块,用于执行步骤构建基于时间变化信息的社交媒体文本主题;
空间文本获取模块,用于执行步骤基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题,
所述社交媒体文本主题提取系统还包括处理模块,用于执行步骤:
系统构建各时间间隔t内的文本文档dt,其中,t为时间间隔,t为大于0的整数;
系统构建各时间变化的文本主题,并计算其分布概率;
系统对构建的文本主题的分布概率进行归一化处理,将归一化后的分布概率作为文本主题的时间变化信息;
其中,所述步骤提取基于空间位置信息的社交媒体文本主题,包括:
系统基于路网数据,划分社交媒体数据位置所在的空间单元;
提取落入同一个空间单元的社交媒体数据集,构建每个空间单元的文本文档其中,p指空间单元,pi为第i个空间单元,i为大于0的整数;
将带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率;
其中,所述统构建各时间变化的文本主题,并计算其分布概率包括:引入LDA主题模型,计算每个时间间隔t内的主题及主题分布,所述LDA主题模型的公式表示为第一公式,所述第一公式为:
其中,z为LDA主题模型计算所得主题,为文本文档dt内的社交媒体文本信息, t为时间间隔,n为文本文档dt内所有文本信息的数量,θ为文本主题在每个文本文档 dt 的分布概率 ;α,β为模型的超参数,α=50/k,β=0.1,k为社交媒体文本主题的数量,由第二公式计算所得,所述第二公式为:
选取最小的P(D)的值所对应的社交媒体文本主题的数量k,k为大于0的整数;
其中,所述将带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率包括:
将带有时间变化信息的文本主题引入所述LDA主题模型,利用所述第一公式,得到每个空间单元内带有时间变化信息的文本主题的分布概率的矩阵表示为:
其中,pi为第i个空间单元;zi为第i个文本主题,矩阵的每一行表示每一个空间单元内各个文本主题的分布概率,每一列表示每个主题在各个空间单元内的分布概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市城市规划设计研究院有限公司,未经深圳市城市规划设计研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810364959.1/1.html,转载请声明来源钻瓜专利网。