[发明专利]顾及长期时序依赖关系的城市事件探测方法在审
申请号: | 202110828167.7 | 申请日: | 2021-07-20 |
公开(公告)号: | CN113722373A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 安徽师范大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/29;G06Q50/26;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 241000 安徽省芜*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 顾及 长期 时序 依赖 关系 城市 事件 探测 方法 | ||
1.一种基于长期时序依赖关系的城市事件探测方法,其特征在于,所述方法具体包括如下步骤:
S1应用社交媒体软件的应用程序编程接口收集城市区域内的社交媒体数据并进行预处理;
S2将城市区域划分为规则格网,对于每个空间格网,提取其中收集到的带地理标签的社交媒体数据的日量统计数据的时间序列样本;
S3将提取的时间序列样本输入到LSTM网络中来计算长期时序依赖关系,进行数据量的动态预测,并对预测结果进行评估,得到一个社交媒体数据的日量统计数据的预测值;
S4应用Tukey范围测试和修正Z分值,将数据量实际观测值和预测值之间残差分量的异常识别为城市事件;
S5对社交媒体文本进行中文分词算法分析,提取探测到的每个城市事件的相关信息,同时提取每个事件中词频位于前十的词语,生成对应事件的词云。
2.如权利要求1所述的探测城市事件的方法,其特征在于,进行数据收集和预处理的方法具体包括如下步骤:
S11、基于名为“地点”的社交媒体软件应用程序接口,获取城市区域内某一连续期间内发布的带地理标签的社交媒体数据;
S12、将收集到的社交媒体数据中的重复数据和噪声数据剔除,同时删除一些带有特定来源的数据,如“发布失败”的社交媒体数据,以及在其文本中带有某些特定符号例如“【】”的数据。
3.如权利要求1所述的探测城市事件的方法,其特征在于,提取带地理标签的社交媒体数据的日量统计数据的时间序列样本的方法具体包括如下步骤:
S21、应用规则格网将特定城市区域均匀地划分为若干相同单元,对于每个单元,获取其在一定连续期间内发布的地理标签社交媒体数据的每日数量统计,得到相应格网的若干个时间序列,其中每个时间序列包括若干个连续的时间点,每个时间点的单位为一天;S22、已知某个格网内时间步t的社交媒体数据的日数量是由n个历史时间步的日数量序列所决定的,该序列可以用一个向量来表示,由此可以确定时间滞后值或历史时间点,即n。由于每天的地理标签社交媒体数据量以7天为一个周期更替,因此将时间滞后值设定为7,且每个样本都被提取为一个具有7个历史时间步的一维向量;
S23、最终得到时间序列样本量N,其计算公式如下:
N=(一定连续期间的日期数-7(时间滞后值))×格网数。
4.如权利要求1所述的探测城市事件的方法,其特征在于,所述进行数据量动态预测的方法具体包括如下步骤:
S31由于LSTM方法在捕获长期时序依赖关系方面的良好性能,使用LSTM网络结构来捕获社交媒体数据量之间的长期时序依赖关系;
S32基于Keras框架,首先在LSTM网络结构中的隐藏层中添加10个隐藏单元,并将LSTM单元激活函数设置为线性函数,将模型的目标函数设为均方误差(MSE),同时对LSTM设置可以在训练过程中从神经网络中随机丢失单元的退出机制,避免发生过度拟合;
S33将提取的时间序列样本输入到LSTM网络中,根据LSTM模型的最终输出结果得到社交媒体数据量的预测值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽师范大学,未经安徽师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110828167.7/1.html,转载请声明来源钻瓜专利网。