[发明专利]一种基于社交媒体文本数据的空间基因识别提取方法在审
| 申请号: | 202310396213.X | 申请日: | 2023-04-14 |
| 公开(公告)号: | CN116414985A | 公开(公告)日: | 2023-07-11 |
| 发明(设计)人: | 段进;李伊格;郭楚怡 | 申请(专利权)人: | 东南大学;南京东南大学城市规划设计研究院有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/284;G06F40/30;G06F18/231 |
| 代理公司: | 北京同辉知识产权代理事务所(普通合伙) 11357 | 代理人: | 张恩慧 |
| 地址: | 210096 江苏省*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 社交 媒体 文本 数据 空间 基因 识别 提取 方法 | ||
1.一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,包括以下步骤:
步骤1、采集关于城市的网络文本数据,然后对数据进行预处理,得到数据集D1;
步骤2、在分析软件中构建词典及向量空间,引入LDA主题模型,对得到的数据集D1进行主题分类,得到k类主题,记为Z1、Z2……Zk,从其中选取与空间要素相关的主题,并将上述主题中包含的词语作为关键词,分别记为关键词集C1、C2……Cn,其中k≥n;
步骤3、在关键词集C1、C2……Cn和数据集D1中,同步进行同义词替换,将替换后的关键词集合并记为关键词集C’,其包含的关键词记为a1、a2……ap,得到数据集记为D2;
步骤4、在数据集D2中统计关键词a1、a2……ap两两共现次数,并构建共词矩阵M;
步骤5、利用层次聚类模型,对语义网络分析结果进行聚类,得到空间组合模式,即空间基因。
2.根据权利要求1所述的一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,所述步骤1中对网络文本数据进行的预处理操作包括通过正则表达式过滤无效字符、句子分词和去除停用词,标记保留词。
3.根据权利要求1所述的一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,所述步骤2中LDA模型采用词袋模型将每一篇文本视为一个词频向量,将文本信息转化为易于建模的数字信息,定义词大小为L,一个L维向量(1,0,0,…,0,0)表示一个词,由N个词构成的评论记为d=(W1,W2,……WN),文本数据集D由q篇评论构成,记为D=(d1,d2,……dq),q篇评论分布着k个主题,将文本主题记为Zi(i=1,2,…,k),记α和β为狄利克雷函数的先验参数,θ为主题在文档中的多项分布的参数,其服从超参数为α的Dirichlet先验分布,φ为词在主题中的多项分布的参数,其服从超参数β的Dirichlet先验分布,z为隐藏变量。
4.根据权利要求3所述的一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,所述LDA模型中文本的混合比例服从多项分布,如下式:
z|θ=Multinomial(θ) (1)
所述主题词汇表中的词语混合比例也服从多项分布,如下式:
w|z,φ=Multinomial(φ) (2)
在文本dj条件下生成词wi的概率表示如下式:
式中,P(wi|z=s)表示词wi属于第s个主题的概率,P(z=s|dj)表示第s个主题在文本dj中的概率。
5.根据权利要求4所述的一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,所述步骤2中LDA模型的主题提取过程包括:
输入主题数k,评论q篇后,初始化参数α和β;
开始EM算法迭代循环,初始化所有的变分参数θ、φ、z,进行LDA的期望步(E步)迭代循环,直到变分参数θ、φ、z收敛,得到最优变分参数;
进行LDA的极大步(M步),在最优变分参数的条件下,迭代循环模型,直到α和β收敛。
统计数据集中的各个文本各个词的主题,得到文档主题分布θq,得到LDA的主题与词的分布φk,并输出为可视化格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学;南京东南大学城市规划设计研究院有限公司,未经东南大学;南京东南大学城市规划设计研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310396213.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可重复使用的多功能口罩
- 下一篇:一种焊接装配智能调度方法及系统





