[发明专利]一种基于文本挖掘的微博发布优化方法及系统有效
申请号: | 201910407202.0 | 申请日: | 2019-05-16 |
公开(公告)号: | CN110134788B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 吴广建;章剑林 | 申请(专利权)人: | 杭州师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F16/33 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 311121 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于文本挖掘的微博发布优化方法及系统,其中,方法包括:(1)从微博账户相关网站和微博网站采集数据并存入数据库;(2)读取数据库中的数据进行预处理,包括数据清洗、去停用词、添加用户词典以及词汇规范化;(3)利用LDA聚类算法模型,对预处理后的实时微博账户相关数据和历史微博数据进行主题分类,得到当前最热门的微博账户相关主题以及历史发布的离线热门主题;(4)对历史微博数据预处理后进行离线数据分析,确定影响微博热度的因素,进一步对微博发布进行优化。本发明能够有效提取微博热门主题、挖掘微博优化发布潜在因子、分析微博发布影响因素、构建实时发布素材,为微博发布者提供微博发布策略。 | ||
搜索关键词: | 一种 基于 文本 挖掘 发布 优化 方法 系统 | ||
【主权项】:
1.一种基于文本挖掘的微博发布优化方法,其特征在于,包括以下步骤:(1)从微博账户相关网站和微博网站采集数据并存入数据库,采集的数据包括实时微博账户相关数据和历史微博数据;(2)读取数据库中的数据进行预处理,包括数据清洗、去停用词、添加用户词典以及词汇规范化;其中,历史微博数据预处理后形成两类数据,第一类数据为:一段时间内,用户发布的所有微博数据;第二类数据为:这段时间内,转发、评论、点赞最多的百分之十的微博数据;(3)利用LDA聚类算法模型,分别对预处理后的实时微博账户相关数据和历史微博数据进行主题分类,得到当前最热门的账户相关主题以及账户历史发布的离线热门主题;利用当前最热门的微博账户相关主题实时构建发布的微博主题,利用离线热门主题对微博主题发布比例进行优化;(4)对历史微博数据预处理后进行离线数据分析,确定影响微博热度的因素,进一步对微博发布进行优化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910407202.0/,转载请声明来源钻瓜专利网。