[发明专利]一种基于文本挖掘的微博发布优化方法及系统有效
| 申请号: | 201910407202.0 | 申请日: | 2019-05-16 |
| 公开(公告)号: | CN110134788B | 公开(公告)日: | 2021-05-11 |
| 发明(设计)人: | 吴广建;章剑林 | 申请(专利权)人: | 杭州师范大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F16/33 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
| 地址: | 311121 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 挖掘 发布 优化 方法 系统 | ||
1.一种基于文本挖掘的微博发布优化方法,其特征在于,包括以下步骤:
(1)从微博账户相关网站和微博网站采集数据并存入数据库,采集的数据包括实时微博账户相关数据和历史微博数据;
(2)读取数据库中的数据进行预处理,包括数据清洗、去停用词、添加用户词典以及词汇规范化;
其中,历史微博数据预处理后形成两类数据,第一类数据为:一段时间内,用户发布的所有微博数据;第二类数据为:这段时间内,转发、评论、点赞最多的百分之十的微博数据;
(3)利用LDA聚类算法模型,分别对预处理后的实时微博账户相关数据和历史微博数据进行主题分类,得到当前最热门的账户相关主题以及账户历史发布的离线热门主题;所述的离线热门主题通过转发数、评论数、点赞数加权求和计算微博热度后得到;
利用当前最热门的微博账户相关主题实时构建发布的微博主题,利用离线热门主题对微博主题发布比例进行优化,调整发布主题比例;
(4)对历史微博数据预处理后进行离线数据分析,确定影响微博热度的因素,进一步对微博发布进行优化;所述的离线数据分析具体包括:
分析用户所发微博在时间维度上微博的评论、转发、点赞数,确定哪段时间内活跃度高,然后分析粉丝的男女占比情况,从发布比例调整后的发布主题中选择发哪类微博。
2.根据权利要求1所述的基于文本挖掘的微博发布优化方法,其特征在于,步骤(1)中,从微博账户相关网站和微博网站采集数据的具体方法为:通过多个代理IP、多用户模拟登陆和多浏览器代理的方式实现分布式网络爬虫采集微博数据。
3.根据权利要求1所述的基于文本挖掘的微博发布优化方法,其特征在于,步骤(1)中,所述的历史微博数据包括微博账户的每条微博的内容、转发数、评论数、评论、点赞数和发布日期。
4.根据权利要求1所述的基于文本挖掘的微博发布优化方法,其特征在于,步骤(2)对微博数据进行预处理后,还包括利用CountVectorizer将预处理后的实时微博账户相关数据和历史微博数据分别进行实时和离线特征提取。
5.根据权利要求1所述的基于文本挖掘的微博发布优化方法,其特征在于,步骤(3)中,利用LDA聚类算法模型分别对预处理后的实时微博账户相关数据和历史微博数据进行主题分类之前,还包括利用预处理后的第一类数据对LDA聚类算法模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910407202.0/1.html,转载请声明来源钻瓜专利网。





