[发明专利]一种基于文本挖掘的微博发布优化方法及系统有效

专利信息
申请号: 201910407202.0 申请日: 2019-05-16
公开(公告)号: CN110134788B 公开(公告)日: 2021-05-11
发明(设计)人: 吴广建;章剑林 申请(专利权)人: 杭州师范大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/951;G06F16/33
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 胡红娟
地址: 311121 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 挖掘 发布 优化 方法 系统
【说明书】:

发明公开了一种基于文本挖掘的微博发布优化方法及系统,其中,方法包括:(1)从微博账户相关网站和微博网站采集数据并存入数据库;(2)读取数据库中的数据进行预处理,包括数据清洗、去停用词、添加用户词典以及词汇规范化;(3)利用LDA聚类算法模型,对预处理后的实时微博账户相关数据和历史微博数据进行主题分类,得到当前最热门的微博账户相关主题以及历史发布的离线热门主题;(4)对历史微博数据预处理后进行离线数据分析,确定影响微博热度的因素,进一步对微博发布进行优化。本发明能够有效提取微博热门主题、挖掘微博优化发布潜在因子、分析微博发布影响因素、构建实时发布素材,为微博发布者提供微博发布策略。

技术领域

本发明属于数据分析及数据挖掘领域,尤其是涉及一种基于文本挖掘的微博发布优化方法及系统。

背景技术

随之互联网的迅速发展以及各种电子设备的普及,急剧增多的数据量把我们带入大数据时代。人们越来越依赖于网络,也越来越习惯于在社交网络上去获取信息、交流信息及表达自己的个人情感。

微博作为国内最受欢迎的社交平台之一,拥有庞大的用户量、涉及领域广泛、活跃度高,微博不仅是一个娱乐平台而且已成为一种信息快速传播的工具,用户通过使用微博而产生的庞大数据背后蕴藏着巨大的商业价值和社会价值。

针对微博数据的分析和挖掘主要涉及自然语言处理相关技术。自然语言处理以一种智能与高效的方式,对文本数据进行系统化分析、理解与信息提取。自然语言处理涉及语料库、语义分析、文本分词、噪声移除、词汇规范化、特征提取、机器学习等,自然语言处理主要应用在文本分类、文本匹配、机器翻译、文档信息化等领域。

当前,机器学习近几年发展迅速,成为当下热点,非常吸引眼球。机器学习大致分为监督学习、非监督学习和强化学习,文本分类中主要涉及监督学习的分类算法和无监督学习聚类算法。文本分类工作研究国外在20世纪60代开始,而国内对于自动文本分类的工作则始于20世纪80代年代初期。如今,中文分类技术已经趋于成熟。在大数据中对文本数据进行分类成为获取舆论话题的重要方式,LDA作为一种无监督学习的聚类算法,是三层的贝叶斯模型,分为文档集层、主题层、特征词层。用于发现文档中隐含主题,将文档词表达转为低纬主题表达,实现文本的聚类、文本信息检索等。

发明内容

本发明提供了一种基于文本挖掘的微博发布优化方法及系统,能够有效提取微博热门主题、挖掘微博优化发布潜在因子、分析微博发布影响因素、构建实时发布素材,为微博发布者提供微博发布策略。

一种基于文本挖掘的微博发布优化方法,包括以下步骤:

(1)从微博账户相关网站和微博网站采集数据并存入数据库,采集的数据包括实时微博账户相关数据以及历史微博数据;

(2)读取数据库中的数据进行预处理,包括数据清洗、去停用词、添加用户词典以及词汇规范化;

其中,历史微博数据预处理后形成两类数据,第一类数据为:一段时间内,用户发布的所有微博数据;第二类数据为:这段时间内,转发、评论、点赞最多的百分之十的微博数据;

(3)利用LDA聚类算法模型,分别对预处理后的实时微博账户相关数据和历史微博数据进行主题分类,得到当前最热门的账户相关主题以及账户历史发布的离线热门主题;

利用当前最热门的微博账户相关主题实时构建发布的微博主题,利用离线热门主题对微博主题发布比例进行优化;

(4)对历史微博数据预处理后进行离线数据分析,确定影响微博热度的因素,进一步对微博发布进行优化。

步骤(1)中,从微博账户相关网站和微博网站采集数据的具体方法为:通过多个代理IP、多用户模拟登陆和多浏览器代理的方式实现分布式网络爬虫采集微博数据。

所述的历史微博数据包括微博账户的每条微博的内容、转发数、评论数、评论、点赞数和发布日期等。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910407202.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top