[发明专利]一种基于主题的微博转发预测方法与系统在审
申请号: | 201611185198.0 | 申请日: | 2016-12-20 |
公开(公告)号: | CN106600071A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 郭培伦;陈雁;杨晶宇;李平;胡栋;葛忆 | 申请(专利权)人: | 西南石油大学;四川数智汇通数据有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/00 |
代理公司: | 成都金英专利代理事务所(普通合伙)51218 | 代理人: | 袁英 |
地址: | 610500 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 转发 预测 方法 系统 | ||
技术领域
本发明涉及微博预测领域,具体是一种基于主题的微博转发预测方法与系统。
背景技术
微博是一种基于用户关系的实时信息交流、分享、传播的社交平台,与Facebook、Twitter等社交网络一样影响了人类的生活交流方式。在微博平台上,随着用户数量以亿万级为单位数量的增加,大量的图片、文本等海量信息的背后反映的是人们的生活想法、知识和有趣的事情。微博的出现除了产生有益影响,也带来了很多问题,例如不良言论的无约束传播等严重破坏了社会生活风气。所以,对微博用户的活动状态进行预测,对于政府、企事业单位、、个人都有重要的意义。
在现有的微博转发预测解决方案中,公开号为CN104933622A的中国专利公开了一种基于用户和微博主题的微博流行度预测方法及系统,该方法包括:获取预设时间段内的微博数据和用户数据,根据所述微博数据和所述用户数据,获取用户属性特征和微博主题特征,将所述用户属性特征进行归一化处理,以处理后的所述用户特征进行用户聚类,并根据聚类结果,获取用户的类别信息;根据所述微博主题特征和所述用户的类别信息,获取用户聚类在所述微博主题下的转发特征,并计算所述用户聚类在所述微博主题下的权重系数;根据所述微博主题特征、所述用户属性特征、所述权重系数,构建微博流行度预测模型,通过所述微博流行度预测模型对微博流行度进行预测。该专利利用不同时间间隔的影响权重进行流行度预测模型的构建与本发明基于主题转发关系的有向图网络进行节点权重刻画不同的转发概率的方案不同。
公开号为CN105159905A的中国专利公开了一种基于转发关系的微博聚类方法,该方法针对微博文本特征稀疏造成的微博文本聚类效果不佳的问题,提出一种基于微博转发关系的微博文本聚类方法。该方法根据微博之间存在的转发关系以及转发文本之间的主题相似性,构建了微博转发关系有向图。该图将转发关系作为单向边,使用微博作为节点构成图,将相互连通的部分视作一个小簇,称之为转发关系簇,在这个小簇中所有微博有同一个最初的转发源。本发明方法将转发关系簇作为聚类的初始对象,采用基于最大最小距离和SSE的自适应聚类算法进行微博文本聚类,提高了文本特征稀疏的微博文本的聚类准确率。该专利虽然也是基于微博转发关系进行的预测,但是其利用文本相似性、最大距离、最下距离计算和SSE的自适应聚类算法进行相似性度量的方案与本发明基于边权重进行转发概率刻画的原理不同。
公开号为CN105550275A的中国专利公开了一种微博转发量预测方法,用于解决现有技术中对微博转发量预测的方法准确性较低的问题,该方法包括:获取训练微博数据和待预测微博数据;根据训练微博的转发量,将训练微博划分为对应的类别;提取训练微博特征,包括转发网络特征、内容特征和时序特征;建立所述微博特征和转发量类别之间的多分类模型;提取待预测微博特征,根据所述的待预测微博特征,基于多分类模型,预测待预测微博的转发量类别。本发明在微博内容特征和时序特征的基础上,加入多种转发网络特征,综合利用三类特征来预测转发量,提高了预测的准确性。该发明与本发明所要解决的问题相同,但是其通过训练微博数据并提取特征、建立模型的方法虽然在一定程度上提高了微博转发预测的准确度,但是对于多级层的微博转发关系网,无法做到精确预测其中的级层之间的转发情况,并且对于多种主题类型的微博转发预测,准确度并不高。
对于多种级层关系的微博转发关系网络,在不同主题类型的转发关系中,假设微博用户A的微博都是IT类的,而微博用户B的微博包括IT跟人文,微博用户C是A和B的粉丝,但是只关注IT不加主题的话,A的微博预测问题不大,但是B的微博就不会那么准确。例如,微博用户D是B的粉丝,且D只关注人文。如果B发布了一条微博,就不能很准确地预测C会转发还是D会转发的B发的微博。加上主题限定后,如果B发布的微博属于IT,那么就可以预测C会转发;反之,如果B发布的微博属于人文,那么预测D会转发。
现有的微博预测方法针对多种主题类型的微博转发关系网络存在准确度低的问题,尤其是对于多种级层关系的微博转发关系网络,无法做到准确、精确的预测某一层关注者的转发情况。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于主题的微博转发预测方法与系统,以至少实现提高预测准确性和级层预测精度的效果。
本发明的目的是通过以下技术方案来实现的:一种基于主题转发的高精度预测微博转发概率的方法,其特征在于,它包括以下步骤:
S1:爬取相应的微博,并根据时间窗D的大小分别存储相应的微博转发关系及微博内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学;四川数智汇通数据有限公司,未经西南石油大学;四川数智汇通数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611185198.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理