[发明专利]一种定量预测微博转发广度与深度的方法在审
| 申请号: | 202110760062.2 | 申请日: | 2021-07-05 |
| 公开(公告)号: | CN113592058A | 公开(公告)日: | 2021-11-02 |
| 发明(设计)人: | 王彦本;白菊蓉 | 申请(专利权)人: | 西安邮电大学 |
| 主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N20/20;G06F16/951 |
| 代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
| 地址: | 710061 陕西省西安*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 定量 预测 转发 广度 深度 方法 | ||
本发明属于信息及数据处理技术领域,公开了一种定量预测微博转发广度与深度的方法,将提取的特征分为用户特征、微博特征和社交特征,并存入文件中;读取处理好的全部数据,将数据70%作为训练数据集,30%作为测试数据集;提取训练数据集中对训练模型有用的特征;使用改进的随机森林算法建立模型,预测每条微博转发的广度和深度;使用测试集数据测试算法的准确性,计算平均绝对百分比误差和预测精度。本发明利用机器学习算法预测用户转发行为的传播广度和深度;改进的随机森林算法预测精度高而且波动较小,对各种特征变化不敏感,表明预测结果有较高的参考价值。
技术领域
本发明属于信息及数据处理技术领域,尤其涉及一种定量预测微博转发广度与深度的方法。
背景技术
目前:国内外的一些学者针对微博用户的转发行为进行研究,试图分析影响转发行为的各种因素。用户的转发行为是多种因素共同作用的结果,其影响因素概括为信息内容因素和群体影响因素。前者主要包括信息内容自身特点以及信息内容与用户兴趣的吻合程度;后者主要包括信息发布者对用户的影响以及其他信息转发者对用户的影响。按照预测影响因素的不同,用户转发行为预测方法可分为基于用户过往行为、基于用户文本兴趣、基于用户所受群体影响以及基于混合特征学习的预测。
其中,基于用户过往行为的预测方法存在较严重的冷启动问题,因此需要融入丰富的特征,如用户属性特征、微博信息特征以及传播结构特征等加以缓解;基于用户文本兴趣的预测方法在微博用户拥有较多的文本信息时效果较好,对于文本内容较少的用户很难学到其真正感兴趣的内容;基于用户所受群体影响的预测方法需要获得足够的用户关系信息;基于混合特征学习的预测方法需要采用特征排序或特征排除,避免特征过多反而导致过拟合问题。
通过上述分析,现有技术存在的问题及缺陷为:
(1)微博用户转发行为的研究主要集中在微博会不会被转发,而定量预测微博传播规模和传播深度的研究较少。
(2)在微博转发次数的预测研究中,一般以预测特定主题的转发次数为主,针对所有微博的定量预测的研究较少。
解决以上问题及缺陷的难度为:社交网络中广泛存在的用户转发行为是最主要的舆论传播方式,当前对网络用户转发行为的研究主要集中在预测会不会被转发,以预测转发概率为主,而很少研究对转发行为传播力的定量预测。尽管目前有少数研究针对网络用户转发次数的预测,但其研究主要是针对特定主题的转发次数进行预测,预测模型缺乏通用性,且预测精度难以满足要求。因此,如何全面掌握网络用户转发行为的传播力,并精确预测其传播规模和传播深度是网络事件预警的迫切需要解决的问题。
解决以上问题及缺陷的意义为:传播规模和传播深度是判断传播能力的重要方面之一,对社交网络事件预警、判断舆情的影响力有重要的意义。
发明内容
针对现有技术存在的问题,本发明提供了一种定量预测微博转发广度与深度的方法。
本发明是这样实现的,一种定量预测微博转发广度与深度的方法,所述定量预测微博转发广度与深度的方法,首先提取相应的特征,并存入文件中,加快后期处理的速度;读取处理好的全部数据,将数据的70%作为训练数据集,30%作为测试数据集;提取训练数据集中对训练模型有用的特征,避免过拟合;使用改进的随机森林算法建立模型,预测每条微博转发的广度和深度;使用测试集数据测试算法的准确性,计算平均绝对百分比误差和预测精度,检验方法的准确性。
进一步,所述定量预测微博转发广度与深度的方法具体包括:
输入:微博数据集S,微博预测数据集P;
步骤一:对数据集S用十折交叉验证方法采样,得到训练数据集Sn;
步骤二:对数据集Sn,用信息增益算法计算每个特征的权重,根据权重对特征排序并排除小于设定阈值的特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学,未经西安邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110760062.2/2.html,转载请声明来源钻瓜专利网。





