[发明专利]一种基于深度生存分析的网络话题爆发时间预测方法有效
| 申请号: | 202010738271.2 | 申请日: | 2020-07-28 |
| 公开(公告)号: | CN111966829B | 公开(公告)日: | 2022-03-15 |
| 发明(设计)人: | 田玲;罗光春;陈爱国;张栗粽;唐文佚;吴东东 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9532;G06F40/289 |
| 代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 生存 分析 网络 话题 爆发 时间 预测 方法 | ||
1.一种基于深度生存分析的网络话题爆发时间预测方法,其特征在于,包括如下步骤,
步骤1、根据预设的时间区间数量,采集基于网络话题的热度时间序列数据和时变文本时间序列数据;
其中,热度时间序列数据为:网络话题在不同时间区间的热度值;
时变文本时间序列数据为:网络话题在不同时间区间所相关的文本;
步骤2、提取文本特征时间序列数据:
基于中文短文本分类数据集,训练得到一个短文本分类器,并将训练得到的短文本分类器去掉分类输出层后的网络模型作为文本特征提取器;
基于所述文本特征提取器获取文本时间序列中的各文本的文本特征向量,得到文本特征时间序列;
步骤3、构建基于生存分析的深度学习模型:
所述深度学习模型包含数据融合模块和深度生存模块;
其中,数据融合模块用于融合步骤1采集的时间序列数据和步骤2得到的文本特征时间序列,得到融合向量时间序列并输入深度生存模块;
深度生存模块用于回归预测,输出网络话题的离散风险率;
步骤4、训练深度生存模块:
基于预置的训练数据对所述深度生存模块进行深度学习训练,当满足预置的停止训练条件时,得到训练好的深度生存模块做为爆发时间预测器;
其中,训练时所采用的损失函数为:L=L1+L2,其中,损失函数的L1、L2分别为;
其中,Dun表示在观察周期内已爆发的网络话题集合,Dce表示在观察周期内未爆发的网络话题集合,u表示时间区间,zi表示网络话题爆发时时刻τj表示观察周期对应时长,表示网络话题i在爆发时间zi所属时间区间的离散风险率,分别表示网络话题i、j在不同爆发时间区间的离散风险率,超参数α∈(0,1);
步骤5、基于爆发时间预测器输出待预测的网络话题爆发时间的预测结果:
对给定的待预测的网络话题,基于预设的时间区间数量采集基于当前待预测的网络话题的热度时间序列数据、时变文本时间序列数据;
基于文本特征提取器提取待预测的网络话题的文本特征时间序列数据,并将提取的文本特征时间序列数据与采集的热度时间序列数据通过深度学习模型的数据融合模块进行数据融合处理,得到待预测的网络话题的融合向量时间序列并输入爆发时间预测器;
基于爆发时间预测器输出的待预测的网络话题的离散风险率,得到离散生存概率,基于预置的爆发概率阈值,将首次低于所述爆发概率阈值的生存概率所对应的时间区间作为预测的网络话题爆发时间。
2.如权利要求1所述的方法,其特征在于,爆发概率阈值的设置具体为:
根据训练时深度生存模型输出的离散风险率h={h1,h2,…,hm},根据公式计算离散生存概率St,得到离散生存概率S={S1,S2,…,Sm},其中,时间区间标识t=1,2,…,m,m为预设的时间区间数量;
对所有离散生存概率St,预设的间隔步长递增设置爆发概率阈值,取预测准确度最高的值作为最终的爆发概率阈值。
3.如权利要求2所述的方法,其特征在于,间隔步长设置为0.0001。
4.如权利要求1所述的方法,其特征在于,步骤1中,网络话题的热度由网络话题的总转发量确定,即网络话题的热度与其总转发量正相关,总转发量越高,代表话题热度越高。
5.如权利要求1所述的方法,其特征在于,步骤1中,网络话题非时变文本包含话题源头文本内容、随时间变化的转发文本内容。
6.如权利要求1所述的方法,其特征在于,步骤2中,训练短文本分类器所采用的分类数据集为:基于微博的短文本文本数据,且分类标签为支持和反对两类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010738271.2/1.html,转载请声明来源钻瓜专利网。





