[发明专利]一种多源数据融合与时序分析驱动的选举预测方法在审
| 申请号: | 202011238961.8 | 申请日: | 2020-11-09 |
| 公开(公告)号: | CN112348257A | 公开(公告)日: | 2021-02-09 |
| 发明(设计)人: | 陈炳阳;张卫山;侯召祥;陈涛;于泽沛 | 申请(专利权)人: | 中国石油大学(华东) |
| 主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/00;G06F16/35;G06F16/951;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 266580 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 融合 时序 分析 驱动 选举 预测 方法 | ||
1.一种多源数据融合与时序分析驱动的选举预测方法,其特征在于,具体步骤如下:
步骤一:从互联网中抓取影响选举结果的相关数据作为数据源;
步骤二:将步骤一抓取到的数据进行预处理(以Twitter为例);
数据预处理具体过程如下:
201、进行基本的数据清洗,去掉明显的噪声信息。
202、为了辨别真实推文和机器产生的虚拟推文,设定若同一ID单日所发推文超过3条,则将此ID所发推文全部删除。
203、考虑到社交平台中用户主要为中青年群体,无法代表现实中不同年龄段的选民,因此,对应所预测选举国家各年龄段人口的分布状态,根据抓取到的用户年龄信息(对于不在选民年龄范围内数据直接去除),随机删除多余中青年ID的数据。
204、去除不在所预测选举国家范围内的用户信息,认为推文发布地点和出生地点至少有一个在所预测选举国家境内,同时统计单日各州对每位候选人的推文,其中将候选人和对应党派的推文条数合并,都认为是选民对同一候选人的情感态度。
步骤三:从步骤二预处理后的数据提取各类数据特征;
所述影响选举预测的特征有:情感特征、经济特征、疫情特征(重大事件);具体特征提取过程如下:
步骤301、以Twitter文本数据提取选民的情感特征;
拿到文本数据后,首先进行文本情感分类,然后对情感比例进行变换,最后根据各州所拥有的实际选票(数量)权对情感比例进行微调,得到最终的情感数据作为情感特征;
具体而言,首先将Twitter文本数据输入基于BERT的情感分类模型(BERTSC,Bidirectional Encoder Representations from Transformers-based SentimentClassification),对文本进行情感分类,只考虑选民对每位候选人的积极情感,以此情感比例作为情感特征;
然后对情感比例进行变换,保证选民仅会对某一候选人有积极情感(以此作为对候选人的支持率),即不存在一人对多个候选人有支持率,以及一个人对所有候选人都无支持率的情感;
具体而言,分别对多位候选人做情感分类时,候选人间的情感比例相互独立,为简单说明情感变化情况这里仅以两位候选人(候选人T与候选人B)进行举例。如仅考虑某一个州单日的推文,假设关于候选人T的总条数为TN条,通过BERTSC模型可得其积极情感比例为TPos,关于候选人B的总条数为BN条,类似的可得其积极情感比例为BPos,从两位候选人相关推文中各选N条数据,分别计算二者积极情感条数并将其融合构成一个新集合,即可得到互斥的情感数据。计算方式如下:
N=min(TN*TPos,BN*BPos)
tPos=N*TPos
bPos=B*bPos
TSupport=tPos/(tPos+bPos)
BSupport=bPos/(tPos+bPos)
其中tPos为新集合中候选人T的积极情感条数,bPos为对应的候选人B积极情感条数,TSupport为选民对候选人T的情感支持度,BSupport为候选人B的情感支持度;
最后根据各州所拥有的实际选票(数量)权对情感比例进行微调,作为最终的情感特征;
步骤302、经济特征提取;
抓取所预测国家每日货币汇率的变化率作为经济因素,使用最邻近差值算法进行数据补齐;
步骤303、疫情特征提取;
抓取所预测国家每日死亡人数,新增确诊人数,治愈人数及检测人数,对筛选出的特征进行归一化处理,求得每日所有特征的总和;
步骤四:将步骤三得到的三类特征进行相关性分析,从而进行数据融合;
通过皮尔逊相关性计算求得经济和疫情特征对候选人的支持度的相关系数,分别在疫情和经济层面,将候选人T和候选人B的相关性进行归一化处理,计算求得民众对候选人T与候选人B两位候选人的情感与经济因素的相关系数分别为α1:β1,与疫情因素的相关系数为α2:β2,其中情感特征系数设置为1,通过相关系数将三类特征进行融合,计算公式如下:
f(T)=E(T)+α1Eco(T)-β1Covid19(T)
f(B)=E(B)+α2Eco(B)-β2Covid19(B)
其中f(x)代表融合后的特征值,E(x)代表情感特征,Eco(x)代表经济特征,Convid19(x)代表疫情特征,T代表候选人T,B代表候选人B。
步骤五:将步骤三得到的融合数据对双向长短期记忆模型进行训练,从而确定最佳训练周期(天数),然后训练好的时序分析模型进行选举预测;
501、时序分析模型训练;
在模型训练过程中,尝试以前t日数据信息预测t+1日数据,为了确定训练周期的最佳天数,即确定t的值,对模型进行训练,即:
以第1日到第t日的数据作为训练数据来预测第t+1日的信息,从而将其与已知的第t+1日的数据进行损失函数计算,从而验证模型的有效性。接着分别以[t+1,t+2,…,t+n]天数据分别作为训练集,然后将后一天数据作为测试集,从而确定训练周期为几天时,模型效果最好;
502、选举预测;
通过501得到的最佳训练周期(天数),借助优化后的时序模型对数据进行预测。
2.如权利要求1所述的一种多源数据融合与时序分析驱动的选举预测方法,其特征在于,步骤一所述的抓取数据的步骤具体为:
首先,在Twitter等社交网络平台上进行数据抓取;在数据抓取阶段根据Twitter官方提供的API进行抓取(以Twitter为例),通过关键字和标签可以抓取对应候选人的相关文本和评论。在脚本编译过程中,分别以候选人及相关党派关键字进行抓取,同时对候选人本人所发表言论的评论进行抓取,提取信息主要为发布用户的ID、发布时间、发布地点、发布文本(包含评论文本)、用户年龄及用户出生地等信息;
然后,从互联网抓取每日美元汇率的信息(候选人所在国家的货币变化,以美国为例),通过计算求得美元汇率的日变化率作为经济特征;
最后,从互联网分别抓取美国(候选人所在国家显示的疫情数据,以美国为例)每日死亡人数,新增确诊人数,治愈人数,死亡人数及检测人数,对筛选出的特征进行归一化处理,求得每日所有特征的总和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011238961.8/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





