[发明专利]基于图卷积网络的金融新闻文本情感倾向分析方法有效
申请号: | 202110135244.0 | 申请日: | 2021-02-01 |
公开(公告)号: | CN112948541B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 马千里;林义钦;李岑昊 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30;G06K9/62;G06N3/04 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 詹丽红 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图卷 网络 金融 新闻 文本 情感 倾向 分析 方法 | ||
1.一种基于图卷积网络的金融新闻文本情感倾向分析方法,其特征在于,所述的金融新闻文本情感倾向分析方法包括以下步骤:
S1、确定金融文本数据的来源,选择开源接口或设计网络爬虫来获取稳定的金融文本数据;
S2、文本预处理,对获取的金融文本数据进行去杂项、分词的预处理,得到清洁文本列表;
S3、对清洁文本列表进行采样得到样本列表,并对样本列表进行人工标注,得到标注数据;
S4、使用清洁文本列表建立文本和词组的异质图,异质图以词组和文本作为结点,结点的连边包括以下两种情况:词组-词组连边、词组-文本连边,其中,所述的词组-词组连边根据词组的共现信息建立,所述的词组-文本连边是根据词组频率和词组的文本频率建立;
S5、对异质图进行预处理,分别得到:特征矩阵、邻接矩阵、标签矩阵、归一化邻接矩阵;
S6、使用特征矩阵作为输入,标签矩阵作为监督信息以及使用归一化邻接矩阵作为图卷积操作的支持矩阵,建立一个四层的图卷积网络;
S7、对图卷积网络进行迭代训练,得到在真实训练集上和验证集上的准确率以及最终的分类结果。
2.根据权利要求1所述的基于图卷积网络的金融新闻文本情感倾向分析方法,其特征在于,所述的步骤S1中获取金融文本数据的过程如下:
S101、选取新浪财经实时资讯接口作为开源数据接口,根据开源接口的需求搭建所需开发环境;
S102、通过开源数据接口获取金融文本数据,并将金融文本数据保存为文本列表,若数据源有金融文本对应的发布时间,则存储的文本列表按发布时间从早到晚排序,作为图卷积网络的训练数据;同时,实现实时数据的定时获取功能,定时获取文本列表用于进行当期金融新闻情感倾向的分析。
3.根据权利要求1所述的基于图卷积网络的金融新闻文本情感倾向分析方法,其特征在于,所述的步骤S2中文本预处理的过程如下:
S201、使用正则表达式匹配的方式,去除文本列表中冗余项、乱码符号、特殊符号,得到清洁文本列表D=(D1,D2,...,Di,...,Ddnum),dnum为文本列表的长度,即文本个数,Di表示第i条文本;
S202、使用文本分析工具THULAC或jieba,对清洁文本列表D中的每项进行分词处理,将文本转化为词组列表Di=(Wi1,Wi2,...,Wij,...,Wiwnum),wnum为第i个词组列表的长度,即第i条文本的词组个数,Wij表示第i条文本中的第j个词组。
4.根据权利要求1所述的基于图卷积网络的金融新闻文本情感倾向分析方法,其特征在于,所述的步骤S3中数据采样及标记的过程如下:
S301、若获得的清洁文本列表无对应的发布时间,则对清洁文本列表按比例随机采样;若所获得的清洁文本列表有对应的发布时间,则按照发布时间对每日的数据分别按比例随机采样,得到样本列表Ds,其中,采样比例根据清洁文本列表的长度及标注人员的数量确定;
S302、对样本列表Ds进行人工标注,由专业金融人员对文本的情感倾向进行分类标注,使得每条文本对应一个标注NTi∈(0,1,2),其中,0表示文本的情感倾向消极,1表示文本无明显情感倾向,2表示文本的情感倾向积极。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110135244.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于分散控制系统控制柜的安全防护系统
- 下一篇:一种板材加工用压花设备