[发明专利]基于图卷积网络的金融新闻文本情感倾向分析方法有效
申请号: | 202110135244.0 | 申请日: | 2021-02-01 |
公开(公告)号: | CN112948541B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 马千里;林义钦;李岑昊 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30;G06K9/62;G06N3/04 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 詹丽红 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图卷 网络 金融 新闻 文本 情感 倾向 分析 方法 | ||
本发明公开了一种基于图卷积网络的金融新闻文本情感倾向分析方法,步骤如下:确定数据源获取金融文本数据;对金融文本数据进行预处理,得到清洁文本列表;对清洁文本列表进行采样得到样本列表;对样本列表进行人工标注;使用清洁文本列表建立异质图;对异质图进行特征提取得到特征矩阵、标签矩阵和邻接矩阵;以特征矩阵为输入,标签矩阵为监督信息,邻接矩阵为图卷积操作的支持矩阵,建立四层图卷积网络;通过迭代训练得到样本列表的分类准确率和清洁文本列表的分类结果。本方法在异质图中引入无标注数据,并可以在没有先验词嵌入知识的情况下进行学习,摆脱web环境下情感词典难以构建、维护的困境和对有标签数据比例和词嵌入效果的强依赖。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于图卷积网络的金融新闻文本情感倾向分析方法。
背景技术
文本情感倾向分析是通过分析对给定文本给予一个情感倾向的评价。在金融文本领域,情感分析被用于财务危机预测研究,金融新闻或评论可以反映民众对上市公司的评价;也被用于投资分析,金融新闻可以较好地反映市场情绪。同时,随着信息网络的不断发展,web信息所能提供的实时准确、全面覆盖的特性,也使得相关任务的落地实施成为可能。
文本情感倾向分析的方法,可以区分为基于语义分析的和基于机器学习方法的两类。其中基于语义分析的方法,主要通过情感词的倾向性计算得到文本的倾向性分数,或通过建立语义模式库进行模式匹配来得到情感倾向值。吴江等人在《基于语义规则的Web金融文本情感分析》提出了一种基于语义规则的web金融证券域文本情感分析方法,用于投资者情感变化与股票市场之间的联动关系展开分析。另一方面,基于机器学习的方法,如经典的深度模型CNN、RNN、LSTM等都在文本信息表示、文本分类任务上取得了一定的成果;同时,基于单词嵌入的模型也在很大程度上促进了该类型任务的发展,一些学者将无监督的单词嵌入聚合为文档嵌入,然后将这些文档嵌入输入分类器,具体见参考文献“Joulin A,GraveE,Bojanowski P,et al.Bag of Tricks for Efficient Text Classification[J].2016”。另一些学者同时学习单词文档和文档标签嵌入,具体见参考文献“Wang,Guoyin,Li,Chunyuan,Wang,Wenlin,Joint Embedding of Words and Labels for TextClassification[J]”。而另一参考文献“Yao L,Mao C,Luo Y.Graph ConvolutionalNetworks for Text Classification[J].2018”提出使用图卷积网络,不必先进行单词嵌入的学习,而是同时学习单词和文档嵌入并进行文本分类。
上述方法中,基于语义分析的方法,需要构建情感词典、语义规则,这在web信息多变的语义环境下去实现和维护是人工成本非常高的方法;而基于机器学习的方法,很多依赖于单词嵌入的效果,或者需要大量的有标签数据进行训练。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于图卷积网络的金融新闻文本情感倾向分析方法。该方法通过网络获取金融新闻数据,构建包含文本和词组的异质图,在异质图中引入无标签数据,通过卷积进行文档标签信息的二步传播,达到使用大量无标签数据提高有标签数据的标签学习的目的;使用图卷积网络进行训练,不依赖于单词嵌入效果,摆脱对有标签数据比例的强依赖,可以在金融新闻的情感倾向分类中获得较好的效果。
本发明的目的可以通过采取如下技术方案达到:
一种基于图卷积网络的金融新闻文本情感倾向分析方法,所述的金融新闻文本情感倾向分析方法包括以下步骤:
S1、确定金融文本数据的来源,选择开源接口或设计网络爬虫来获取稳定的金融文本数据;
S2、文本预处理,对获取的金融文本数据进行去杂项、分词的预处理,得到清洁文本列表;
S3、对清洁文本列表进行采样得到样本列表,并对样本列表进行人工标注,得到标注数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110135244.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于分散控制系统控制柜的安全防护系统
- 下一篇:一种板材加工用压花设备