[发明专利]一种面向金融文本的多策略多空分类方法在审

专利信息
申请号: 202211689330.7 申请日: 2022-12-27
公开(公告)号: CN115840823A 公开(公告)日: 2023-03-24
发明(设计)人: 董真豪;苗仲辰;鲁继东;林越峰;马鸿超;倪梦珺;江航;杨熠 申请(专利权)人: 上海金融期货信息技术有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36;G06F40/289;G06F40/247;G06N3/0455;G06N3/0499;G06Q40/06
代理公司: 上海专利商标事务所有限公司 31100 代理人: 施浩
地址: 200122 上海市浦东新区中国(*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 金融 文本 策略 分类 方法
【说明书】:

发明公开了面向金融文本的多策略多空分类方法,可以在缺乏大量语料的任意垂直领域实现领域相关的情感分类任务。其技术方案为:步骤1:对金融文本进行预处理;步骤2:使用情感倾向点互信息算法自动化构建金融领域多空情感词典;步骤3:基于词向量方法自动化构建金融领域多空情感词典;步骤4:利用金融领域多空情感词典对文本进行情感分类任务;步骤5:结合金融知识图谱,利用预训练语言模型对金融文本进行情感分类任务;步骤6:利用投票策略来综合判断多空观点。

技术领域

本发明涉及一种金融文本多空情感分类技术,具体涉及一种面向金融文本的多策略多空分类方法。

背景技术

投资人在做某一投资决策之前,需要做出准确的多空判断,选择对应的买卖操作。准确的多空判断除了参考对应产品的价格走势等基本信息,还需要参考产品相关的舆情信息,如政策文件带来的行业板块影响、专业人士的分析等。近年来,随着互联网的飞速发展,包括微博、微信等社交网络的兴起,使得信息能够迅速的扩散,信息量呈现爆炸式增长,从而导致用户浏览的文本信息太多、太分散。

此外在金融领域,舆情和市场行情走势、多空判断有密切联系,因此人们迫切需要有一款自动化信息判别工具,帮助人们从海量的数据中迅速筛选出涉及市场多空观点的信息,并自动判别该信息是“多”还是“空”。

对机器学习和深度学习领域来说,这个问题可以抽象定义为一个文本情感分类问题。一般来说,要解决文本情感分类这个问题,需要耗费大量具有较高专业程度的人员对金融文本进行多空观点的标注,这使得金融语料的标注代价昂贵,且效率低下,无法满足对实时性要求高的业务场景。在语料充足的其他垂直领域,通常使用预训练语言模型解决分类问题,但由于缺乏外部知识,忽略了相似词语在不同语境下的不同含义。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题,提供了一种面向金融文本的多策略多空分类方法,可以在仅提供少量标注样本的情况下,依靠自动化构建金融领域多空情感词典的方法,结合情感词典分类算法和深度学习的预训练语言模型,并引入金融知识图谱作为外部知识源,在缺乏大量语料的任意垂直领域实现领域相关的情感分类任务。

本发明的技术方案为:本发明揭示了一种面向金融文本的多策略多空分类方法,方法包括:

步骤1:对金融文本进行预处理;

步骤2:使用情感倾向点互信息算法自动化构建金融领域多空情感词典;

步骤3:基于词向量方法自动化构建金融领域多空情感词典;

步骤4:利用金融领域多空情感词典对文本进行情感分类任务;

步骤5:结合金融知识图谱,利用预训练语言模型对金融文本进行情感分类任务;

步骤6:利用投票策略来综合判断多空观点。

根据本发明的面向金融文本的多策略多空分类方法的一实施例,步骤1的预处理包括:

从外部导入小部分标注词典,包括金融专家标注的代表多空观点的词汇;

使用分词技术,将语料切分成连续的中文词汇。

根据本发明的面向金融文本的多策略多空分类方法的一实施例,步骤2进一步包括:

步骤2-1:计算语料中每个词出现的概率;

步骤2-2:计算不同的词汇间的点互信息;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海金融期货信息技术有限公司,未经上海金融期货信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211689330.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top