[发明专利]一种面向金融文本的多策略多空分类方法在审
申请号: | 202211689330.7 | 申请日: | 2022-12-27 |
公开(公告)号: | CN115840823A | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 董真豪;苗仲辰;鲁继东;林越峰;马鸿超;倪梦珺;江航;杨熠 | 申请(专利权)人: | 上海金融期货信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/289;G06F40/247;G06N3/0455;G06N3/0499;G06Q40/06 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 施浩 |
地址: | 200122 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 金融 文本 策略 分类 方法 | ||
1.一种面向金融文本的多策略多空分类方法,其特征在于,方法包括:
步骤1:对金融文本进行预处理;
步骤2:使用情感倾向点互信息算法自动化构建金融领域多空情感词典;
步骤3:基于词向量方法自动化构建金融领域多空情感词典;
步骤4:利用金融领域多空情感词典对文本进行情感分类任务;
步骤5:结合金融知识图谱,利用预训练语言模型对金融文本进行情感分类任务;
步骤6:利用投票策略来综合判断多空观点。
2.根据权利要求1所述的面向金融文本的多策略多空分类方法,其特征在于,步骤1的预处理包括:
从外部导入小部分标注词典,包括金融专家标注的代表多空观点的词汇;
使用分词技术,将语料切分成连续的中文词汇。
3.根据权利要求1所述的面向金融文本的多策略多空分类方法,其特征在于,步骤2进一步包括:
步骤2-1:计算语料中每个词出现的概率;
步骤2-2:计算不同的词汇间的点互信息;
步骤2-3:使用情感倾向点互信息算法,分别计算语料中每个词与小规模标注的多空情感词的点互信息,加权求和,获得每个词的多空分数;
步骤2-4:基于每个词的多空分数进行排序,设定看多阈值和看空阈值,分数高于看多阈值以及分数低于看空阈值的词汇,加入金融领域多空情感词典。
4.根据权利要求1所述的面向金融文本的多策略多空分类方法,其特征在于,步骤3进一步包括:
步骤3-1:输入分词后的金融文本,得到词汇序列;
步骤3-2:进行嵌入表示学习,为每个词汇生成对应的词向量表示;
步骤3-3:使用余弦相似度计算方法,分别计算每个词汇与人工标注的种子情感词间的向量相似度;
步骤3-4:设置最小阈值,将与种子情感词相似度大于最小阈值的词添加进金融领域多空情感词典。
5.根据权利要求1所述的面向金融文本的多策略多空分类方法,其特征在于,步骤4进一步包括:
步骤4-1:导入金融领域多空情感词典、情绪副词词表、停用词词表以及否定词词表,根据停用词词表,对分词后的金融文本进行过滤,删去无意义的停用词;
步骤4-2:根据金融领域多空情感词典,识别出文本中每个情感词的位置,每个看多情感词记为1分,看空情感词记为-1分;
步骤4-3:根据情绪副词词表和否定词词表,判断每个情感词中间是否存在情绪副词和否定词,若存在情绪副词,则根据情绪副词的情感度不同,为与之对应的情感词分数乘上不同的系数,若情感词前由否定词连接,则乘以-1,实现分数取反;
步骤4-4:计算整个文本的情感分数。
6.根据权利要求1所述的面向金融文本的多策略多空分类方法,其特征在于,步骤5进一步包括:
步骤5-1:利用预训练语言模型为输入的文本生成一个文本向量;
步骤5-2:利用实体消歧和实体链接技术,将文本中可能有歧义的实体指向金融知识图谱中的正确实体,得到实体集合;
步骤5-3:利用包括BERT模型在内的向量化方法和邻域聚合技术,为实体集合中的每个实体生成基于金融知识图谱的向量表示,首先利用BERT模型为每个实体生成初始向量,其次利用所有实体的初始向量,计算当前实体与每个邻居节点实体注意力权重分数,最后利用加权求和的方法,得到每个实体的最终向量表示;
步骤5-4:对文本向量和实体向量进行向量融合,使用多模态双线性分解池化算法将两种向量进行融合
步骤5-5:在BERT模型最后添加一层全连接层;
步骤5-6:利用小规模标注数据对BERT模型进行微调,采用交叉熵损失函数优化BERT模型。
7.根据权利要求1所述的面向金融文本的多策略多空分类方法,其特征在于,步骤6进一步包括:
步骤6-1:设置置信度权重集,以表示使用多空情感词典分类算法的多空分数系数权重,以及表示使用预训练语言模型得到的多空分数系数权重;
步骤6-2:根据文本经过情感词典分类算法得到的具体分数和预训练语言模型得到的分数,找到对应权重集中的具体权重;
步骤6-3:使用加权求和的方法,得到文本的最终得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海金融期货信息技术有限公司,未经上海金融期货信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211689330.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑外墙的施工栏架的防护结构
- 下一篇:一种篮球训练辅助器械