[发明专利]一种可自动更新的用于金融文本分析的情感字典构建方法有效
申请号: | 201910209985.1 | 申请日: | 2019-03-19 |
公开(公告)号: | CN109947951B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 孙运传;王欣宇;沈岩;方梦婷;别荣芳;崔学刚 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/247 |
代理公司: | 厦门智慧呈睿知识产权代理事务所(普通合伙) 35222 | 代理人: | 杨玉芳 |
地址: | 100875 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动更新 用于 金融 文本 分析 情感 字典 构建 方法 | ||
本发明公开了一种可自动更新的用于金融文本分析的情感字典构建方法,包括利用知识库中的现有情感词典构成基础词典Dinitial,通过机器添加以及人工添加的方式扩展基础情感词典,得到扩展情感词典Dextend,通过计算前后缀信息熵提高提取新词的准确性,然后利用朴素贝叶斯分类器和情感倾向概率对语料库中提取的新词进行概率计算,通过设置阀值将满足条件的具有正向或负向情感的情感词添加到情感词典中。同现有技术相比有如下优点:(1)新词提取更为准确,减少噪音和后续计算量;(2)情感分析计算量小,通过参数优化,可以得到更为准确的情感分析结果;(3)情感词典可根据需要不断更新,从而提高了基于情感词典的金融文本情感分析方法的准确性。
技术领域
本发明属于文本情感分析和观点挖掘技术领域,具体是一种用于金融文本分析的情感词典构建方法。
背景技术
投资者的情绪变化对其投资决策的影响巨大。大部分中小投资者的投资情绪易受社会舆论以及其他投资者的言论所左右。因此量化地计算分析投资者对个股以及各个板块的情绪值显得尤其重要,它能为投资者进行投资决策提供参考,亦能作为选股因子构建模型进行量化交易。因此,分析投资者情绪成为日前日趋重要的一个研究领域。
通过分析互联网上各种对有关金融市场的评论文本,可以有效地获得投资者对当下市场的看法,当前情感分析技术可以分为两类,一类是基于机器学习的方法,另一类是基于情感词典的方法。现有技术中中文情感词典的构建方法大致可以分为三类,一是基于知识库的构建方法,主要是在当前普遍认可的知网(Hownet)情感词典、台湾大学简体中文情感极性词典(NTUSD)等中文情感词典的基础上,通过词语扩展、统计词频等方法进行构建;二是基于语料库方法,常见的有SO-PMI法等;三是知识库与语料库结合方法。然而,由于中文与英文的先天差异、中文语言分析工具不够成熟,以及生硬地照搬英文分析模型等原因,中文情感词典质量较差。此外,金融领域发展迅猛,大量新词、热词不断涌现,这使得基于传统情感词典的文本分析结果缺少准确性。因此为了更好地分析互联网上金融相关的语料,构建一个包含金融领域特定词语,并且可以准确分析新词,自动更新的情感词典必不可少。本发明提供一种可自动更新的用于金融文本分析的情感词典构建方法。
发明内容
本发明的目的是提供一种可自动更新的用于金融文本分析的情感字典构建方法,其构建的词典可以用于金融文本语料的情感分析。
本发明所提供的情感词典构建方法具体如下:
步骤1、构建基础情感词典。整合现有的情感词典,本发明采用目前得到广泛认可的知网(Hownet)情感词典和台湾大学简体中文情感极性词典(NTUSD)。其中知网(Hownet)情感词典包含的中文情感词典有:正面情感词语、正面评价词语、负面情感词语、负面评价词语、程度级别词语和主张词语。台湾大学简体中文情感极性词典包括:ntusd-negative和ntusd-positive两个情感词典。具体整合方法为将知网(Hownet)里面的正面评价词语、正面情感词语和ntusd的positive词典合并去重得到正向情感词典,将知网(Hownet)里面的负面评价词语、负面情感词语和ntusd的negative词典合并去重得到负向情感词典,由上述正向情感词典和负向情感词典构成基础情感词典Dinitial。
步骤2、扩展基础情感词典。一是利用现有同义词词库对基础情感词典中情感词进行同义词扩展,现有同义词词库可以是《同义词词林》和/或《哈工大同义词词林拓展版》;二是人工添加具有情感色彩的网络新兴词汇;三是人工添加金融领域具有情感色彩的非情感词,如“三只乌鸦”、“直线拉升”等,得到扩展情感词典Dextend。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910209985.1/2.html,转载请声明来源钻瓜专利网。