[发明专利]一种可自动更新的用于金融文本分析的情感字典构建方法有效
申请号: | 201910209985.1 | 申请日: | 2019-03-19 |
公开(公告)号: | CN109947951B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 孙运传;王欣宇;沈岩;方梦婷;别荣芳;崔学刚 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/247 |
代理公司: | 厦门智慧呈睿知识产权代理事务所(普通合伙) 35222 | 代理人: | 杨玉芳 |
地址: | 100875 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种可自动更新的用于金融文本分析的情感字典构建方法,包括利用知识库中的现有情感词典构成基础词典D |
||
搜索关键词: | 一种 自动更新 用于 金融 文本 分析 情感 字典 构建 方法 | ||
【主权项】:
1.一种可自动更新的用于金融文本分析的情感字典构建方法,其特征在于采用以下步骤:步骤1、构建基础情感词典:整合现有的情感词典,将现有词典中的正面评价词语、正面情感词语合并去重分别得到正向情感词典和负向情感词典,由上述正向情感词典和负向情感词典构成基础情感词典Dinitial;步骤2、扩展基础情感词典:一是利用现有同义词词库对基础情感词典中情感词进行同义词扩展,二是人工添加具有情感色彩的网络新兴词汇,三是人工添加金融领域具有情感色彩的非情感词,得到扩展情感词典Dextend;步骤3、提取待分析词语Nword:运用互联网工具抓取一定量金融文本语料。(1)运用互联网工具进行分词、去停用词、去噪等,得到分词语段库,去除扩展情感词典Dextend中已经包含的词语、转折词、程度词以及非中文字符,采用词频法对所有词汇统计词频,并按词频由高到低排序,选取词频数大于N的词语,然后,利用公式1计算每个语段的前缀和后缀的信息熵,设定信息熵阈值I,保留前缀和后缀信息熵都大于该阈值的语段,作为待分析词语Nword;
其中w为语块,a为其前缀或后缀,c为频数;(2)在语料库中对Nword的邻近词进行频率排序,所述邻近词指的是语段距离<m,其中0<m<8,提取k个频率最高的词语,利用扩展情感词典Dextend,确定k个频率最高词语中正向情感词的个数k正,负向情感词的个数k负;步骤4、建立正向语料库和负向语料库:基于现有情感词典,对步骤3收集的金融文本语料进行情感分析,创建正向语料库和负向语料库,其中现有情感词典为扩展情感词典或上次更新的情感词典Dhistory;步骤5、计算待分析词语Nword的情感概率S:首先利用公式2、3计算待分析词语Nword同正向语料库的相关性概率Pa正,同负向语料库的相关性概率Pa负;然后利用公式4、5计算待分析词语Nword的情感倾向概率Pb正和Pb负;利用公式6、7分别计算待分析词Nword的正向情感P正和负向情感的概率P负;最后利用公式8计算待分析词语Nword的情感概率S;![]()
![]()
![]()
P正=α*Pa正+β*Pb,正 公式6P负=α*Pa负+β*Pb负 公式7S=P正‑P负 公式8其中,α+β=1,α≥0,β≥0;步骤6、筛选结果,更新情感词典:设置正向阀值
负向阀值
当S>0并且
时,确定该待分析词Nword为正向情感词,当S<0并且
时,确定该待分析词Nword为负向情感词,将上述满足条件的情感词词语自动添加到情感词典中,完成情感词典的自动更新,得到最新的情感词典Dupdate。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910209985.1/,转载请声明来源钻瓜专利网。