[发明专利]一种基于语义的弱监督微博多情感词典扩充方法有效
申请号: | 201710719716.0 | 申请日: | 2017-08-21 |
公开(公告)号: | CN107688630B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 刘磊;孙孟涛;贾亚璐;陈浩 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/30 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于语义的弱监督微博多情感词典扩充方法,包括:建立候选种子词典;通过词频权重和熵权重对候选种子情感词过滤;以word2vec算法获取候选情感词,并通过统计方法验证;用基于规则方法补充情感词典。本发明方法有效扩充了多情感词典,并减少了多情感词典中情感词的数量不平衡问题。 | ||
搜索关键词: | 一种 基于 语义 监督 多情 词典 扩充 方法 | ||
【主权项】:
一种基于语义的弱监督微博多情感词典扩充方法,其特征在于,包括以下步骤:步骤(1)、微博语料获取和预处理获取中文微博语料,同时对微博语料进行预处理,预处理后的文本记作G;步骤(2)、候选种子情感词获取及扩充词获取步骤(2.1)、过滤微博语料G中词性,保留G中的名词、形容词、动词,过滤后的微博语料记为G’;步骤(2.2)、统计G’中所有词的词频,将G中所有词按词频降序排序,从排名前p%内词中,选取情感词作为候选情感词,其中,p为词频排名百分比阈值;每类情感选取K个情感词作为候选情感种子,得到的候选种子情感词典记为F1={w1,w2,…,wn},wj为候选种子情感词;步骤(2.3)、对候选种子词典F1中的每个候选种子情感词w,以微博语料G为数据源,用word2vec算法获取与w语义最相关的前m个词作为候选情感扩充词,记做R(w)=(c1,c2,…,cm),即每个候选种子情感词都得到m个扩充词,情感词w与扩充词c的语义相关值用v(w,c)表示,则情感词w与m个扩充词的语义相关值可以记为V(w)=(v(w,c1),v(w,c2),…,v(w,cn)),扩充后的词典记为F2={w1,R(w1),w2,R(w2),…,wn,R(wn)}。步骤(3)候选种子情感词验证步骤(3.1)、统计每个扩充词在F2中的词频,使用公式(1)计算候选种子的词频权重SFW:SFW(w)=Σi=1mf(ci)*v(w,ci)---(1)]]>其中,SFW(w)是候选种子w的词频权重值,f(ci)是候选种子词w中第i个扩充词ci出现的词频,v(w,ci)是候选种子w与其扩充词ci的语义相关值,m为扩充词数量;步骤(3.2)、计算F2中候选种子词的熵权重SHW,计算公式(2)(3)如下:SHW(w)=Σi=1np(si)*log2p(si)---(2)]]>p(si)=f(si)/Σi=1nf(si)---(3)]]>其中,SHW(w)是候选种子w的熵权重值,p(si)是候选种子w中第i个扩充词ci出现的概率,f(si)是候选种子s中第i个扩充词出现的词频,m为扩充词数量;步骤(3.3)、在所有候选种子词中,选取满足条件SFW>α,SHW>β的词作为种子词,α,β为设定的阈值,F2中移除不满足条件的候选种子词及该词的对应扩充词,所得词典构成F3={w′1,R(w′1),w′2,R(w′2),…,w′h,R(w′h)}。步骤(4)情感扩充词的验证和情感类型判断步骤(4.1)、统计每个扩充词c在词典中对应的种子词列表fw(c),对扩充词c,检测所有种子词w∈F3,如果c∈R(w),则fw(c)=fw(c)∪{w},步骤(4.2)、计算每个扩充词的词频权重EFW和熵权重EHW,扩充词c基于词频权重的计算公式(4)如下所示:EFW(c)=SFW(w1)+SFW(w2)+…+SFW(wn),wi∈fw(c) (4)其中,SFW(wi)是扩充词c对应的种子词wi的词频权重,基于熵权重的计算公式(5)如下所示:EHW(c)=SHW(w1)+SHW(w2)+…+SHW(wn),wi∈fw(c) (5)其中,SHW(wi)是扩充词c对应的种子词wi的熵权重,步骤(4.3)、在所有候选扩充词中,选取满足条件EFW>α’,EHW>β’的词作为扩充词,α’,β’为设定的阈值,直接删去词表中不满足条件的候选扩充词;步骤(4.4)、为扩充词确定情感类型针对一个扩充词对应多个不同情感类型的种子词的情况,在其对应种子词中选取出现频率最高的情感类型作为该扩充词的情感类型,所得词典记作F4;步骤(5)通过基于规则的方法扩充多情感词典。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710719716.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种用于变压器油箱箱沿的钻孔工装
- 下一篇:铣床装置