[发明专利]一种基于情感词随机共现网络的细粒度情感分类方法有效

专利信息
申请号: 201610936655.9 申请日: 2016-10-24
公开(公告)号: CN106547866B 公开(公告)日: 2017-12-26
发明(设计)人: 马力;刘锋;李培;白琳;宫玉龙;杨琳 申请(专利权)人: 西安邮电大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 西安智大知识产权代理事务所61215 代理人: 段俊涛
地址: 710121 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于情感词随机共现网络的细粒度情感分类方法,采用随机网络理论,利用词语共现现象,经过情感本体词汇词库的标注,形成一个以情感特征构建的基于词语顺序的随机网络模型,即情感词共现网络模型,在此基础上进行模型约简,将情感词最长匹配方法和TC算法结合进行SWLM‑TC无监督学习分类,或进一步将情感词最长匹配方法和HMM机器学习算法结合建立细粒度情感分类模型并利用该模型实现分类预测;本发明可实现段落级文本的细粒度情感分类,提高了单纯TC算法的精度,使分类更加准确,使用SWLM‑TC对样本集进行HMM模型训练之后并对待测样本库进行情绪分类,提高了单纯机器学习算法的自动化。
搜索关键词: 一种 基于 情感 随机 网络 细粒度 分类 方法
【主权项】:
一种基于情感词随机共现网络的细粒度情感分类方法,采用随机网络理论,利用词语共现现象,经过情感本体词汇词库的标注,形成一个以情感特征构建的基于词语顺序的随机网络模型,即情感词共现网络模型,在此基础上进行模型约简,将情感词最长匹配方法(SWLM,Sentimental Word Longest Match)和TC算法结合进行SWLM‑TC无监督学习分类,或进一步将情感词最长匹配方法和HMM机器学习算法结合建立细粒度情感分类模型并利用该模型实现分类预测,其中,所述情感词共现网络模型的构建过程如下:1)对每个文本执行分句操作得到一组有序的句子S1→S2→…→Sn;2)对每一个句子Si进行分词,滤除停用词以及无意义的实词,使用情感词汇本体库进行情感词标注,得到一组有序的情感词W1→W2→…→Wn;3)对每个句子,采用WL位滑动窗从句子中抽取词汇对<wi,wj>,若则向W中添加一个新节点wi,并为wi的权重nwi设初始值为1;否则nwi加1,若则向E中添加一条新边(wi,wj),并为(wi,wj)的权重nwi,wj设初始值为1;否则nwi,wj加1;4)所有文本处理完成之后,网络模型G建立完成;其中,S表示由多条句子组成的序列,w表示抽取出的情感词,w∈∑,∑为汉语词汇集,汉语词汇集为去除停用词、无意义实词后再经过情感词汇本体库标注后的情感本体词集;W为网络模型G的节点集合,W={wi|i∈[1,N]},N为G的节点个数;E为网络模型G的边集合,网络模型G的边的个数为M,E={(wi,wj)|wi,wj∈W,且wi和wj之间存在顺序共现关系},(wi,wj)表示从节点wi指向节点wj的有向边;NW为网络模型G中节点的权重,NW={nwi|wi∈w};NE为网络模型G中边的权重,表示节点wi与wj之间边的权重,NE={nwi,wj|(wi,wj)∈E};将网络模型G按照乐、好、怒、哀、惧、恶、惊七种情绪分成7个子网络,子网络拆分过程中,如果有断裂的情况发生,使用权重最高的那个节点与断裂的网络子块进行连接,构建可用于细粒度计算的七个子网络Gx|x={1,2,3,4,5,6,7}即G1,G2,G3,G4,G5,G6,G7;其特征在于,在进行分类时,具有如下定义:最长权重匹配路径长度dmax(S):网络Gx|x={1,2,3,4,5,6,7},如果两个情感词顺序覆盖,则使用直接相连的边进行匹配,如果两个情感词在网络Gx中存在网络间隔,则选择路径的时候选择通过权重最大的节点进行匹配,即为S的长度,计算公式如下:dmax(S)=Σi=1n-1dmax(wi,wi+x)]]>其中dmax(wi,wi+x)是网络中第i个词到第i+x词的最大权重匹配路径;情感权重系数SW(Sentimetal weight):网络G中,七个子网络各自所占的情感极性比重,使用此系数会让分类更加明显,减少因为界限模糊引起的分类问题,令情感词网络中词的重现次数为freq,极性强度为P,计算公式如下:WCi=freq×PWy=Σi=1nWCi]]>SWx=Wyi/Σi=17Wyi]]>其中WC为子网络中每个词的情感数值,Wy为子网络的情感数值,SWx为子网络x的SW值,即情感权重系数;分类系数CC(Classification coefficient):在最大匹配词路径确定之后,这条路径上的词语的重现度Re和情感强度power,假设有n个词,则计算公式如下:CCi=Re×powerCC=Σi=1nCCi]]>其中CCi是单个词的分类系数;分类预测系数CPC(Classification prediction coefficient):在使用机器学习算法进行分类时,对于无法判断样本的分类采取的预测机制;按照SWx进行排序,如果SW1+SW2>80%,SW1/SW2>1.5,则归入SW1下,如果SW1+SW2>80%,SW1/SW2<=1.5,在这种情况下归入SW1和SW2两个属性下;如果SW1+SW2<80%,则表示这篇文章的分类比较复杂,按照分类系数归入相应的分类下:
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学,未经西安邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610936655.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top