[发明专利]一种基于HowNet的短文本情感识别方法无效
| 申请号: | 201110121862.6 | 申请日: | 2011-05-11 | 
| 公开(公告)号: | CN102163191A | 公开(公告)日: | 2011-08-24 | 
| 发明(设计)人: | 毛峡;江琳 | 申请(专利权)人: | 北京航空航天大学 | 
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 | 
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 | 
| 地址: | 100191*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 hownet 文本 情感 识别 方法 | ||
(一)技术领域
本发明涉及一种文本情感识别方法,主要涉及自然语言处理领域以及情感计算领域。
(二)背景技术
现阶段人机交互接口主要基于自然语言,而用于人机交互的文本都属于短文本。短文本具有简洁、灵活,。因此对于文本得情感推理研究可以促进人机交互接口向着更智能的方向发展。同时对于文本的情感识别可以为其他形式的情感识别提供辅助作用,比如说语音及表情。
PAD模型是Mehrabian和Russell提出的情感维度测量模型。该模型将情绪分为:愉悦度(Pleasure)——表示个体情感状态的正负特性,激活度(Arousal)——表示个体神经生理激活水平;优势度(Dominance)——表示个体对情境和他人的控制状态。PAD模型不但给出了对情感空间进行描述的理论构想,同时采用量化的方法试图建立情感空间中各种情绪范畴的定位和关系。
HowNet(知网)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。
对于文本的情感识别方法目前主要有关键词定位法,词法关系法。对于关键词定位法对于包含情感词汇的句子有很好的识别效果,但对于无情感词汇的句子失效。而词法关系仅仅考虑了词汇表面的关系,未深入考虑其语义关系。而结合HowNet常识库以及PAD模型可以解决文本情感识别缺乏语义基础及情感模型的问题。因此,提出一种精确、高效的文本情感识别方法具有很强的现实意义。
(三)发明内容
本发明要解决的问题是提供一种准确识别短文本情感的方法。
本发明提供了一种基于HowNet的短文本情感识别方法,包括以下步骤:
(1)构建情感词典;
(2)利用词法分析系统ICTCLAS2011对句子分词;
(3)根据词的不同词性,对分词结果进行处理;
(4)根据义原抽取规则,从HowNet中抽取词汇义原,并从情感词典中获取PAD值;
(5)根据情感产生规则识别句子的PAD值,用来表征句子情感。
在上述方法中步骤(1)中情感词典的建立如下所述:
从HowNet中的10类义原中选取下列类型义原:Event|事件、Entity|实体、Attribute|属性、Attribute Value|属性值、Secondary Feature|次要特征,并从中选取表征情感的义原对其进行PAD值的标注,标注范围为[-1,1]。而对于义原中表示程度级别的词语则根据其对情感的影响程度赋予相应的系数。
除了HowNet中的义原,叹词、拟声词、语气词也会纳入情感词典。对这些词汇,则根据其情感表达方式选择其对PAD中哪一个值有影响作用,并赋予相应的情感系数,形式如<factor,category>。
情感词典的结构如下所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110121862.6/2.html,转载请声明来源钻瓜专利网。





