[发明专利]一种基于HowNet的短文本情感识别方法无效
| 申请号: | 201110121862.6 | 申请日: | 2011-05-11 |
| 公开(公告)号: | CN102163191A | 公开(公告)日: | 2011-08-24 |
| 发明(设计)人: | 毛峡;江琳 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 hownet 文本 情感 识别 方法 | ||
1.一种基于HowNet的短文本情感识别方法,包括以下步骤:
(1)构建情感词典;
(2)利用词法分析系统ICTCLAS2011对句子分词;
(3)根据词的不同词性,对分词结果进行处理;
(4)根据义原抽取规则,从HowNet中抽取词汇义原,并从情感词典中获取PAD值;
(5)根据情感产生规则识别句子的PAD值,用来表征句子情感。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)从HowNet中的10类义原中选取下列类型义原:Event|事件、Entity|实体、Attribute|属性、AttributeValue|属性值、Secondary Feature|次要特征,并从中选取表征情感的义原对其进行PAD值的标注,标注范围为[-1,1];而对于义原中表示程度级别的词语则根据其对情感的影响程度赋予相应的系数;对叹词、拟声词、语气词根据其情感表达方式选择其对PAD中哪一个值有影响作用,并赋予相应的情感系数,形式如<factor,category>。
3.根据权利要求1所述的方法,其特征在于,所述步骤(2)利用ICTCLAS2011进行分词后,可以得到句子的基本成分,在这里选择其分词的形式为细粒度分词,并采用计算所二级标注。
4.根据权利要求1所述的方法,其特征在于,所述步骤(3)对于形容词、动词、名词、代词进行着重处理,而副词、语气词则作为辅助作用。而对于其他一些标点符号及数量词则进行冗余处理去除。
5.根据权利要求1所述的方法,其特征在于,所述步骤(4)对义原的抽取规则如下:
ER1:对于形容词,若在HowNet中的DEF项类型为Attribute Value|属性值,则选取其DEF项的第三个义原作为该词汇的最终义原表示;
ER2:对于名词,若在HowNet中的DEF项中出现*、%、#,则选择其后面的义原作为其最终义原;
ER3:对于动词,若在HowNet中的DEF项第一个为BeUnable|无能,则对其赋予一个否定系数-1,然后在从其他义原中选取合适的义原;
ER4:对于动词,若在HowNet中的DEF项中出现如下动态语义角色:manner、patient、content、isa、ResultIsa、ResultWhole、cause、StateFin、degree、purpose、state,则选择其后的义原作为最终义原,若同时出现多个动态语义角色,则优先选择排在前面的动态语义角色后面的义原。
6.根据权利要求1所述的方法,其特征在于,所述步骤(5)对句子的处理规则如下:
若句子中只有名词、代词、形容词,认为句子为主观句,即直接抒发个人的情感,这时选择形容词的PAD值作为主导,其对句子最终情感的影响系数为0.7,其他词对句子最终情感影响系数分别为0.3/其他词的个数;
若句子中出现动词,则认为句子为评价句,即对事实进行陈述。这时选择动词和名词作为情感产生的主要源头;首先,对形容词和名词的PAD值取平均数,得出名词的PAD值;而对于动词和名词,采取相与的规则产生句子的最终PAD值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110121862.6/1.html,转载请声明来源钻瓜专利网。





