[发明专利]基于语料的情感词典构建方法有效
申请号: | 201410649358.7 | 申请日: | 2014-11-14 |
公开(公告)号: | CN104317965B | 公开(公告)日: | 2018-04-03 |
发明(设计)人: | 夏睿;王科;周清清;刘超 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 朱显国 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语料 情感 词典 构建 方法 | ||
技术领域
本发明属于人工智能发明技术,具体涉及一种基于语料的情感词典构建方法。
背景技术
现存的部分中文情感词典,都是通过人为总结一些常用的形容词来构建,效率低下,又不具有领域性。而中文没有类似于英文wordnet的词典,无法通过现有词典来构建情感词词典。基于语料的情感词典构建方法,将人们的语言习惯运用到文本的分析中,构造出积极和消极两类词典。即节省了劳动力成本,又具有领域性和对新词情感的判断力。
较早根据语言规则来分析语料、构建情感词典的是Hazivassiloglou和McKeown,他们利用一个语料库和形容词情感词种子集,根据语言规则,找出其他形容词的情感指向。比如利用“AND”,“BUT”等连词。他们还使用聚类算法来确定两个连词连接起来的词具有相同还是相反的极性,从而产生两个单词集。Kanayama和Nasukawa使用句内和句间情感一致性的概念来生成情感词典,句间一致性是因为通常相同情感的句子是连着的。情感改变通常是由转折词造成,比如“but”。但是他们对算法执行过程中得到的情感词的利用率较差。
发明内容
本发明的目的在于提供一种基于大规模语料的情感词典生成方法,该方法具有准确率高,节省时间等优点,可为评论分析提供重要的参考资料。
实现本发明目的的技术方案为:一种基于语料的情感词典构建方法,包括以下步骤:
第一步,利用中文分词工具,对语料进行预处理,将语料中连续的中文句子划分成一个个词或者字,用空格隔开,并标记词或者字的词性;
第二步,统计出语料中所有形容词的词频并按从高到低进行排序,取前5%-10%有确定情感极性的形容词作为种子词构成情感词库,并分析种子词的情感极性,将正面评价的词的极性称为积极的,将负面评价的词的极性称为消极的,分别构成两个种子词列表,这两个种子词列表作为情感词库的初始列表,初始词频为1;
第三步,取经过预处理的语料中的文本,若有需要分析的语料,按照标点对文本进行断句,得到多个分句,分句中不含标点,继续执行第四步;若没有需要分析的语料,则转至第六步;
第四步,搜索得到的每一个分句中的形容词,设定一个阈值K,在形容词所在位置的前K个词或字范围内遍历,根据汉语词典中指出的具有否定意义的词,判断是否有否定词,若有,则根据极性转移规则添加到相应列表中,否则停止寻找否定词;再根据汉语词典中指出的具有转折意义的词,判断该分句是不是以转折词开头,若是,则根据极性转移规则改变当前极性,否则极性不变;然后分别按极性转移规则将分句中的形容词添加到两个列表s和a中;
第五步,分析第四步得到的两个列表s和a的极性,即用情感词库中的种子词检验列表s和a的极性,若其中一个列表中含有积极种子词的数目不少于消极种子词的,则该列表中所有的词归为积极的,另一列表中的词则归为消极的;若两个列表中均分别含有相同数量的消极种子词和积极种子词,则返回第三步;否则,把两个列表s和a中判断出极性的形容词添加到情感词库的初始列表中作为种子词,若初始列表中已有该形容词,则把其词频加1,否则设置该形容词的词频为1,返回第三步;
第六步,对得到的最终的情感词库进行遍历,对同时被判断为积极和消极的词,取其词频,若属于积极的词频高,则该词为积极的,否则为消极的。
本发明和现有情感词构建方法相比,其显著优点为:(1)节省了时间和劳动力成本。该方法能根据语料自动抽取形容词作为情感词,并判别其情感极性,生成积极和消极两个情感词典。比人工标注大大节省时间和精力。(2)可靠性强。该情感词典构建方法多次遵循多数原则,针对可能出现的一些干扰情况做了处理,以保证算法的精确度。(3)通用性强。该算法能根据各个领域的语料,生成领域情感词。(4)生成的情感词典能为评论分析,自然语言处理提供重要的参考依据。
附图说明
图1是情感词列表归属判别流程图。
图2是情感词典生成流程图。
具体实施方式
本发明方法包括以下步骤:
第一步:利用已进行分词处理的语料,这些语料一般是主观的评论,将出现的形容词按词频从高到低排序,提取前5%~10%有确定情感极性的形容词,根据知网(Hownet)标注其情感极性作为种子词,构成情感词库;
第二步:按标点符号断句,生成一个个短句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410649358.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:天然气的生产方法及生产系统
- 下一篇:带有流入控制的可膨胀筛组件