[发明专利]一种基于词性结合和特征选择的情感分类方法有效
申请号: | 201810554926.3 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108874937B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 施佺;郑亚平;邵叶秦;王晗;周晨璨 | 申请(专利权)人: | 南通大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 吴静安;吴扬帆 |
地址: | 226000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词性 结合 特征 选择 情感 分类 方法 | ||
本发明的基于词性结合和特征选择的情感分类方法,包括如下步骤:首先初始化词语‑词性Word2vec模型;其次对数据进行预处理操作,并基于情感词典从预处理过后的数据中选择具有情感信息的特征词;然后将文本的每个特征词和词性相结合,将文本转化为词语词性对序列文本;再通过词语‑词性Word2vec模型得到词语词性对序列文本的每个特征词的向量,并对每一条文本按维度将词语的向量相加后取平均值来表示文本,从而得到文本的特征向量;最后利用SVM分类器得到情感分类模型。有益效果为:采用情感词典提取特征词,凸显具有单情感信息的特征词;另一方面基于短语结构优化分词提取出情感倾向性的短语结构,把词语和词性相结合解决一词多义的问题。
技术领域
本发明涉及计算机科学领域,尤其涉及一种基于词性结合和特征选择的情感分类方法。
背景技术
随着社交网络平台特别是微博的快速发展,大量网民能更加便捷地对社会事件发表意见和表达自己的情感,由此产生了海量的微博评论数据,这些数据背后蕴含了丰富的观点和情感信息,针对微博文本的海量数据如何深入分析挖掘其情感倾向已经成为一个热门的研究方向。传统的情感分类方法只关注词汇特征和句法特征,忽略了词语间的语义特征。
传统的Word2vec训练出来的词向量模型尽管能够反映词与词之间潜在的语义关联,但是在训练模型时往往存在一些问题,一是Word2vec工具不能直接提取出更能反映文本情感倾向的短语结构,例如,“不开心”被分为“不”和“开心”, Word2vec训练时是按照“不”和“开心”两个词进行上下文语义的学习,不能直接学习到“不开心”这个短语的矢量。二是不能区分相同词语在不同词性下的语义,例如,“小明买了一捆香,用于祭祀,可这次买的香太垃圾了”和“小明烧的饭可真香”,前一句中的“香”是名词,指的是祭祖或是敬神时所用的用木屑搀上香料做成的细条,没有感情色彩,是个中性词;后一句中的“香”是形容词,形容气味好闻,是个褒义词。由此看出,同一个词在不同语境下会有不同的含义,更带有不同的感情色彩,如果直接将词不带区分的训练,这样训练出来的模型会产生语义的歧义,从而给分类模型训练带来了噪声干扰,因此本文提出基于短语结构和词语词性相结合的方法来解决上述问题。
传统的数据存储和处理方式,大大浪费了计算机的资源与时间。且传统的 Hadoop集群由于其分步处理的机制,限制了其性能效率,对于磁盘的I/O开销极大。
发明内容
本发明目的在于克服上述现有技术的不足,提供了一种基于词性结合和特征选择的情感分类方法,具体由以下技术方案实现:
所述基于词性结合和特征选择的情感分类方法,对文本进行情感进行积极与消极的二元分类,包括如下步骤:
步骤1)初始化词语-词性Word2vec模型。
步骤2)对文本进行预处理操作,并基于情感词典从预处理过后的文本数据中选择具有情感信息的特征词。
步骤3)将文本的每个特征词和词性相结合,将文本转化为“词语词性对”序列文本。
步骤4)通过所述词语-词性Word2vec模型得到“词语词性对”序列文本的每个特征词的向量,并对每一条文本按维度将词语的向量相加后取平均值来表示文本,得到文本的特征向量。
步骤5)将所述特征向量作为SVM分类器的输入得到情感分类模型。
所述基于词性结合和特征选择的情感分类方法的进一步设计在于,所述步骤 1)具体为:首先将多元搭配情感词典导入到Pyton Jieba分词工具的用户自定义词典后对训练词向量的大规模语料进行优化分词操作;再将分词后的文本的每个词语和词性相融合构成“词语词性对”序列文本,表示方式为(词语,词性)的形式;最后通过Word2vec工具训练所述“词语词性对”序列文本得到词语-词性 Word2vec模型。
所述基于词性结合和特征选择的情感分类方法的进一步设计在于,步骤2) 中预处理操作是指对文本数据进行清洗操作、分词操作以及去停用词操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810554926.3/2.html,转载请声明来源钻瓜专利网。