[发明专利]一种结合情感强度的文本TF-IDF特征重构法有效

申请号：	201910224082.0	申请日：	2019-03-22
公开（公告）号：	CN110096597B	公开（公告）日：	2023-07-04
发明（设计）人：	邓修齐;康琦;张量	申请（专利权）人：	同济大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/33;G06F40/284;G06F40/247
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	赵继明
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结合情感强度文本 tf idf 特征重构法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种结合情感强度的文本TF‑IDF特征重构法，通过正则匹配方法对表情和用户名进行提取和分割，依据强度词典和否定词、程度副词、重复词的位置关系对词语强度进行修正，通过基于Word2Vec的近义词替换方法对生词进行替换，从而对文本的TF‑IDF特征向量进行重构。与现有技术相比，本发明考虑否定词、程度副词、重复词等情况，对词语的TF‑IDF特征进行修正，保留词语的强度、位置等信息；用训练集中出现过的熟词替换测试集上的生词，增强泛化性能；使用时可直接将原句子作为输入，不需要手动进行分词。

技术领域

本发明属于自然语言处理中的分类领域，涉及一种文本分类预处理方法，尤其是涉及一种结合情感强度的文本TF-IDF特征重构法。

背景技术

当下的自然语言处理和机器学习领域，常用词频-逆向文本频率(TermFrequency–Inverse Document Frequency，简称TF-IDF)构造得到文本的特征向量。以微博为代表的网络语言包含表情、用户名等特殊语言成分，现有方法没有对它们进行处理，造成信息的混淆；中文文本中的否定词、程度副词、重复词语等要素会直接影响文本的情感强度与极性，现有方法得到的特征向量无法保留这些信息，造成信息的失准；在测试集和实际运用中的一些不在训练集里的生词，现有方法会将他们舍弃，造成了信息的丢失。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种文本情感分析预处理方法，通过正则匹配方法对表情和用户名进行提取和分割，依据强度词典和否定词、程度副词、重复词的位置关系对词语强度进行修正，通过基于Word2Vec的近义词替换方法对生词进行替换，从而对文本的TF-IDF特征向量进行重构。。

本发明的目的可以通过以下技术方案来实现：

一种结合情感强度的文本TF-IDF特征重构法，包括以下步骤：

S1，构建停用词典、程度词典和否定词典，所述的程度词典中的词语为具有情感强度等级的程度副词，所述的否定词典中的词语为否定词；

S2，获取待分析的文本，以标点符号为分界点，将文本分割为多个子句；

S3，遍历子句中的每个词语并记录它们出现的次数和位置，删去其中的停用词，对程度副词后面的词语进行情感强度修正，对否定词后面的词语进行情感极性的翻转；

S4，对每一段待分析的文本新建一个空白字典，用词语作索引，用词语的情感强度、数量作键值，遍历每个词语，如果当前词语是停用词、程度副词或否定词，则跳过该词语不做任何操作；如果现有字典中不包含当前词语，则将该词语存进字典；如果字典中已经存在了当前词语，则更新字典中对应词语的情感强度和数量；

S5，提取文本的TF-IDF特征值，分别将每个词语的TF-IDF值与字典中相应的情感强度相乘，得到重构后的特征值：

TF-IDF_new,w＝TF-IDF_w×deg_w

其中，TF-IDF_new,w为重构后的词语w的TF-IDF特征值，TF-IDF_w为词语w的原始TF-IDF特征值，deg_w为词语w的情感强度。

所述的停用词典包括英文字符、数字和数学字符。