[发明专利]一种结合情感强度的文本TF-IDF特征重构法有效
| 申请号: | 201910224082.0 | 申请日: | 2019-03-22 | 
| 公开(公告)号: | CN110096597B | 公开(公告)日: | 2023-07-04 | 
| 发明(设计)人: | 邓修齐;康琦;张量 | 申请(专利权)人: | 同济大学 | 
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F40/284;G06F40/247 | 
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵继明 | 
| 地址: | 200092 *** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 结合 情感 强度 文本 tf idf 特征 重构法 | ||
1.一种结合情感强度的文本TF-IDF特征重构法,其特征在于,包括以下步骤:
S1,构建停用词典、程度词典和否定词典,所述的程度词典中的词语为具有情感强度等级的程度副词,所述的否定词典中的词语为否定词;
S2,获取待分析的文本,以标点符号为分界点,将文本分割为多个子句;
S3,遍历子句中的每个词语并记录它们出现的次数和位置,删去其中的停用词,对程度副词后面的词语进行情感强度修正,对否定词后面的词语进行情感极性的翻转;
S4,对每一段待分析的文本新建一个空白字典,用词语作索引,用词语的情感强度、数量作键值,遍历每个词语,如果当前词语是停用词、程度副词或否定词,则跳过该词语不做任何操作;如果现有字典中不包含当前词语,则将该词语存进字典;如果字典中已经存在了当前词语,则更新字典中对应词语的情感强度和数量;
S5,提取文本的TF-IDF特征值,分别将每个词语的TF-IDF值与字典中相应的情感强度相乘,得到重构后的特征值:
TF-IDFnew,w=TF-IDFw×degw
其中,TF-IDFnew,w为重构后的词语w的TF-IDF特征值,TF-IDFw为词语w的原始TF-IDF特征值,degw为词语w的情感强度;
所述的步骤S4中,当文本中所有词语都存入词典后,还进行词语的情感强度的加权操作,具体包括以下步骤:
1)用词语的总情感强度Dict[w][deg]除以词语出现次数Dict[w][count],得到文本中词语w的平均情感强度
2)计算词语w的真实情感强度:
其中,M为激励值,N为文本中词语w出现总次数。
2.根据权利要求1所述的一种结合情感强度的文本TF-IDF特征重构法,其特征在于,所述的停用词典包括英文字符、数字和数学字符。
3.根据权利要求1所述的一种结合情感强度的文本TF-IDF特征重构法,其特征在于,所述的待分析文本为包含用户名和表情的微博文本,所述的步骤S2中,首先使用正则匹配法对文本中的用户名和表情进行匹配和提取,将它们与普通文本区分开,以避免它们中带情感倾向的词语对整体文本的情感的影响。
4.根据权利要求3所述的一种结合情感强度的文本TF-IDF特征重构法,其特征在于,文本中的用户名为@符号后的文本,表情为[]符号内的文本。
5.根据权利要求1所述的一种结合情感强度的文本TF-IDF特征重构法,其特征在于,所述的步骤S2中,每个子句的分界点为标点符号。
6.根据权利要求5所述的一种结合情感强度的文本TF-IDF特征重构法,其特征在于,所述的标点符号不包括顿号、引号、破折号、单引号和冒号。
7.根据权利要求1所述的一种结合情感强度的文本TF-IDF特征重构法,其特征在于,所述的步骤S3中,词语的情感强度计算公式为:
其中,degw为词语w的情感强度,该词语前面带有m个程度副词,n个否定词,pow为程度副词的强度值。
8.根据权利要求7所述的一种结合情感强度的文本TF-IDF特征重构法,其特征在于,所述的步骤S3中,若出现否定词在程度副词之前的情况,则对应的词语的的情感强度修正为:
9.根据权利要求1所述的一种结合情感强度的文本TF-IDF特征重构法,其特征在于,该方法在初始化时,先构造一个列表,用于存储训练时出现的所有词语,在步骤S4中,将词语与列表进行对比,当词语为列表中不存在的生词时,使用近义词替换方法,用列表中相似度最高的词语替换该生词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910224082.0/1.html,转载请声明来源钻瓜专利网。





