[发明专利]基于多模态特征和情感词典的文本抑郁倾向检测系统有效
申请号: | 202110583446.1 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113361252B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 王红;张慧;庄鲁贺;韩书;李威;杨杰;王正军;杨雪;滑美芳 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/211;G06F40/216;G06F40/242;G06F40/284;G06F40/30;G06F16/35;G06N3/0464;G06N3/0442;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 祖之强 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 特征 情感 词典 文本 抑郁 倾向 检测 系统 | ||
1.一种基于多模态特征和情感词典的文本抑郁倾向检测系统,其特征在于:包括:
数据获取模块,被配置为:获取待处理的文本数据,对获取的文本数据进行预处理;
对获取的文本数据进行预处理,包括:
从文本数据中提取标题、内容和标签,去除由于已删除内容而缺少的数据以及不相关数据,将文本数据转换为小写字母;
词嵌入模块,被配置为:根据预处理后的文本数据和预设词嵌入模型,得到词嵌入向量;
情感特征向量获取模块,被配置为:根据预处理后的文本数据和预设情感词典,得到每个词的二维情感特征向量;
对SenticNet4.0情感词典进行扩充,包括:融入常用的网络表情符号、常用网络流行用语的情感以及常用俚语;
单词级特征向量获取模块,被配置为:提取文本数据中的词性特征向量,依次与二维情感特征向量和词嵌入向量拼接后,得到单词级别的特征向量表示;
提取基于扩充后的SenticNet4.0情感词典的二维情感特征向量,提取单词的一维词性特征,将两者进行拼接,得到每个单词的三维特征向量表示,将三维特征向量表示与词嵌入向量进行拼接,得到单词级别的特征向量表示;
句子级特征向量获取模块,被配置为:提取文本数据中的词频特征向量,得到句子级别的特征向量表示;
提取n-gram的TF-IDF词频特征,选取TF-IDF词频矩阵中互信息最大的预设个数特征作为文本的向量表示,进而得到句子级别的特征向量表示;
分类模块,被配置为:根据单词级别的特征向量表示、句子级别的特征向量表示以及预设CNN-BiLSTM网络模型,得到最终的分类结果;使用深度学习模型进行特征提取,分别将CNN模型应用于303维的特征表示向量vi和1000维的特征表示向量ti,两者分别经过CNN模型后,得到:
Vi=CNN(vi) (4)
Ti=CNN(ti) (5)
其中,Vi,Ti分别表示经过CNN模型后生成的高层特征;
将得到的Vi,Ti特征向量进行融合,作为Bi-LSTM模型的输入;
MixedFeature=concatenate(Vi,Ti) (6)
Fea=BiLSTM(MixedFeature) (7)
其中,MixedFeature表示融合后的特征向量,Fea表示融合后的特征向量经过BiLSTM模型得到的输出向量;
最后,将高层特征Fea输入到Sigmoid层进行分类,得到最终的预测结果Result:
Result=Sigmoid(Fea) (8)。
2.如权利要求1所述的基于多模态特征和情感词典的文本抑郁倾向检测系统,其特征在于:
分类模块中,将单词级别的特征向量表示和句子级别的特征向量表示,分别输入到预设卷积神经网络中,将两个卷积神经网络输出的高层特征进行融合后输入到预设Bi-LSTM网络模型中,得到分类结果。
3.如权利要求1所述的基于多模态特征和情感词典的文本抑郁倾向检测系统,其特征在于:
利用情感词典提取文本数据中词的情感属性特征,包括积极属性和消极属性,对情感属性特征进行数值化处理,令积极属性的值为1,消极属性的值为-1,结合预处理后的文本数据,得到每个词的二维情感特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110583446.1/1.html,转载请声明来源钻瓜专利网。