[发明专利]一种基于张量融合方式的情感分类的方法有效
申请号: | 201811441312.0 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109614487B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 李玉军;王玥;冀先朋 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 杨树云 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 张量 融合 方式 情感 分类 方法 | ||
1.一种基于张量融合方式的情感分类的方法,其特征在于,包括:
(1)数据预处理:将原始数据处理成三句话格式,得到文本数据;将原始标签转换成数字化表示,积极情感用1表示,消极情感用0表示;
(2)训练词向量:将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量,训练集即步骤(1)获取的文本数据;
(3)针对具体任务建模:利用双向LSTM编码由步骤(1)得到的文本数据,双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;针对文本数据中的每一个样本,处理成三句话格式后包含三个子句,每个子句都由LSTM编码得到对应的特征向量,三个子句对应得到三个特征向量;
(4)张量融合:采用张量融合的方式将步骤(3)输出的三个特征向量进行融合,具体融合方法是将三个特征向量利用外积的方式相乘,设定zl,zv,za,分别表示三个子句经Bi-LSTM编码后的输出的三个特征向量,先将zl,zv,za这三个特征向量两两之间互相做外积,得到三个二维矩阵,对应三个平面,再将这三个平面中的每个点对应相乘得到三维张量,融合完成;并将融合之后形成的特征向量送往分类器进行情感分类;
(5)训练模型;将步骤(1)得到的文本数据打乱后分成若干份,设定为N份,每次取N-1份做训练,1份做验证,做N次交叉验证,得到最终实验结果。
2.根据权利要求1所述的一种基于张量融合方式的情感分类的方法,其特征在于,所述步骤(2),训练词向量,包括:
A、下载维基百科2011年11月6日全天的英文数据作为初始训练数据,并对初始训练数据进行清洗,去掉没有意义的特殊字符和格式,将HTML格式的数据处理成TXT格式的数据;
B、将步骤A处理后的数据喂入Word2vec进行训练,训练时,采用skip-gram模型,窗口大小设为3-8,迭代周期设为2-15,设定词向量的维度是200-400维,训练结束后,得到一个词向量映射表;
C、根据步骤B得到的词向量映射表,获取训练集的每一个词对应的词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811441312.0/1.html,转载请声明来源钻瓜专利网。