[发明专利]一种基于张量融合方式的情感分类的方法有效

专利信息
申请号: 201811441312.0 申请日: 2018-11-29
公开(公告)号: CN109614487B 公开(公告)日: 2021-07-13
发明(设计)人: 李玉军;王玥;冀先朋 申请(专利权)人: 山东大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/289;G06F40/30
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 杨树云
地址: 250199 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 张量 融合 方式 情感 分类 方法
【权利要求书】:

1.一种基于张量融合方式的情感分类的方法,其特征在于,包括:

(1)数据预处理:将原始数据处理成三句话格式,得到文本数据;将原始标签转换成数字化表示,积极情感用1表示,消极情感用0表示;

(2)训练词向量:将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量,训练集即步骤(1)获取的文本数据;

(3)针对具体任务建模:利用双向LSTM编码由步骤(1)得到的文本数据,双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;针对文本数据中的每一个样本,处理成三句话格式后包含三个子句,每个子句都由LSTM编码得到对应的特征向量,三个子句对应得到三个特征向量;

(4)张量融合:采用张量融合的方式将步骤(3)输出的三个特征向量进行融合,具体融合方法是将三个特征向量利用外积的方式相乘,设定zl,zv,za,分别表示三个子句经Bi-LSTM编码后的输出的三个特征向量,先将zl,zv,za这三个特征向量两两之间互相做外积,得到三个二维矩阵,对应三个平面,再将这三个平面中的每个点对应相乘得到三维张量,融合完成;并将融合之后形成的特征向量送往分类器进行情感分类;

(5)训练模型;将步骤(1)得到的文本数据打乱后分成若干份,设定为N份,每次取N-1份做训练,1份做验证,做N次交叉验证,得到最终实验结果。

2.根据权利要求1所述的一种基于张量融合方式的情感分类的方法,其特征在于,所述步骤(2),训练词向量,包括:

A、下载维基百科2011年11月6日全天的英文数据作为初始训练数据,并对初始训练数据进行清洗,去掉没有意义的特殊字符和格式,将HTML格式的数据处理成TXT格式的数据;

B、将步骤A处理后的数据喂入Word2vec进行训练,训练时,采用skip-gram模型,窗口大小设为3-8,迭代周期设为2-15,设定词向量的维度是200-400维,训练结束后,得到一个词向量映射表;

C、根据步骤B得到的词向量映射表,获取训练集的每一个词对应的词向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811441312.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top