[发明专利]一种基于CNN-GRNN的读者情绪分布预测算法有效
申请号: | 201710792420.1 | 申请日: | 2017-09-05 |
公开(公告)号: | CN107608956B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 彭志平;张琦;崔得龙;李启锐;何杰光 | 申请(专利权)人: | 广东石油化工学院 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G06F16/35;G06N3/08 |
代理公司: | 广州润禾知识产权代理事务所(普通合伙) 44446 | 代理人: | 郑永泉 |
地址: | 525000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 cnn grnn 读者 情绪 分布 预测 算法 | ||
1.一种基于CNN-GRNN的读者情绪分布预测算法,其特征在于,包括如下步骤:
S1、将文本的多个句子合并为一个数据集,通过每个句子对应的矩阵计算句子特征向量;
S2、序列层:按上下文顺序从上到下依次对每个句子的句子特征向量进行迭代,每迭代一次就得到一个隐含层向量,并计算每个隐含层向量的注意力概率权重,将每个隐含层向量和相对应的注意力概率权重相乘后累加得到语义编码,再结合语义编码和最后迭代得到的隐含层向量进行聚合运算得到文本特征向量;
S3、设文本情绪标签数目为k,将文本特征向量转换成长度等于k的向量,通过回归模型得到文本的情绪标签分布;
所述步骤S2中引入用于感知语义特征的上下文向量uc,通过该向量计算每个隐含层向量hi的注意力概率权重αi,具体公式为ui=tanh(Wahi+ba)及其中,Wa和ba分别表示系数矩阵和偏置向量,Wa、ba和uc通过训练获得,L为隐含层向量的数量,ui为感知隐含层向量hi所对应句子的重要语义特征的向量。
2.根据权利要求1所述的读者情绪分布预测算法,其特征在于,所述步骤S2中文本特征向量通过d=tanh(Wpv+WxhL)得到,其中hL表示最后迭代得到的隐含层向量,v表示语义编码,Wp和Wx是不同的系数矩阵,它们的值通过训练获得。
3.根据权利要求1所述的读者情绪分布预测算法,其特征在于,所述步骤S1分为输入层和句子特征提取层:
S11、输入层:设数据集中句子的最大词数量n作为每一句的固定长度,句子中的每个词用词向量至表示,设词向量的维度为d,数据集中词数量不足n的句子,其中缺少的词向量从高斯分布中随机初始化,将数据集中每个句子用矩阵表示为
S12、句子特征提取层:通过每个句子对应的矩阵计算句子特征向量。
4.根据权利要求3所述的读者情绪分布预测算法,其特征在于,所述步骤S12中的句子特征提取层包括卷积层和下采样层,每个句子对应的矩阵先后经过卷积层和下采样层后得出句子特征向量。
5.根据权利要求4所述的读者情绪分布预测算法,其特征在于,所述卷积层的步骤为:设定不同大小的滤波器,分别对句子矩阵进行连续的卷积操作,每次连续的卷积操作后均得到多个特征映射数组;下采样层的步骤为:分别对所有特征映射数组进行采样,得到的多个局部最优特征值,并将其组合成句子特征向量。
6.根据权利要求5所述的读者情绪分布预测算法,其特征在于,所述卷积层的卷积操作具体为:
在包含n个词向量的句子矩阵中,采用大小为h的滤波器进行卷积操作,其公式为yi=f(W·xi:i+h-1+b),其中yi表示特征映射数组中的第i个元素,xi:i+h-1代表h个词组成的局部单词窗口,其中,W为系数矩阵,b为偏置系数,它们的值通过训练获得。
7.根据权利要求1至6任一项所述的读者情绪分布预测算法,其特征在于,所述步骤S3中,通过softmax回归模型得到文本的情绪标签分布:p(x,θ)=softmax(Wsdx+bs);其中p是k维的多项式分布,分别表示k个情绪标签所占的比重,Ws和bs分别表示系数矩阵和偏置系数,它们的值通过训练集训练获得,dx指文本特征向量,x∈D,D为训练集,θ表示softmax回归模型中所要调整的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东石油化工学院,未经广东石油化工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710792420.1/1.html,转载请声明来源钻瓜专利网。