[发明专利]基于改进GraphRNN的多标签文本分类系统及分类方法有效
申请号: | 202110853595.5 | 申请日: | 2021-07-28 |
公开(公告)号: | CN113297385B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 刘汉东;钟学燕;陈雁;王欣 | 申请(专利权)人: | 西南石油大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126;G06F40/289;G06N3/04 |
代理公司: | 四川猫博思知识产权代理有限公司 51334 | 代理人: | 张辉 |
地址: | 610500 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 graphrnn 标签 文本 分类 系统 方法 | ||
1.一种基于改进GraphRNN的多标签文本分类系统,所述分类系统包括编码器、解码器和Graph2Seq模块,输入信息由编码器进行编码,送入解码器生成标签图,再由Graph2Seq模块将生成的标签图转换为标签集;其特征在于:
所述解码器由改进GraphRNN构成,具体是:
基于GraphRNN图生成模型并对其进行改进,改进GraphRNN由节点生成和边生成组成,其中,所述节点生成添加softmax模块后生成标签节点,建模标签关联,所述边生成由二分类改为多分类,建模标签不同的关联程度,具体如下:
所述节点生成为:
节点生成以“BOS”作为初始输入节点,第时刻,输入包括、、,输出为节点概率分布,表示预测当前时刻节点为不同标签的概率,为当前时刻预测节点,为当前时刻以前预测出的所有节点,为单个样本的文本信息;为前一时刻预测节点的嵌入信息,为“BOS”的嵌入信息,为预测当前时刻节点时通过注意力机制从编码信息中获得的上下文信息,为前一时刻的隐状态;
计算过程如下式所示,为对于编码器第时刻的隐状态的注意力大小,为编码器的最后一个时刻,score函数用于计算和之间的注意力分数,softmax模块将输入向量转换为各元素在(0,1)之间且和为1的输出向量,tanh函数为一种非线性激活函数,、、均为将要学习的神经网络参数;
及计算分别如下式所示;
GRU为门控循环单元,表示图节点个数,初始隐状态为编码器最后时刻的隐状态,表示将要学习的神经网络参数;下标enc的表示编码过程,下标node的表示节点生成过程,表示编码过程中的隐状态,表示节点生成过程中的隐状态;根据节点概率分布,选择概率最大的标签作为第时刻的预测节点,用于后续边生成的节点嵌入从而得到;
所述边生成为:
在预测出节点以后,开始进行边生成,初始输入为“BOS”,每个时间步为多分类问题,边生成完毕时得到对应的邻接向量,指与前驱节点的连边关系,前驱节点即第时刻以前生成的节点;假定第一个节点对应的邻接向量均为零向量;边生成第步时,输入包括、、,输出为连边概率分布,下标edge表示边生成过程,表示边生成过程中的隐状态;表示和拼接后的向量,见下式:
表示节点生成过程中第时刻预测节点的嵌入信息,表示第步时预测边的嵌入信息,为“BOS”的嵌入信息;表示预测当前边时通过注意力机制从编码信息中获得的上下文信息,隐状态如下式所示,初始化为编码器最后时刻的隐状态,表示前驱节点个数,对应于邻接向量的元素个数;
经过softmax模块得到第步连边概率分布,如下式所示,为节点与节点的连边信息,为节点与第步以前的前驱节点的连边信息,表示要学习的神经网络参数;
当预测节点标签为“EOS”时,图生成完毕,得到节点集合和邻接向量集合,根据
2.根据权利要求1所述的一种基于改进GraphRNN的多标签文本分类系统,其特征在于,所述编码器具体为:
单个样本的文本信息,文本信息中表示某一个词,;单个样本的文本信息经过门控循环单元进行编码,第个时刻,词经过词嵌入得到作为输入,隐状态更新如下式所示;
在0时刻,隐状态初始化为0。
3.根据权利要求2所述的一种基于改进GraphRNN的多标签文本分类系统,其特征在于,所述Graph2Seq模块具体为:根据改进GraphRNN得到的标签图,Graph2Seq模块在标签图上进行广度优先搜索得到最终的标签集,作为多标签分类结果。
4.根据权利要求3所述的一种基于改进GraphRNN的多标签文本分类系统的分类方法,其特征在于,包括以下步骤:
步骤1:将原始样本的标签集转换为标签图;
步骤2:文本预处理,包括分词、词语向量化、划分数据集;
步骤3:划分数据集,分为训练集、验证集、测试集;
步骤4:训练分类系统,在验证集上调整超参数前驱节点个数
步骤5:将新样本送入训练好的分类系统,预测对应的标签结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学,未经西南石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110853595.5/1.html,转载请声明来源钻瓜专利网。