[发明专利]一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法有效
| 申请号: | 202011169632.2 | 申请日: | 2020-10-28 |
| 公开(公告)号: | CN112199503B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 宦海;严嘉宇;陈逸飞;李鹏程;朱蓉蓉;刘源 | 申请(专利权)人: | 南京信息工程大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06N3/0442;G06N3/08 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210044 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 增强 平衡 bi lstm 中文 文本 分类 方法 | ||
1.一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法,其特征在于,包括以下步骤:
(1)预先获取若干条中文文本;
(2)使用BERT预训练模型将获取的文本矢量化处理;
(3)利用非平衡Bi-LSTM网络提取文本的深层特征;
(4)利用多层注意力机制从词、句两个层级对深层特征信息加以权重;
(5)使用Softmax函数对文本进行分类;
所述步骤(3)的实现过程如下:
在非平衡Bi-LSTM网络的前后向两层的每个基础LSTM单元进行循环,提取语义特征,之后通过权重β整合前后向特征,形成下一层的输入向量H:
H=β·hforward+(1-β)·hbackward (8)
其中,hforward为前向输出信号,hbackward为后向输出信号,β为前后向权重系数;
所述步骤(4)的实现过程如下:
(41)将网络层输入的经过特征提取的文本向量,从单词一级对每个词向量各加以权重,突出蕴含能够显示文本类别的关键词:
ui,t=tanh(Wwordhi,t+bword) (7)
其中,ui,t为hi,t的隐层表示,ai,t是经过归一化的权重系数,Wword和bword是随机初始化的系数矩阵和偏移量,之后会作为模型的参数参与训练,si是第i个句子的向量表示;
(42)从句子层级对文本中的每一句话加以权重,突出关键句:
ui=tanh(Wsenhi+bsen) (10)
其中,ui为hi的隐层表示,ai是经过归一化的权重系数,Wsen和bben是随机初始化的系数矩阵和偏移量,之后会作为模型的参数参与训练,v就是整个文本的向量表示;
(43)形成输出到最后的分类层。
2.根据权利要求1所述的基于特征增强的非平衡Bi-LSTM的中文文本分类方法,其特征在于,所述步骤(2)的实现过程如下:
(21)对输入文本进行编码将之矢量化,实际的输入值包含三个部分:词向量、句向量、位置向量;
(22)利用BERT预训练模型作为语言特征提取和表示方法,BERT模型采用层次架构的Transformer语言模型;BERT的预训练过程采用无监督方式,通过特殊的随机遮掩词和下一句预测机制实现对中文语料语义的理解;
(23)根据上下文对语义的理解对遮掩词进行预测,通过随机遮掩词与下一句预测的联合训练,以下一句预测的结果为方向引导,作为对随机遮掩词预测的修正,在削弱噪声影响的同时增强对文本语义的学习。
3.如权利要求1所述的基于特征增强的非平衡Bi-LSTM的中文文本分类方法,其特征在于,所述步骤(5)采用全连接层输出每条网络文本在不同类别标签上的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011169632.2/1.html,转载请声明来源钻瓜专利网。





