[发明专利]一种基于双通道文本卷积神经网络的带噪非法短文本识别方法在审
| 申请号: | 201811446969.6 | 申请日: | 2018-11-29 |
| 公开(公告)号: | CN109670041A | 公开(公告)日: | 2019-04-23 |
| 发明(设计)人: | 周建政;姚金良;黄金海;明建华;俞月伦 | 申请(专利权)人: | 天格科技(杭州)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06F17/21;G06F17/22;G06F17/26 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
| 地址: | 310005 浙江省杭州*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 卷积神经网络 短文本 双通道 文本 预处理 替换 同音字 拼音序列 噪声 非法 分类性能 实时识别 数字符号 消除噪声 形状相似 学习能力 英文字符 字符序列 语义 误检率 准确率 构建 建模 标准化 | ||
1.一种基于双通道文本卷积神经网络的带噪非法短文本识别方法,其特征在于包括如下步骤:
1)带噪短文本的预处理;
所述的步骤1)包括数字字符标准化、英文字符标准化、繁体中文字符转简体中文字符、特殊意义符号处理、去除夹杂噪声符号、连续数字字符统一表示、字符串切分和中文字符转拼音表示;
2)双通道文本卷积神经网络模型的构建;
所述的步骤2)具体为创建一个可以同时输入预处理后字符序列和拼音序列的文本卷积神经网络模型,用于消除同音字符替换对分类性能影响;
3)双通道文本卷积神经网络模型的训练和实时识别;其中训练过程通过样本实现参数的优化;实时识别过程为将短文本输入到模型并进行分类。
2.根据权利要求1所述的基于双通道文本卷积神经网络的带噪非法短文本识别方法,其特征在于所述的数字字符标准化是将形状相似或者语义一致但字符编码不同的数字字符转换为半角数字;英文字符标准化是将形状相似或者语义一致但字符编码不同的英文字符转换为小写英文字符。
3.根据权利要求1所述的基于双通道文本卷积神经网络的带噪非法短文本识别方法,其特征在于所述的去除夹杂噪声符号是对经过前序步骤处理过后的短文本过滤掉非中文字符、非英文字符和非数字字符的所有符号。
4.根据权利要求1所述的基于双通道文本卷积神经网络的带噪非法短文本识别方法,其特征在于所述的连续数字字符统一表示是将短文本中连续的数字字符根据数字字符的个数表示为“<num_n>”的形式,其中n表示连续的数字字符的个数,用于消除数字字符串的数据稀疏问题。
5.根据权利要求1所述的基于双通道文本卷积神经网络的带噪非法短文本识别方法,其特征在于所述步骤2)中的双通道文本卷积神经网络模型包括字符文本卷积神经网络和拼音文本卷积神经网络;其中一个的输入为字符序列,另一个的输入为拼音序列;
步骤2)具体为:构建一个词向量的嵌入层,用于将字符或拼音转换为词向量表示;然后对句子的词向量表示根据卷积的尺度进行卷积,一个卷积核得到若干个卷积结果;然后对所有的卷积结果进行非线性激活函数进行非线性处理;最后两个文本卷积神经网络经过最大值池化后,将得到的特征值拼接在一起,并通过全连接层输入到softmax中进行分类;
其中两个文本卷积神经网络可以设定不同的词向量长度、词汇、不同的卷积尺度。
6.根据权利要求1所述的基于双通道文本卷积神经网络的带噪非法短文本识别方法,其特征在于所述步骤3)中的训练过程具体为:
构建一个样本库,样本分为正负两类样本,分别表示非法的短文本和正常的短文本;每个样本通过预处理变换为字符序列,同时字符序列被转换为拼音序列;训练时将字符序列和对应的拼音序列分别输入到双通道文本卷积神经网络模型对应的输入项;并给定对应的样本标签,0表示正常,1表示非法;
双通道文本卷积神经网络模型训练时设定的损失函数为:
loss=tf.reduce_mean(loss1)+lambda*l2_loss。
其中
l2_loss为防止参数过拟合增加的参数正则项,loss1为交差熵损失函数;其首先对全连接层的输出进行softmax函数运算,
从而将输出转换为属于每个类的概率值;然后对softmax函数的输出与真实样本的标签做交差熵;Tf.reduce_mean函数用于计算loss1中一个batch的平均交差熵;Lambda为权重;
在训练时,将所有的样本都通过预处理转换为字符序列和拼音序列;然后根据训练样本分别构建字符和拼音的词汇表;再根据字符和拼音各自的词汇表将训练样本中的字符转换为数字id;然后连同样本标签分别输入到双通道文本卷积神经网络模型的字符序列的通道和拼音序列的通道;准备好训练数据后不断迭代一个batch的数据,并通过损失函数的梯度来更新参数,直至达到迭代终止条件。
7.根据权利要求1所述的基于双通道文本卷积神经网络的带噪非法短文本识别方法,其特征在于所述步骤3)中的识别过程具体为:
首先,导入经训练后的模型和模型参数,并导入训练时构建的词汇表;导入模型和模型参数采用TensorFlow的tf.train.import_meta_graph类的restore方法;导入词汇表采用TensorFlow中的VocabularyProcessor.restore函数;
然后,将需要测试的带噪短文本进行预处理得到词汇序列和拼音序列,然后将两个序列分别输入到双通道文本卷积神经网络模型对应的字符序列通道和拼音序列通道中,最后模型计算softmax的值,即可得到判断的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天格科技(杭州)有限公司,未经天格科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811446969.6/1.html,转载请声明来源钻瓜专利网。





