[发明专利]一种基于深度学习算法的异常垃圾短信识别方法及系统在审
| 申请号: | 201810916290.2 | 申请日: | 2018-08-13 |
| 公开(公告)号: | CN109299251A | 公开(公告)日: | 2019-02-01 |
| 发明(设计)人: | 赵生捷;姜倩云;杨恺 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;H04W4/14;H04W12/12 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 蔡彭君 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 短信文本 垃圾短信识别 拼音文本 学习算法 拼音 预处理 卷积神经网络 垃圾短信 符号库 预配置 去除 | ||
1.一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,包括:
步骤S1:基于预配置的符号库去除短信文本中的干扰符号;
步骤S2:将去除了干扰符号的短信文本进行文字转拼音,得到对应的拼音文本;
步骤S3:将步骤S2中得到的拼音文本和短信文本同时作为卷积神经网络的输入进行识别以判断是否为垃圾短信。
2.根据权利要求1所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,所述步骤S1具体为:识别短信文本中存在被收录入符号库中的干扰符号,并去除识别得到的干扰符号。
3.根据权利要求1所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,所述干扰符号为与语义无关联的标点和特殊字符。
4.根据权利要求1所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,所述步骤S3具体包括:
步骤S31:将步骤S2中得到的拼音文本和短信文本分别作为卷积神经网络的输入,得到两个卷积层的特征向量;
步骤S32:将两个卷积层的特征向量分别进行池化操作,得到两个池化层的特征向量;
步骤S33:将两个池化层的特征向量拼接后作为该短信的结构化文本表示;
步骤S34:基于该短信的结构化文本判断是否为垃圾短信。
5.根据权利要求4所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,所述步骤S34具体为:采用异常检测分类器对基于该短信的结构化文本进行异常检测,并将检测结果为异常的短信作为垃圾短信。
6.根据权利要求4所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,所述异常检测分类器的训练过程的样本分类不均,进行过采样过程平衡样本。
7.根据权利要求6所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,所述过采样过程包括:
步骤S51:任意选定一个少数类的样本集中的样本;
步骤S52:从少数类的样本集中提取选定样本的多个近邻;
步骤S53:从提取的近邻样本中随机选择一个样本,与选定样本进行合成得到一个新样本:
xi1=xi+ζ1·(xi(nn)-xi)
其中:xi1为合成得到的新样本,xi为选定样本,xi(nn)为从提取的近邻样本中随机选择得到的样本,ζ1为0~1之间的随机数;
步骤S54:重复步骤S43设定次数后,从原始少数类的样本集中选定一个新样本,并重复步骤S42。
8.根据权利要求1所述的一种基于深度学习算法的异常垃圾短信识别方法,其特征在于,所述方法还包括:
步骤S4:计算识别结果的准确率、正确率、召回率和综合评分进行评价,其中所述综合评分为:
F1Score=P*R/2(P+R)
其中:F1Score为综合评分,P为正确率,R为召回率。
9.一种用于实现权利要求1~5中任一所述的基于深度学习算法的异常垃圾短信识别方法的系统,其特征在于,包括:
文本预处理模块(1),用于对短信文本进行预处理,去除其中的干扰符号;
汉字转拼音模块(2),与文本预处理模块(1)连接,用于将经过文本预处理模块(1)处理后的短信文本转化为拼音;
文本表示模块(3),分别与文本预处理模块(1)和汉字转拼音模块(2)连接,基于经过文本预处理模块(1)处理后的短信文本以及对应的拼音形式得到短信文本的结构化文本表示;
异常检测模块(4),与文本表示模块(3)连接,基于短信的结构化文本判断是否为垃圾短信。
10.根据权利要求6所述的系统,其特征在于,所述系统还包括累不平衡问题处理模块,用于对训练器训练用样本的少数类的样本进行过采样处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810916290.2/1.html,转载请声明来源钻瓜专利网。





