[发明专利]面向垃圾短信分类的离线模型改进与选择方法有效
申请号: | 201710409006.8 | 申请日: | 2017-06-02 |
公开(公告)号: | CN107256245B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 毛莺池;齐海;贾必聪;李晓芳;平萍;徐淑芳 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 垃圾 短信 分类 离线 模型 改进 选择 方法 | ||
1.一种面向垃圾短信分类的离线模型改进与选择方法,其特征在于,包括以下步骤:
(1)特征选择与扩展,使用特征选择方法选择特征,构造特征词向量,使用特征词向量模型表示原始短信文本,具体步骤为:
(1.1)基于统计阈值和平均信息增益的频繁词特征选择,阈值是可调参数,根据阈值选择频繁词作为特征词集,根据特征词集的平均信息增益变化情况决定是否继续调整阈值;
(1.2)基于N-Gram算法的双字词和组合词特征选择,基于N-Gram算法产生文字片断序列,根据步骤(1.1)得到的最优统计阈值过滤掉非频繁序列,将剩余的序列构建关联矩阵,矩阵元素为对应行列组合序列在垃圾短信文本中的出现频度,根据一定的标准筛选组合文字序列;
(1.3)非修饰性实词组合成元组特征,遍历所有的垃圾短信文本寻找名词+动词\形容词组合,根据一定的标准对所得元组特征进行筛选;
(1.4)基于累积信息增益的特征选择,对由以上步骤得到的词和组合词特征的合并结果,选择累积信息增益达到原始特征词信息增益总和的95%的特征词,进而构建特征词向量;
(2)离线分类算法及改进的调优训练与测试,对离线分类算法作面向垃圾短信分类的改进,根据各离线分类算法及改进对步骤(1)所得的训练集和测试集进行数据准备,使用训练集对各离线算法及改进进行调优训练和测试,具体步骤为:
(2.1)对离线分类算法作面向垃圾短信分类的改进,包括基于特定数据格式的LR,特定数据格式为:label index1:value1 index2:value2...,使用该特定数据格式,LR在计算系数向量和实例的内积时公式为:
w代表系数向量(矩阵),xi表示第i个实例向量(矩阵),l为第i个实例的长度即非零特征的数目,indexj代表实例向量xi第j个非零特征的下标,由于采用0、1词典模型,因此非零特征的值为1,其中label为实例类别标签,通常为整数,index是有序的非零特征的索引,value是对应的特征取值,由于采用词典模型,因此非零特征的值为1;差异化损失的AdaBoost决策时,在垃圾短信分类中,正常短信误判代价高于垃圾短信误判,因此提出差异化损失的改进,在每次迭代更新训练样本的权重时,如果在上一次迭代正确分类,更新式为如果在上一次迭代错误分类,更新式为
其中,wm,i是第m次迭代第i个实例向量的权重,Zm是规范化因子,αm是第m个基分类器的权重;wm+1,i是第m+1次迭代第i个实例向量的权重;e是自然底数;
(2.2)根据各离线分类算法及改进对步骤(1)所得的训练集和测试集进行数据准备;
(2.3)使用训练集对各离线算法及改进进行调优训练和测试,采用交叉验证调优SVM的模型参数,采用网格搜索寻找GBDT的最优参数,具体是:按照参数重要性次序进行调优,如果只对一个参数调优,那么根据该参数的取值区间构造参数向量,遍历向量中的所有取值,根据预测结果选最优;如果同时对两个参数进行调优,那么根据两个参数的取值区间构造二维的参数矩阵,形如网格,每个网格对应两个参数的取值组合,遍历所有的网格,基于预测结果选择最优参数组合,对于LR和AdaBoost,通过调整迭代次数得到最优模型,最优使用各个最优模型对测试集进行预测,其中GBDT为Gradient promotion decision tree梯度提升决策树;
(3)基于评价指标的离线分类算法选择,提出面向垃圾短信分类的评价指标,使用该评价指标对步骤(2)所得到的测试结果进行分析并选择最优离线分类算法,具体步骤为:
(3.1)提出面向垃圾短信分类的评价指标,包括准确率accuracy、正确率召回率和其中TP为真实类别为1(垃圾短信)并且预测为1的样本数目,FP为真实类别为0而预测为1的样本数目,FN为真实类别为1而预测为0的样本数目;
(3.2)使用步骤(3.1)提出的评价指标对步骤(2)所得到的测试结果进行分析并选择最优离线分类算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710409006.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法和系统
- 下一篇:基于卷积神经网络的印花织物图像检索方法