[发明专利]面向垃圾短信分类的离线模型改进与选择方法有效

专利信息
申请号: 201710409006.8 申请日: 2017-06-02
公开(公告)号: CN107256245B 公开(公告)日: 2020-05-05
发明(设计)人: 毛莺池;齐海;贾必聪;李晓芳;平萍;徐淑芳 申请(专利权)人: 河海大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 李玉平
地址: 211100 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 垃圾 短信 分类 离线 模型 改进 选择 方法
【权利要求书】:

1.一种面向垃圾短信分类的离线模型改进与选择方法,其特征在于,包括以下步骤:

(1)特征选择与扩展,使用特征选择方法选择特征,构造特征词向量,使用特征词向量模型表示原始短信文本,具体步骤为:

(1.1)基于统计阈值和平均信息增益的频繁词特征选择,阈值是可调参数,根据阈值选择频繁词作为特征词集,根据特征词集的平均信息增益变化情况决定是否继续调整阈值;

(1.2)基于N-Gram算法的双字词和组合词特征选择,基于N-Gram算法产生文字片断序列,根据步骤(1.1)得到的最优统计阈值过滤掉非频繁序列,将剩余的序列构建关联矩阵,矩阵元素为对应行列组合序列在垃圾短信文本中的出现频度,根据一定的标准筛选组合文字序列;

(1.3)非修饰性实词组合成元组特征,遍历所有的垃圾短信文本寻找名词+动词\形容词组合,根据一定的标准对所得元组特征进行筛选;

(1.4)基于累积信息增益的特征选择,对由以上步骤得到的词和组合词特征的合并结果,选择累积信息增益达到原始特征词信息增益总和的95%的特征词,进而构建特征词向量;

(2)离线分类算法及改进的调优训练与测试,对离线分类算法作面向垃圾短信分类的改进,根据各离线分类算法及改进对步骤(1)所得的训练集和测试集进行数据准备,使用训练集对各离线算法及改进进行调优训练和测试,具体步骤为:

(2.1)对离线分类算法作面向垃圾短信分类的改进,包括基于特定数据格式的LR,特定数据格式为:label index1:value1 index2:value2...,使用该特定数据格式,LR在计算系数向量和实例的内积时公式为:

w代表系数向量(矩阵),xi表示第i个实例向量(矩阵),l为第i个实例的长度即非零特征的数目,indexj代表实例向量xi第j个非零特征的下标,由于采用0、1词典模型,因此非零特征的值为1,其中label为实例类别标签,通常为整数,index是有序的非零特征的索引,value是对应的特征取值,由于采用词典模型,因此非零特征的值为1;差异化损失的AdaBoost决策时,在垃圾短信分类中,正常短信误判代价高于垃圾短信误判,因此提出差异化损失的改进,在每次迭代更新训练样本的权重时,如果在上一次迭代正确分类,更新式为如果在上一次迭代错误分类,更新式为

其中,wm,i是第m次迭代第i个实例向量的权重,Zm是规范化因子,αm是第m个基分类器的权重;wm+1,i是第m+1次迭代第i个实例向量的权重;e是自然底数;

(2.2)根据各离线分类算法及改进对步骤(1)所得的训练集和测试集进行数据准备;

(2.3)使用训练集对各离线算法及改进进行调优训练和测试,采用交叉验证调优SVM的模型参数,采用网格搜索寻找GBDT的最优参数,具体是:按照参数重要性次序进行调优,如果只对一个参数调优,那么根据该参数的取值区间构造参数向量,遍历向量中的所有取值,根据预测结果选最优;如果同时对两个参数进行调优,那么根据两个参数的取值区间构造二维的参数矩阵,形如网格,每个网格对应两个参数的取值组合,遍历所有的网格,基于预测结果选择最优参数组合,对于LR和AdaBoost,通过调整迭代次数得到最优模型,最优使用各个最优模型对测试集进行预测,其中GBDT为Gradient promotion decision tree梯度提升决策树;

(3)基于评价指标的离线分类算法选择,提出面向垃圾短信分类的评价指标,使用该评价指标对步骤(2)所得到的测试结果进行分析并选择最优离线分类算法,具体步骤为:

(3.1)提出面向垃圾短信分类的评价指标,包括准确率accuracy、正确率召回率和其中TP为真实类别为1(垃圾短信)并且预测为1的样本数目,FP为真实类别为0而预测为1的样本数目,FN为真实类别为1而预测为0的样本数目;

(3.2)使用步骤(3.1)提出的评价指标对步骤(2)所得到的测试结果进行分析并选择最优离线分类算法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710409006.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top