[发明专利]面向垃圾短信分类的离线模型改进与选择方法有效

专利信息
申请号: 201710409006.8 申请日: 2017-06-02
公开(公告)号: CN107256245B 公开(公告)日: 2020-05-05
发明(设计)人: 毛莺池;齐海;贾必聪;李晓芳;平萍;徐淑芳 申请(专利权)人: 河海大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 李玉平
地址: 211100 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 垃圾 短信 分类 离线 模型 改进 选择 方法
【说明书】:

发明公开了一种面向垃圾短信分类的离线模型改进与选择方法,包括以下步骤:(1)特征选择与扩展,使用特征选择方法选择特征,构造特征词向量,使用特征词向量模型表示原始短信文本;(2)离线分类算法及改进的调优训练与测试,对离线分类算法作面向垃圾短信分类的改进,根据各离线分类算法及改进对步骤(1)所得的训练集和测试集进行数据准备,使用训练集对各离线算法及改进进行调优训练和测试;(3)基于评价指标的离线分类算法选择,提出面向垃圾短信分类的评价指标,使用该评价指标对步骤(2)所得到的测试结果进行分析并选择最优离线分类算法。

技术领域

本发明涉及一种离线文本分类算法,具体涉及一种面向垃圾短信分类的离线 模型改进与选择方法,属于基于文本内容的垃圾短信识别技术领域。

背景技术

在文本分类问题中最重要的是选择和训练文本分类模型,文本分类的性能在 很大程度上取决于文本分类模型。近来,研究人员基于机器学习,结合统计学、 信息学等多学科理论提出各种各样的文本分类模型。

朴素贝叶斯分类算法是基于统计学的机器学习方法,被广泛应用于文本分类 问题。该算法基于特征独立性假设,虽然实际问题中特征之间往往存在相关性, 但是该假设简化了朴素贝叶斯分类模型的计算。在基于内容的垃圾短信分类问题 中,朴素贝叶斯分类算法取得了很好的预测性能。

决策分类树算法也是文本分类问题的常用算法,它使用训练数据集学习一棵 决策分类树,树中的每个节点对应一个特征,节点的每个分支对应基于该节点特 征的一个划分,树的叶子节点对应类别标签。目前有很多决策树构造方法,例如 基于信息增益的ID3算法、基于信息增益比的C4.5算法和基于基尼指数的CART 算法等。决策树分类算法应用于文本分类问题得到一组规则,沿着这些规则对测 试文本的对应特征进行判断,最终可以确定测试文本的类别。

感知机由Schutze等人首次应用到文本分类问题中。后来,应用于文本分类 问题的感知机算法经过大量的改进和优化,例如POSITIVE WINNOW、 BALANCED WINNOW、WIDROW-HOFF等等。感知机实际上是最简单的神经 网络,二者的区别在于,感知机学习得到的是线性分类模型,而神经网络得到的 是非线性的分类模型,但是感知机却能取得与神经网络近似的分类性能,并且训 练时间复杂度较低。

KNN算法基于距离度量函数选择与测试样本距离最近的k个训练样本,然 后使用多数表决的方法决定测试样本的类别。无需训练,但是分类误差也较大, 如果k值选择得过小,容易受到噪声数据的影响,如果k值选择得过大,这时与 测试样本距离较大(不相似)的训练样本也会对预测起作用,产生错误的预测结 果。在文本分类问题中,使用更多的是KNN与其他分类算法结合的分类模型, 例如最近邻和聚类算法、最近邻和最大后验估计等。

支持向量机分类算法被广泛应用于文本分类问题中,并且大量实验表明支持 向量机是准确率很高的分类模型。

近来,集成分类器越来越受到关注,其基本思想是“三个臭皮匠赛过一个诸 葛亮”,多个分类器的预测结果一定比单个分类器的更加可信,学习多个弱分类 器,最后综合每个弱分类器的分类结果作为最终预测结果。分类器集成规则主要 有多数表决规则(Majority Voting)、动态分类器选择(dynamicselection)、 线性加权组合规则(Weighted Linear Combination)、自适应分类器组合规则 (AdaptiveCombination)等。AdaBoost就是一种构建集成分类器的算 法,该算法通过动态改变样本权重分布学习多个弱分类器,采用的集成规则是线 性加权组合规则,根据弱分类器的分类误差率计算权值。

面向垃圾短信特征信息较为稳定的静态短信数据,本发明对离线分类算法进 行改进和选择,其中离线分类算法包括:LR、AdaBoost决策树、SVM和GBDT, 提出面向垃圾短信分类的评价指标,并基于评价指标进行离线模型选择。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710409006.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top