[发明专利]一种客户端短信过滤嵌入式特征库及更新方法有效
申请号: | 201410126384.1 | 申请日: | 2014-04-01 |
公开(公告)号: | CN104156228B | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 包理群;伍忠东;王海兵;马忠彧;李锦珑;王宏斌 | 申请(专利权)人: | 兰州工业学院 |
主分类号: | G06F9/445 | 分类号: | G06F9/445;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 730050 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 客户端 短信 过滤 嵌入式 特征 更新 方法 | ||
技术领域
本发明属于垃圾短信过滤技术领域,涉及一种嵌入式特征库及更新方法。具体地说,涉及一种客户端短信过滤嵌入式特征库及更新方法。
背景技术
随着移动通信技术的飞速发展和手机等移动终端的快速普及,使短信的使用率迅速增加,短信因其低廉、方便、快捷等特点,给广大使用者带来了方便,但也滋生了以传播色情、广告、欺诈等不良信息的垃圾短信,严重干扰人们的生活,甚至给用户造成了巨大的经济损失。
目前常用短信过滤方法及机制有:基于关键词过滤、基于短信发送量及发送方分析过滤、基于内容过滤等。关键字过滤机制中的关键字主要依靠人工添加,具有滞后性、且受制于关键字的更新能力,因此关键字过滤的误报率及漏报率较高;基于短信发送量及发送方分析的过滤多采用对同一主叫号码的发送频次进行统计的方式,但短信发送者经常通过改变发送方式来逃避这种过滤机制,例如采用多个号码分批次发送的方式;目前对短信过滤的研究主要沿用基于内容的垃圾邮件过滤算法,它采用机器学习方法把短信自动分为正常短信和垃圾短信,例如贝叶斯、支持向量机和人工免疫等,其优点是过滤准确率高,存在的问题是这些方法运算量大且需要训练样本集的支持,而因涉及隐私等问题,公开的短信训练样本缺乏,给短信过滤研究带来了困难。短信文本短小、特征数据不足,影响过滤准确率,因此特征词的选取和特征库的建立对垃圾短信过滤显得尤为重要。
从实现的角度,垃圾短信过滤又分为短信服务中心的短信过滤和手机等移动终端的客户端短信过滤。基于内容的垃圾短信过滤存在大量运算,其学习和更新需要更多系统资源,适合在短信服务中心服务器上运行,但巨大短信流量带来的过滤任务会导致短信服务中心网络拥塞等问题;另一方面统一的过滤器较难满足用户的个性化需求,而且一旦在短信服务中心的过滤中出现分类错误,将会直接导致短信无法送达客户端。
基于内容的客户端垃圾短信过滤更为便捷和保密,它可以根据用户需求学习和生成过滤系统,保证用户隐私不被侵犯的同时达到较好的过滤效果。但与个人电脑或服务器相比,手机等移动终端的计算速度和存储能力有限,无法运行基于内容的智能过滤系统,现有的客户端短信过滤基本采用黑白名单和关键词过滤,这种简单的过滤方式不具有智能性,无法适应新的短信内容和不断变化的用户需求。
发明内容
本发明的目的在于克服现有客户端短信过滤缺乏样本库和因硬件资源受限而无法运行基于内容的智能过滤系统的现状,提供一种用于客户端短信过滤的嵌入式特征库及更新方法。一是通过将特征库更新模块与实时短信分类模块相分离,解决手机等移动终端硬件资源受限的问题,减轻客户端的实时处理负担;二是通过嵌入式特征库的创建和生成解决客户端垃圾短信过滤研究缺乏训练样本的现状;三是通过嵌入式特征库的更新使过滤系统能即时适应于不断变化的短信内容和用户过滤需求。
为了达到上述目的,本发明采用的技术方案如下。
一种客户端短信过滤嵌入式特征库生成及更新方法,包括以下步骤:
步骤1,在移动终端上创建嵌入式特征库,从初始训练样本中提取特征数据,形成嵌入式特征库的初始数据;
步骤2,将基于内容的客户端垃圾短信过滤系统划分为特征库更新模块和实时短信分类模块;
步骤3,对于待过滤短信,首先从中提取特征词,实时短信分类模块根据其特征词数据从嵌入式特征库中读取特征词相关统计数据,然后通过相应的分类运算得到类别信息;
步骤4,对于已分类短信,将其类别和特征词信息加入新短信特征表;
步骤5,根据新短信特征表,特征库更新模块对嵌入式特征库进行定期更新;
步骤6,用户可根据需求随时设置和更新嵌入式特征库中的类别信息。
所述初始训练样本要求每种短信类别至少包含一条短信训练样本。
所述嵌入式特征库的创建过程包括在移动终端上移植嵌入式数据库和设计数据逻辑模型,可存储在移动终端的SD卡上,用来保存短信样本中的特征数据。
所述嵌入式特征库包括3张数据表,分别是短信类别表、特征词信息表和特征词类别表。
1)短信类别表的属性项包括类别编号(主键)、类别名称、样本数目、是否为垃圾短信、类别的先验概率,类别名称可以由用户自己设置和更新,例如包括开票办证类、诈骗类、日常问候类、房产交易类、保险理财类等,每种类别可由用户设定是否为垃圾短信。类别Ck的先验概率P(Ck)按公式(1)进行计算。
其中表示Ck类短信总数,S表示所有短信样本总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰州工业学院,未经兰州工业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410126384.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:轻应用离线更新方法、装置及终端
- 下一篇:自定义Android设备桌面的方法