[发明专利]一种客户端短信过滤嵌入式特征库及更新方法有效
申请号: | 201410126384.1 | 申请日: | 2014-04-01 |
公开(公告)号: | CN104156228B | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 包理群;伍忠东;王海兵;马忠彧;李锦珑;王宏斌 | 申请(专利权)人: | 兰州工业学院 |
主分类号: | G06F9/445 | 分类号: | G06F9/445;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 730050 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种客户端短信过滤嵌入式特征库及更新方法,在移动终端上创建嵌入式特征库;将基于内容的客户端垃圾短信过滤系统划分为特征库更新模块和实时短信分类模块,特征库更新模块对嵌入式特征库进行定期更新,用户也可随时设置和更新短信类别信息;实时短信分类模块只需从嵌入式特征库中读取相关数据、然后进行快速的运算便可将垃圾短信识别出来,提高短信实时分类的处理速度;运算复杂度较高的特征库更新模块可在移动终端应用程序空闲时执行或转换至PC机端执行。解决了现有客户端垃圾短信过滤缺乏样本库和因硬件资源受限无法直接运行现有智能过滤系统的现状,降低了移动客户端的实时处理负担,且满足不同用户的定制短信过滤需求。 | ||
搜索关键词: | 一种 客户端 短信 过滤 嵌入式 特征 更新 方法 | ||
【主权项】:
一种客户端短信过滤嵌入式特征库更新方法,其特征在于:(1)嵌入式特征库包括短信类别表、特征词信息表和特征词类别表,短信类别表中还包括属性“样本数目”和“类别的先验概率”,特征词类别表属性包括“特征词编号”、“类别编号”、“特征词在类中出现的次数”和“特征词在类中出现的概率”;(2)将基于内容的客户端垃圾短信过滤系统划分为特征库更新模块和实时短信分类模块;(3)对于新短信nsms,实时短信分类模块采用基于贝叶斯的多分类算法,查找嵌入式特征库,从中读取类别先验概率和特征词类条件概率,计算nsms属于每种类别的概率P(Ck|nsms),然后找到概率值最大的两种类别Ck1和Ck2,假设P(Ck1|nsms)大于P(Ck2|nsms),若Ck1和Ck2属于同一类别,则将短信归为这一类别;若Ck1属于垃圾短信类别,Ck2属于正常短信类别,则计算P(Ck1|nsms)与P(Ck2|nsms)的比值R,如果R大于给定的阈值,则将其归为垃圾短信,否则为正常短信;若Ck1属于正常短信类别,Ck2属于垃圾短信类别,则将其归为正常短信;(4)对于已分类短信,将其类别和特征词信息加入新短信特征表;(5)根据新短信特征表,特征库更新模块对嵌入式特征库进行定期更新;(6)所述特征库更新模块包括如下步骤:步骤1:根据新短信特征表中的类别信息,更新嵌入式特征库中的短信类别信息,所述嵌入式特征库中的短信类别信包括样本数目、是否为垃圾短信、类别的先验概率P(Ck);步骤2:对于新短信特征表中的每一个特征词,查找其在特征词信息表中是否存在,若存在则更新其在嵌入式特征库中的特征词信息和特征词类别信息,若不存在则在特征词信息表和特征词类别表中添加该特征词信息,所述嵌入式特征库中的特征词信息和特征词类别信息包括特征词权重、特征词在类中出现的次数、特征词在类中出现的概率P(ti|Ck);步骤3:如果嵌入式特征库中的特征词数目大于Nmax,则执行步骤4,否则结束;步骤4:将特征词信息表中特征词按照权重大小排序,删除权重最低的Ndelete个特征词,同时级联删除特征词类别表中的数据;所述步骤1和步骤2中对P(Ck)和P(ti|Ck)的更新都是通过对原有值乘以一个常数,然后再与一个常数做加法运算得到的,即通过简单的线性运算就可以得到更新后的数据,不需要重新统计;(7)用户可根据需求随时设置或更新嵌入式特征库中的类别信息;(8)如果用户变更了某一类别Ck的“是否为垃圾短信”属性,这时Ck类短信的样本数Ck类的样本中所有特征词出现的总次数和Ck类的样本中特征词ti出现的次数都不会发生变化,即类别Ck的先验概率P(Ck)和特征词在类中出现的概率P(ti|Ck)的值保持不变,因此嵌入式特征库中其它数据无需更改,短信分类模块可即时适应于新的类别设置。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰州工业学院,未经兰州工业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410126384.1/,转载请声明来源钻瓜专利网。
- 上一篇:轻应用离线更新方法、装置及终端
- 下一篇:自定义Android设备桌面的方法