[发明专利]一种信息处理方法及装置在审
| 申请号: | 201410832128.4 | 申请日: | 2014-12-26 |
| 公开(公告)号: | CN105786792A | 公开(公告)日: | 2016-07-20 |
| 发明(设计)人: | 邓超;张峰;粟栗;冉鹏 | 申请(专利权)人: | 中国移动通信集团公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;孟桂超 |
| 地址: | 100032 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 信息处理 方法 装置 | ||
技术领域
本发明涉及无线通信中的数据业务领域,尤其涉及一种信息处理方法及装 置。
背景技术
随着电信用户规模和互联网即时通信和社交类应用的迅猛发展,各类以短 文本形式产生的信息,迅速积累和传播。其中各种涉及违法、诈骗、色情、广 告、骚扰等类型的垃圾信息或不良信息成为用户和运营商头痛的问题。
目前,垃圾短信的识别和过滤技术,受垃圾邮件识别和过滤技术的影响较 大,主要包括:黑白名单方法、用户行为规则方法、短信正文关键词规则方法、 基于短信文本内容挖掘建模的方法。但是,这些方法存在机器自动识别垃圾短 信误判率高、漏判率高、过滤比不高等问题,从而导致这些方法都只能作为辅 助方案,不能完全代替人工审核。也就是说,这些方法只能作为疑似垃圾短信 的发现阶段,然后上报人工审核,增加了人工成本。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种信息处理方法及装置。
本发明实施例提供了一种信息处理方法,包括:
根据待标定短信的文本内容,生成所述待标定短信的指纹;
将所述待标定短信的指纹同时与垃圾短信黑指纹库和正常短信白指纹库中 的指纹进行比对;
根据与所述垃圾短信黑指纹库中指纹的比对结果及与所述正常短信白指纹 库中指纹的比对结果,标定所述待标定短信为垃圾短信或正常短信。
上述方案中,所述生成所述待标定短信的指纹之前,所述方法还包括:
对所述文本内容进行预处理及去噪声处理;
相应地,根据预处理及去噪声处理后的文本内容,生成所述待标定短信的 指纹。
上述方案中,所述对文本内容进行预处理及去噪声处理,包括:
对短信文本内容进行英文字符剔除、以及电话号码和数字剔除的去噪声操 作。
上述方案中,所述生成所述待标定短信的指纹,为:
将所述待标定短信的文本内容,生成SimHash编码,以作为所述待标定短 信的指纹。
上述方案中,所述将所述待标定短信的指纹同时与垃圾短信黑指纹库和正 常短信白指纹库中的指纹进行比对之前,所述方法还包括:
依据对所有疑似短信的人工标定结果,建立所述垃圾短信黑指纹库和正常 短信白指纹库。
上述方案中,建立所述垃圾短信黑指纹库和正常短信白指纹库后,且将所 述待标定短信的指纹同时与垃圾短信黑指纹库和正常短信白指纹库中的指纹进 行比对之前,所述方法还包括:
将建立指纹库时所用的垃圾短信集对所述正常短信白指纹库进行冲突检 测;根据检测结果对所述正常短信白指纹库中的指纹进行纠正;
将建立指纹库时所用的正常短信集对所述垃圾短信黑指纹库进行冲突检 测;根据检测结果对所述垃圾短信黑指纹库中的指纹进行纠正。
上述方案中,将所述待标定短信的指纹同时与垃圾短信黑指纹库和正常短 信白指纹库中的指纹进行比对之前,所述方法还包括:
确定预处理及去噪声处理后的文本内容对应的字符串长度大于设置的字符 串长度门限时,将所述待标定短信的指纹同时与垃圾短信黑指纹库和正常短信 白指纹库中的指纹进行比对。
上述方案中,所述将所述待标定短信的指纹同时与垃圾短信黑指纹库和正 常短信白指纹库中的指纹进行比对,包括:
将预处理及去噪声处理后的文本内容对应的字符串作为索引,将所述待标 定短信的指纹同时与垃圾短信黑指纹库和正常短信白指纹库中的指纹进行比 对。
上述方案中,所述将所述待标定短信的指纹同时与垃圾短信黑指纹库和正 常短信白指纹库中的指纹进行比对,为:
将所述标定短信的指纹同时与垃圾短信黑指纹库和正常短信白指纹库中的 指纹进行比对,得到对应的指纹相似度;
将得到的指纹相似度与对应的指纹相似度测度海明距离进行比较,从而确 定对比结果。
上述方案中,所述根据与所述垃圾短信黑指纹库中指纹的比对结果及与所 述正常短信白指纹库中指纹的比对结果,标定所述待标定短信为垃圾短信或正 常短信,包括:
当与所述垃圾短信黑指纹库中指纹的比对结果为比对成功,且与所述正常 短信白指纹库中指纹的比对结果为比对失败时,标定所述待标定短信为垃圾短 信;或者,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410832128.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人机交互中自然语言意图理解方法
- 下一篇:远程阅读PDF文件的方法





