[发明专利]一种信息处理方法及装置在审
| 申请号: | 201410832128.4 | 申请日: | 2014-12-26 |
| 公开(公告)号: | CN105786792A | 公开(公告)日: | 2016-07-20 |
| 发明(设计)人: | 邓超;张峰;粟栗;冉鹏 | 申请(专利权)人: | 中国移动通信集团公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;孟桂超 |
| 地址: | 100032 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 信息处理 方法 装置 | ||
1.一种信息处理方法,其特征在于,所述方法包括:
根据待标定短信的文本内容,生成所述待标定短信的指纹;
将所述待标定短信的指纹同时与垃圾短信黑指纹库和正常短信白指纹库中 的指纹进行比对;
根据与所述垃圾短信黑指纹库中指纹的比对结果及与所述正常短信白指纹 库中指纹的比对结果,标定所述待标定短信为垃圾短信或正常短信。
2.根据权利要求1所述的方法,其特征在于,所述生成所述待标定短信的 指纹之前,所述方法还包括:
对所述文本内容进行预处理及去噪声处理;
相应地,根据预处理及去噪声处理后的文本内容,生成所述待标定短信的 指纹。
3.根据权利要求2所述的方法,其特征在于,所述对文本内容进行预处理 及去噪声处理,包括:
对短信文本内容进行英文字符剔除、以及电话号码和数字剔除的去噪声操 作。
4.根据权利要求1所述的方法,其特征在于,所述生成所述待标定短信的 指纹,为:
将所述待标定短信的文本内容,生成SimHash编码,以作为所述待标定短 信的指纹。
5.根据权利要求1所述的方法,其特征在于,所述将所述待标定短信的指 纹同时与垃圾短信黑指纹库和正常短信白指纹库中的指纹进行比对之前,所述 方法还包括:
依据对所有疑似短信的人工标定结果,建立所述垃圾短信黑指纹库和正常 短信白指纹库。
6.根据权利要求5所述的方法,其特征在于,建立所述垃圾短信黑指纹库 和正常短信白指纹库后,且将所述待标定短信的指纹同时与垃圾短信黑指纹库 和正常短信白指纹库中的指纹进行比对之前,所述方法还包括:
将建立指纹库时所用的垃圾短信集对所述正常短信白指纹库进行冲突检 测;根据检测结果对所述正常短信白指纹库中的指纹进行纠正;
将建立指纹库时所用的正常短信集对所述垃圾短信黑指纹库进行冲突检 测;根据检测结果对所述垃圾短信黑指纹库中的指纹进行纠正。
7.根据权利要求2所述的方法,其特征在于,将所述待标定短信的指纹同 时与垃圾短信黑指纹库和正常短信白指纹库中的指纹进行比对之前,所述方法 还包括:
确定预处理及去噪声处理后的文本内容对应的字符串长度大于设置的字符 串长度门限时,将所述待标定短信的指纹同时与垃圾短信黑指纹库和正常短信 白指纹库中的指纹进行比对。
8.根据权利要求2所述的方法,其特征在于,所述将所述待标定短信的指 纹同时与垃圾短信黑指纹库和正常短信白指纹库中的指纹进行比对,包括:
将预处理及去噪声处理后的文本内容对应的字符串作为索引,将所述待标 定短信的指纹同时与垃圾短信黑指纹库和正常短信白指纹库中的指纹进行比 对。
9.根据权利要求8所述的方法,其特征在于,所述将所述待标定短信的指 纹同时与垃圾短信黑指纹库和正常短信白指纹库中的指纹进行比对,为:
将所述标定短信的指纹同时与垃圾短信黑指纹库和正常短信白指纹库中的 指纹进行比对,得到对应的指纹相似度;
将得到的指纹相似度与对应的指纹相似度测度海明距离进行比较,从而确 定对比结果。
10.根据权利要求1所述的方法,其特征在于,所述根据与所述垃圾短信 黑指纹库中指纹的比对结果及与所述正常短信白指纹库中指纹的比对结果,标 定所述待标定短信为垃圾短信或正常短信,包括:
当与所述垃圾短信黑指纹库中指纹的比对结果为比对成功,且与所述正常 短信白指纹库中指纹的比对结果为比对失败时,标定所述待标定短信为垃圾短 信;或者,
当与所述垃圾短信黑指纹库中指纹的比对结果为比对失败,且与所述正常 短信白指纹库中指纹的比对结果为比对成功时,标定所述待标定短信为正常短 信;或者,
当与所述垃圾短信黑指纹库中指纹的比对结果为比对失败,且与所述正常 短信白指纹库中指纹的比对结果为比对失败时,标定所述待标定短信为待人工 标定短信。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410832128.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人机交互中自然语言意图理解方法
- 下一篇:远程阅读PDF文件的方法





