[发明专利]一种利用代表向量过滤信息的方法和装置有效
| 申请号: | 201310259175.X | 申请日: | 2013-06-26 |
| 公开(公告)号: | CN104252465B | 公开(公告)日: | 2018-10-12 |
| 发明(设计)人: | 苏江 | 申请(专利权)人: | 南宁明江智能科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 贾磊 |
| 地址: | 530003 广西壮族自治区南*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 利用 代表 向量 过滤 信息 方法 装置 | ||
本发明涉及信息分析技术领域,具体而言,本发明涉及一种利用代表向量过滤信息的方法和装置。其中信息过滤方法包括将信息转换为信息向量;将所述信息向量中相似的信息向量置于同一信息向量组中;找出信息向量组中的代表向量;将待分析信息转换为信息向量,与所述代表向量相比较,如果与所述代表向量匹配则滤除所述待分析信息。通过上述本发明实施例的方法及装置,可以减少信息过滤中匹配的次数,缩小匹配数据库的规模,并且过滤信息准确率很高。
技术领域
本发明涉及信息分析技术领域,具体而言,本发明涉及一种利用代表向量过滤信息的方法和装置。
背景技术
短信,微信,微博,电子邮件,可以利用一个发送账号向一个或多个接受账号发送文本信息,这类通讯方式,在成为一种流行的沟通方式的同时,也为垃圾信息的传播提供了渠道。
以现有技术中的短信息为例,垃圾短消息的问题日益泛滥。垃圾短消息中的广告短消息不但影响了客户感知、损害客户利益,而且部分违法的垃圾信息还影响了社会稳定和国家安全。因此对垃圾短消息智能识别分类和拦截的研究成了目前移动运营商重要的课题。
目前对垃圾信息的识别和治理方式是可以分为以下几种:
(1)黑名单过滤,如中国专利申请201110182348.3、201010561642.0和201010184392.3。即判断是否短信发送号码是否在已知的黑名单列表中。建立黑名单可以由行为分析,如是否群发短信等完成。
(2)内容过滤,使用预设关键字,如中国专利申请201210580601.5和201210498100.2。即判断是否短信中包含预设关键字/组,然后加上一定的行为分析。
或使用文本分类模型,对短信语义内容加以判断。如中国专利申请201110003289.9和201010225273.8。
目前短信过滤的主要缺点是误判率高。例如,垃圾短信发送人员利用植入木马的方式盗用用户号码发送短信,可能造成黑名单过滤误判大量短信。另外,大量诈骗短信使用的都是正常关键字。例如短信“你想有.张能听:对#方#谈#话,收,到,对#方,信#息,的咔.吗”,很难找出合适的误判率低的关键字/组。
即使找出,也可以轻易修改关键字逃避监管。例如,对发票短信“如↓正需↓规各↓税类↓据→→×××××××××”,运营商花费了大量人力物力,
在几年的时间内,对该条发票短信设置了上千个关键字/组,但该条短信的变种还是每天都出现在短信网上。使用机器学习中的文本分类方法,在已分类短信上训练分类模型,
再使用模型对短信内容进行自动分类是目前研究的重点。但是,由于文本分类中训练和过滤数据分布不一致造成的概念漂移,以及类不平衡问题,常常造成误判,使得实际应用时误判率无法达到要求。
为解决高误判率问题,系统中常常需要大量客服人员解决误判带来的一系列问题,或需要人工座席判断是否垃圾短信等。
由于现有短信过滤系统的高误判率问题,造成运营商由于担心影响生产或高昂的系统使用费用,常常不敢启用过滤系统,使得许多垃圾短信系统形同虚设。
运营商急需一套误判率小于万分之一,系统的使用无需专人管理的自动化的过滤系统,以实现在不影响短信正常使用,以较低的费用,达到治理垃圾短信的目的。
发明内容
为了解决现有技术中信息分析中的问题,提出了一种利用代表向量过滤信息的方法和装置。在本发明中,我们使用垃圾短信作为发明的一个实施说明和举例,但本发明的所有技术均适用于其他类似通讯手段,包括但不限于短信,微信,微博,电子邮件等。
本发明实施例提供了一种利用代表向量过滤信息的方法,包括,
将信息转换为信息向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南宁明江智能科技有限公司,未经南宁明江智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310259175.X/2.html,转载请声明来源钻瓜专利网。





