[发明专利]一种判别文本安全性的方法及装置在审
| 申请号: | 201510977485.4 | 申请日: | 2015-12-23 |
| 公开(公告)号: | CN106909534A | 公开(公告)日: | 2017-06-30 |
| 发明(设计)人: | 安宁宇;粟栗;张峰;孙洋;邵妍;李元锋 | 申请(专利权)人: | 中国移动通信集团公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京银龙知识产权代理有限公司11243 | 代理人: | 许静,安利霞 |
| 地址: | 100032 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 判别 文本 安全性 方法 装置 | ||
技术领域
本发明涉及通信互联网技术领域,尤其是涉及一种判别文本安全性的方法及装置。
背景技术
随着通信互联网的迅速发展,信息传播的速度越来越快,人们每天通过网络获得的信息也日渐增多。但由于信息监管的缺失,各种良莠不齐的内容例如广告、诈骗、反动等也随之传播。此外,该些内容传播的方式也是多种多样,例如,接收短信时会收到垃圾信息,浏览论坛会遇到不愿看到的广告,在游戏中聊天会碰到刷屏、污言秽语等。由此可以看出,种种违规信息的传播有愈演愈烈的趋势,该些内容不但对信息的使用者造成很大困扰,例如用户需要花费额外的时间去处理这些信息,而且一些违法信息也威胁着个人、公司、社会和国家方方面面的安全。因此,抑制违规信息的传播在通信互联网领域就成了一件迫在眉睫的大事。
现有的违规信息过滤方式主要基于三种模式:第一种是人工发现直接封堵,例如在论坛中版主去监管版面。第二种是用户举报后人工封堵,这种模式出现在手机短信、微信和QQ等即时通讯工具中。第三种是基于自动发现违规信息的模式去过滤,有些也配合人工封堵进一步操作,例如很多社会性网络服务SNS社交网站采用这种模式。
其中,在自动发现违规信息的模式中,主要采用以下两种技术:
第一种为敏感词过滤,敏感词过滤基本方法为,通过对文本与敏感词库中的敏感词进行匹配来查看文本中是否涉嫌违规信息。如果经过匹配发现文本中出现敏感词,则该文本被判定违规或者疑似违规。在一些方法中,也可能采取敏感词组合和筛选的方法进行过滤。
第二种为相似文本匹配,相似文本匹配基本方法为,对待判定文本与已判 定违规文本进行比较,若二者一致或者相似则对待判定文本进行判定。其中,指纹哈希算法、文本特征向量算法等均属于此类。
以上两种技术虽然实现了自动发现违规信息的目的,但是在准确率和效率方面也存在比较明显的确定。
针对敏感词过滤来说,如果敏感词配置得当,基于敏感词过滤的方法能发现绝大多数违规信息,覆盖率比较高。但是根据实验,相比较敏感词命中的违规信息,敏感词会命中更多的正常信息。例如“发票”这样的词语,除了违规广告使用之外,也是生活工作中常见的词汇。因此单纯使用敏感词过滤,会造成很多误判,可能影响正常的信息交流或加大下一步人工审核的负担。
针对相似文本匹配来说,通过对已有判定结果的文本内容进行学习,对未判定的文本内容进行判定。通常来讲这种方法具有比较高的准确率,但也存在两个问题,一是随着违规信息的不断变化,学习文本的数量会不断增长,随着学习库的越加庞大,文本匹配的效率会越来越慢。二是一些文本会出现少量语序变化,从而影响最终的匹配结果。例如“外卖专享,到家美食会5折”和“到家美食会5折登录订购吧”,这两条文本会被认为是两个不同内容,而不能被匹配系统做出有效判定。
综上所述,现有自动发现违规信息的模式对文本不能做出有效判断,并且增加了人工审核的负担,存在准确率及效率较低的问题。
发明内容
为了能够对文本做出有效判断,降低人工的判定工作量,提高文本判别的准确率和效率,本发明提供了一种判别文本安全性的方法及装置。
为了实现上述目的,本发明提供了一种判别文本安全性的方法,包括:
获取待判别文本,并提取所述待判别文本的文本字符;
根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果,其中,所述不同判断条件的判定参数为根据预先存储的已判定文本获得的;
根据所获得的不同判断条件的判定结果,确定所述待判别文本的最终判定结果。
可选的,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,不同判断条件至少包括:字符内容分析、文本长度分析、黑名单匹配和敏感词匹配。
可选的,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果之前,所述方法还包括:对预先存储的已判定文本进行分析,并从所述已判定文本中分析得到不同判断条件的判定参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510977485.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:餐吊灯(6013)
- 下一篇:吊灯(MD170303系列)





