[发明专利]一种基于双通道文本卷积神经网络的带噪非法短文本识别方法在审

专利信息
申请号: 201811446969.6 申请日: 2018-11-29
公开(公告)号: CN109670041A 公开(公告)日: 2019-04-23
发明(设计)人: 周建政;姚金良;黄金海;明建华;俞月伦 申请(专利权)人: 天格科技(杭州)有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F17/27;G06F17/21;G06F17/22;G06F17/26
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 郑海峰
地址: 310005 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 卷积神经网络 短文本 双通道 文本 预处理 替换 同音字 拼音序列 噪声 非法 分类性能 实时识别 数字符号 消除噪声 形状相似 学习能力 英文字符 字符序列 语义 误检率 准确率 构建 建模 标准化
【说明书】:

发明涉及一种基于双通道文本卷积神经网络的带噪非法短文本识别方法。包括带噪短文本的预处理、双通道文本卷积神经网络模型的构建,以及模型的训练和实时识别。带噪短文本的预处理用于噪声字符的标准化,消除噪声的影响,提高卷积神经网络模型的学习能力。双通道文本卷积神经网络模型是一个可以同时输入预处理后字符序列和拼音序列的文本卷积神经网络模型。由于增加了拼音序列的输入和建模能力,因此该模型可消除同音字符替换对分类性能影响。本发明能够处理同音字符替换、形状相似的英文字符替换、各种语义相同的数字符号替换等带来的影响,实验结果显示本发明方法对带噪声的非法短文本的识别具有较高的识别准确率和较低的误检率。

技术领域

本发明属于计算机自然语言处理领域,涉及一种基于双通道文本卷积神经网络的带噪非法短文本识别方法。

背景技术

随着网络的快速发展,通过网络进行信息、观点的分享和通讯成为当前网络应用的重要方式。例如,通过BBS对某些问题进行讨论;通过微博发表观点、新闻和评论;通过即时通信工具进行交流;通过在新闻网站的评论页面进行评论;通过视频直播服务进行交流;以及当前流行的在视频播放时通过弹幕对视频内容进行评论等等。这种用户产生内容的模式方便了用户的信息分享和交流。但是这种互联网内容发布方式也容易被不法分子利用,发布一些非法的广告信息,其中色情广告是当前最为主要的非法不良信息,这些信息一般都通过短文本的形式进行发布,并将用户引导到色情网站、提供色情服务的QQ和微信账号上。为了杜绝这些非法信息的传播,网站和各种应用在服务器端需要构建专门的处理程序对用户提交的内容进行自动识别,确认是否是非法信息。如果是非法信息,则阻止发布信息,并对非法账号关闭相关功能。

当前最为常用的不良信息识别和过滤方法是基于关键词过滤的方法。该方法需要预先构建一个非法关键词列表。对提交的文本内容查找是否存在关键词列表中的词,如果存在则认为是非法内容。这种方法处理效率高,但误识率也高。其会错误地识别包含有关键词的正常文本内容。为了应对这一问题,有人提出了基于文本分类的方法。这类方法一般将输入的文本表示为向量空间模型,根据出现的字符或者词语构建特征向量,并联合TF*IDF来表达词或者字符特征的重要性。然后采用统计机器学习的方法对特征向量进行分类。常用的分类器有:支持向量机,adaboost,神经网络,决策树等。这类方法能一定程度上降低文本识别的误检率。但是由于短文本包含的字符有限,并且没有考虑字符之间的上下文关系,该类方法的识别准确率仍难于满足实际应用的要求。

另外,由于非法用户也会根据识别系统改进发布内容的形式,从而躲避系统的识别。当前逃避识别和过滤的主要方式是对短文本内容中的关键词进行变体。比如,将‘发票’写成“发漂”,将‘裸聊’写成‘落聊’等等。统计已有的一些非法色情广告信息,发现当前存在的主要关键词变体形式为:(1)夹杂特殊符号(一般是标点类的非文字字符),比如:“QQ296『161『7102”;(2)形状相近的字符替代,比如,“日”替换为“曰”;(3)同音或近音替换,比如:“微”替换为“为”;(4)拼音替换,“微信”替换为“wei xin”;(5)关键词倒序或者整句倒序;(6)中文字符拆分成偏旁和其它字符,比如:“裸”拆分为“衤果”。(7)关键词繁体化;(8)对英文和数字等采用相似形状字符的穿插,比如:“a5m2coM”;(9)对数字字符转换为编号形式或者中文数字等,比如:“嶶765510103㈡”。

为了应对关键词的变体形式,通常采用一种关键词扩展的方法。该方法将关键词表根据可能的变体形式构造关键词的变体形式,并作为关键词表的一部分。另外,为了应对关键词变体,温园旭提出了提取变体特征的方法【变体短文本过滤算法研究,2012.12,北京邮电大学,硕士学位论文】。该方法提出采用一些规则构建特征来表达可能出现的关键词变体形式,然后采用贝叶斯分类器进行识别。但是采用构建规则的方式提取变体特征容易被非法用户识别,从而通过更新变体的产生方式进一步逃避系统的识别。另外,人为的构建变体特征是一项比较困难的工作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天格科技(杭州)有限公司,未经天格科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811446969.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top