[发明专利]一种混合文本敏感词变体识别方法和装置有效
申请号: | 202010066040.1 | 申请日: | 2020-01-20 |
公开(公告)号: | CN111259151B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 徐波 | 申请(专利权)人: | 广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F16/903;G06F40/289;G06F40/242 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 510530 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 混合 文本 敏感 变体 识别 方法 装置 | ||
本发明公开了一种混合文本敏感词变体识别方法和装置,属于网络领域,具体包括以下步骤:对文本进行切分处理,得到多种类型的文本块,记录各文本块的一级位置索引表;对非中文的文本块进行切分处理,得到单一类型的子文本块,记录各子文本块的二级位置索引表;将中文类型的文本块和单一类型的子文本块转换为同一类型的字符串集;根据一级位置索引表和二级位置索引表将同一类型的字符串集进行排列,再转换成中英文词组集;根据敏感词库对中文词组集进行敏感词匹配。本发明能够针对混合文本进行敏感词变形识别,降低维护敏感词表的工作量。
技术领域
本发明涉及网络技术领域,特别是指一种混合文本敏感词变体识别方法和装置。
背景技术
随着网络的普及和迅速发展,网络游戏已经成为电子游戏的主流形式。随着游戏内聊天互动平台的开放,游戏内不同玩家之间的交流日益频繁。在交流过程中,由于玩家素质有高有低,就会产生一系列不符合国家法律法规或者辱骂性言论,对游戏的正常运营和游戏环境的维护产生风险。因此,设置构造相应的敏感词表,在玩家发表言论前,对其言论进行审核是很有必要的一个环节。但传统的做法,一般通过关键词与待审核文本直接进行匹配进行识别,这样一来,用户对敏感词进行变形,如“汉字拼音英文混合”,“错别字代称”,“数字符号代称”等方式,直接匹配的方式就会失效。进一步,当用户发现自己的言论被屏蔽后,一般会采取上述方式进行敏感词变形避开审核。
目前对文本敏感词变体识别的主要方法如下:
(1)基于敏感词表的规则匹配方法。首先将指定的敏感词汇和变体直接存入数据库中,然后将用户输入的文本内容与敏感词列表进行匹配,如输入的文本命中词表中的内容,就认为该本文含有敏感信息,需要进行进一步操作;
(2)采用机器学习的分类技术。通过采用bigram,词干等作为特征值来对文本信息做分类分析,或者基于贝叶斯滤波技术对文本内容信息概率统计,以检测出敏感词变体。
(3)基于深度神经网络的方法。利用大量人工标注的带标签的训练数据,采用卷积神经网络,循环神经网络或者transformer网络等深度神经网络对敏感信息的特征进行学习,构造相应的分类器,从而识别敏感词变体。
通过观察实践应用中的表现,发现上述这些方法存在如下不足:
(1)基于词表的规则匹配方法存在查找效率低,词表维护困难的问题。一般处理敏感词变体的方式是穷举法,将敏感词及变体都写入词表,但这种方法不仅会造成词表臃肿,降低查找效率,还无法动态捕捉新产生的变体;
(2)基于机器学习或者深度神经网络的分类方法存在误判风险,分类器分类效果受训练语料质量影响明显,目前这种方法在敏感词识别领域的应用还不够成熟,无法满足商业应用要求;
(3)目前针对敏感词识别的方法都只是对单一语种的文本进行处理,无法对中英混合文本进行处理,而实际网络中的聊天场景里中英混合文本更为常见,能对其中的敏感词进行识别显得更为实用。
发明内容
本发明提出一种混合文本敏感词变体识别方法和装置,能够针对混合文本进行敏感词变形识别,降低维护敏感词表的工作量。
本发明的技术方案是这样实现的:
一种混合文本敏感词变体识别方法,具体包括以下步骤:
S1,对文本进行切分处理,得到多种类型的文本块,记录各文本块的一级位置索引表;
S2,对包含数字字母的混合文本块进行切分处理,得到单一类型的子文本块,记录各子文本块的二级位置索引表;
S3,将中文类型的文本块和S2得到的单一类型的子文本块转换为同一类型的字符串集;
S4,根据一级位置索引表和二级位置索引表将上一步得到的同一类型的字符串集按索引顺序进行排列,再转换成中英文词组集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司,未经广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010066040.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于CRFID标签的风速测量方法
- 下一篇:肉豆蔻醚的新医药用途