[发明专利]文本识别方法、装置和系统有效
申请号: | 201811495136.9 | 申请日: | 2018-12-07 |
公开(公告)号: | CN111291561B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 贺国秀;康杨杨;高喆;孙常龙;刘晓钟;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35;G06N3/0464;G06N3/0455;G06N3/094 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 褚敏;宋子良 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 系统 | ||
本发明公开了一种文本识别方法、装置和系统。其中,该方法包括:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。本发明解决了相关技术中文本识别方法的识别准确度较低的技术问题。
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种文本识别方法、装置和系统。
背景技术
目前,一些文学作品,尤其是网络文学作品中存在着一些涉黄的情节。这些涉黄情节会极大的损害青少年读者的身心健康,也会使大多数成年读者感到不适。因此,如何精准的识别小说中的涉黄片段以实现对涉黄小说的整改至关重要。然而,在现存审核机制的作用下,一些作者在小说的涉黄片段中渐渐的抛弃可以明显被审核机制识别的淫秽词汇,转而大量使用一些类似比喻的语言技巧,利用平常使用频率很高的词来描绘色情场景。这样极大的影响了以词汇为主要特征的识别方法的精确率,也增加了基于语言模型方法的识别难度。
传统的隐晦涉黄文本的识别主要有两种:第一种是基于敏感词汇匹配的方法,该方法首先启发式的提出一些由敏感词汇构成敏感词表,接着遍历待检测的文本片段,如果该片段中包含的敏感词数超过某个阈值,则认为该片段为涉黄文本;第二种是基于特征提取的传统机器学习方法以及基于表征学习的深度学习方法,该方法在获得可以表征输入文本语义特征的基础上(不论是人工提取特征还是深度学习自动提取特征),利用梯度下降自动学习特征的权重参数。但是,第一种识别方法由于检测目标往往非常隐晦,其用词和一般文本的用词没有明显差异,故很难提出非常具有代表性的词,也很难确定对应的阈值;第二种识别方法不论是手工提取特征还是用深度学习提取特征,都会因为已有的训练数据集的特殊性而引入一些偏差,这样会极大的影响模型的泛化能力。
针对相关技术中文本识别方法的识别准确度较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本识别方法、装置和系统,以至少解决相关技术中文本识别方法的识别准确度较低的技术问题。
根据本发明实施例的一个方面,提供了一种文本识别方法,包括:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
根据本发明实施例的另一方面,还提供了一种文本识别装置,包括:第一获取模块,用于获取文本数据;第二获取模块,用于获取文本数据对应的词向量;识别模块,用于利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行如下步骤:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
根据本发明实施例的另一方面,还提供了一种计算设备,包括:处理器,处理器用于运行程序,其中,在程序运行时执行以下步骤:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
根据本发明实施例的另一方面,还提供了一种文本识别系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取文本数据;获取文本数据对应的词向量;利用识别模型对词向量进行识别,得到文本数据的识别结果,其中,识别模型用于识别文本数据是否存在违法的内容,识别模型通过对抗训练而得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811495136.9/2.html,转载请声明来源钻瓜专利网。