[发明专利]文本识别方法、装置和系统有效

申请号：	201811495136.9	申请日：	2018-12-07
公开（公告）号：	CN111291561B	公开（公告）日：	2023-04-18
发明（设计）人：	贺国秀;康杨杨;高喆;孙常龙;刘晓钟;司罗	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/30;G06F16/35;G06N3/0464;G06N3/0455;G06N3/094
代理公司：	北京博浩百睿知识产权代理有限责任公司 11134	代理人：	褚敏;宋子良
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本识别方法装置系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本识别方法，包括：

获取文本数据；

获取所述文本数据对应的词向量；

利用识别模型对所述词向量进行识别，得到所述文本数据的识别结果，其中，所述识别模型用于识别所述文本数据是否存在违法内容，所述识别模型通过对抗训练而得到；

其中，所述识别模型包括：第一模型和第二模型，利用识别模型对所述词向量进行识别，得到所述文本数据的识别结果，包括：

利用所述第一模型对所述词向量进行识别，得到所述词向量的语义信息，其中，所述第一模型用于识别所述词向量的语义信息；

利用所述第二模型对所述词向量和所述词向量的语义信息进行识别，得到所述识别结果，其中，所述第二模型用于识别所述文本数据的语义信息。

2.根据权利要求1所述的方法，其中，所述方法还包括：

获取训练样本；

利用所述训练样本对第一预设模型和第二预设模型进行交替训练，得到所述第一模型和所述第二模型。

3.根据权利要求2所述的方法，其中，利用所述训练样本对第一预设模型进行训练，包括：

将所述训练样本输入至所述第一预设模型，并获取所述第一预设模型的语义特征；

将所述训练样本的标签和所述语义特征输入至第一损失函数，得到第一损失值；

判断所述第一损失值是否大于等于第一预设值；

在所述第一损失值小于所述第一预设值的情况下，继续利用所述训练样本对所述第一预设模型进行训练。

4.根据权利要求2所述的方法，其中，利用所述训练样本对第二预设模型进行训练，包括：

将所述训练样本输入至所述第二预设模型，并获取所述第二预设模型的输出结果；

将所述训练样本的标签和所述输出结果输入至第二损失函数，得到第二损失值；

判断所述第二损失值是否小于等于第二预设值；

在所述第二损失值大于所述第二预设值的情况下，继续利用所述训练样本对所述第二预设模型进行训练。

5.根据权利要求3或4所述的方法，其中，在第一损失值大于等于第一预设值，且第二损失值小于等于第二预设值的情况下，确定所述第一预设模型为所述第一模型，以及所述第二预设模型为所述第二模型。

6.根据权利要求5所述的方法，其中，所述第一模型包括：多个卷积层，所述多个卷积层的卷积核不同，所述第二模型包括：卷积神经网络、递归神经网络和预设机制。

7.根据权利要求5所述的方法，其中，第一损失函数和第二损失函数为交叉熵函数。

8.根据权利要求1所述的方法，其中，获取所述文本数据对应的词向量，包括：

对所述文本数据进行分句和分词处理，得到处理后的文本数据，其中，所述处理后的文本数据包括：多个句子列表，以及每个句子列表中包含的多个词列表；

将所述处理后的文本数据映射为所述词向量。

9.根据权利要求1所述的方法，其中，所述文本数据为文学作品的文本数据。

10.一种文本识别装置，包括：

第一获取模块，用于获取文本数据；

第二获取模块，用于获取所述文本数据对应的词向量；

识别模块，用于利用识别模型对所述词向量进行识别，得到所述文本数据的识别结果，其中，所述识别模型用于识别所述文本数据是否存在违法的内容，所述识别模型通过对抗训练而得到；

其中，所述识别模型包括：第一模型和第二模型，其中，所述识别模块包括：

第一识别单元，用于利用所述第一模型对所述词向量进行识别，得到所述词向量的语义信息，其中，所述第一模型用于识别所述词向量的语义信息；

第二识别单元，用于利用所述第二模型对所述词向量和所述词向量的语义信息，得到所述识别结果，其中，所述第二模型用于识别所述文本数据的语义信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811495136.9/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载