[发明专利]文本处理方法、设备、存储介质有效
申请号: | 202111381627.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN113822020B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 米良;黄海荣;李林峰;孔晓泉 | 申请(专利权)人: | 亿咖通(湖北)技术有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F16/35 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘丹;刘芳 |
地址: | 430051 湖北省武汉市武汉经济技术开发区神*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 设备 存储 介质 | ||
1.一种文本处理方法,其特征在于,包括:
获取待处理文本,所述待处理文本中包含多个字符;
将所述待处理文本输入目标拒识模型,通过所述目标拒识模型获取所述待处理文本中每个字符的字符特征和全局位置特征,并根据所述字符特征和所述全局位置特征输出所述待处理文本对应的分类结果,所述分类结果用于指示所述待处理文本是否为拒识文本,所述目标拒识模型是通过样本拒识文本中字符的字符特征和全局位置特征对初始拒识模型进行训练得到的;
所述目标拒识模型包括卷积层、最大池化层、最小池化层和第二融合层;
所述根据所述字符特征和所述全局位置特征输出所述待处理文本对应的分类结果,包括:
根据所述字符特征和所述全局位置特征,获取所述待处理文本的文本特征;通过所述卷积层,基于不同采样尺寸对所述待处理文本的文本特征进行特征提取,获得所述待处理文本在不同采样尺寸对应的目标特征;通过所述最大池化层,提取不同采样尺寸对应的目标特征中的最大值特征;通过所述最小池化层,提取不同采样尺寸对应的目标特征中的最小值特征;通过所述第二融合层,融合不同采样尺寸对应的最大值特征以及最小值特征,获得所述待处理文本的信息特征;根据所述信息特征获得所述待处理文本的分类结果;
所述目标拒识模型包括输入层、字嵌入层、位置嵌入层和对抗嵌入层;
所述通过所述目标拒识模型获取所述待处理文本中每个字符的字符特征和全局位置特征,包括:
通过所述输入层,获取所述待处理文本中各字符对应的独热编码;
通过所述字嵌入层,基于各所述字符对应独热编码,获取各所述字符的基础字符特征作为所述字符特征,所述基础字符特征用于指示字符的含义;
通过所述位置嵌入层,根据各所述字符对应独热编码,获取各所述字符的全局位置特征,所述全局位置特征用于指示字符在所述待处理文本中的顺序;
在通过所述字嵌入层获取所述待处理文本中每个字符的基础字符特征之后,还包括:通过对抗嵌入层,在各字符的基础字符特征中添加扰动特征,获得各字符的字符特征。
2.根据权利要求1所述的文本处理方法,其特征在于,所述目标拒识模型还包括第一融合层;
所述根据字符特征和所述全局位置特征,获取所述待处理文本的文本特征,包括:
通过所述第一融合层,融合各所述字符对应的字符特征和全局位置特征,获得各所述字符对应的融合特征;
根据各所述字符对应的融合特征,获得所述待处理文本的文本特征。
3.根据权利要求2所述的文本处理方法,其特征在于,所述目标拒识模型还包括全连接层和决策层;
所述根据所述信息特征获得所述待处理文本的分类结果,包括:
通过所述全连接层,基于所述信息特征,确定所述待处理文本为拒识文本的概率值;
通过所述决策层,基于所述概率值和阈值概率,输出所述待处理文本对应的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿咖通(湖北)技术有限公司,未经亿咖通(湖北)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111381627.2/1.html,转载请声明来源钻瓜专利网。