[发明专利]敏感倾向表述检测方法、装置、设备及存储介质在审
| 申请号: | 202011611216.3 | 申请日: | 2020-12-30 |
| 公开(公告)号: | CN112732912A | 公开(公告)日: | 2021-04-30 |
| 发明(设计)人: | 顾大中;胡惠文 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
| 地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 敏感 倾向 表述 检测 方法 装置 设备 存储 介质 | ||
1.一种敏感倾向表述检测方法,其特征在于,所述敏感倾向表述检测方法包括:
获取待检测的文本表述;
将所述文本表述输入预置BERT模型进行向量编码,得到多个文本词向量,将所述文本表述输入预置统计语言模型进行特征提取,得到多个文本特征向量,以及对所述文本表述进行嵌入词向量转化,得到多个嵌入词向量;
将所述各文本词向量输入预置第一敏感倾向识别模型进行识别,得到所述各文本词向量具有敏感倾向表述的第一概率,将所述各文本特征向量输入预置第二敏感倾向识别模型进行识别,得到所述各文本特征向量具有敏感倾向表述的第二概率,以及将所述各嵌入词向量输入预置第三敏感倾向识别模型进行识别,得到所述各嵌入词向量具有敏感倾向表述的第三概率;
对所述第一概率、所述第二概率、所述第三概率进行投票,并根据投票结果确定所述文本表述是否具有敏感倾向。
2.根据权利要求1所述的敏感倾向表述检测方法,其特征在于,所述统计语言模型包括:N-Gram模型、Skip-Gram模型,所述将所述文本表述输入预置统计语言模型进行特征提取,得到多个文本特征向量包括:
分别将所述文本表述输入所述N-Gram模型和所述Skip-Gram模型,通过所述N-Gram模型将所述文本表述中各单词转化为第一特征向量,以及通过所述Skip-Gram模型将所述文本表述中各单词转化为第二特征向量;
统计所述文本表述的敏感倾向特征指标,并生成所述文本表述中各单词对应的第三特征向量;
依次拼接所述第一特征向量、所述第二特征向量以及所述第三特征向量,得到多个文本特征向量。
3.根据权利要求1所述的敏感倾向表述检测方法,其特征在于,所述对所述文本表述进行向量转化,得到多个嵌入词向量包括:
将所述文本表述中各单词转化为one-hot稀疏向量,得到多个稀疏向量;
以所述各稀疏向量为查询关键字,查询预置Embedding词表,得到所述各稀疏向量对应的多个嵌入词;
根据所述各稀疏向量对应的多个嵌入词,将所述各稀疏向量映射为稠密向量,得到所述文本表述中各单词对应的嵌入词向量。
4.根据权利要求1所述的敏感倾向表述检测方法,其特征在于,所述第一敏感倾向识别模型包括:卷积层、激活层、池化层、全连接层及SoftMax层,所述将所述各文本词向量输入预置第一敏感倾向识别模型进行识别,得到所述各文本词向量具有敏感倾向表述的第一概率包括:
对所述各文本词向量进行矩阵化处理,得到文本词矩阵;
将所述文本词矩阵输入所述第一敏感倾向识别模型的卷积层进行特征提取,得到多个第一特征矩阵;
将所述各第一特征矩阵输入所述第一敏感倾向识别模型的激活层进行非线性映射,得到多个第二特征矩阵;
将所述各第二特征矩阵输入所述第一敏感倾向识别模型的池化层进行特征压缩,得到多个第三特征矩阵;
将所述各第三特征矩阵输入所述第一敏感倾向识别模型的全连接层进行分类,得到分类结果;
将所述分类结果输入所述第一敏感倾向识别模型的SoftMax层进行归一化处理,得到所述各文本词向量具有敏感倾向表述的第一概率。
5.根据权利要求1所述的敏感倾向表述检测方法,其特征在于,在所述获取待检测文本表述之前,还包括:
S1、获取多个带敏感倾向标注的目标文本表述,并对所述各目标文本表述中的各单词进行嵌入词向量转化,得到多个目标词向量;
S2、对所述各目标词向量进行矩阵化处理,得到所述各目标文本表述对应的目标矩阵并作为预置第三敏感倾向识别模型的样本矩阵;
S3、将所述样本矩阵输入所述第三敏感倾向识别模型的卷积层、全连接层对应进行卷积运算和分类处理,得到带敏感倾向标注的分类结果矩阵;
S4、计算所述分类结果矩阵与对应样本矩阵的均方误差,并判断所述均方误差是否大于预置误差阈值;
S5、若所述均方误差大于预置误差阈值,则对所述第三敏感倾向识别模型的参数进行微调,重复执行S3-S4,直至所述均方误差小于所述误差阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011611216.3/1.html,转载请声明来源钻瓜专利网。





