[发明专利]一种可跨语料库可跨算法的生成式文本隐写分析方法在审
| 申请号: | 202310011465.6 | 申请日: | 2023-01-05 |
| 公开(公告)号: | CN116050399A | 公开(公告)日: | 2023-05-02 |
| 发明(设计)人: | 李松斌;杜辉;王津港;魏晓曦;劳成旺;陈榕魁 | 申请(专利权)人: | 中国科学院声学研究所南海研究站;恒锋信息科技股份有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F18/241;G06F18/27 |
| 代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;杨青 |
| 地址: | 570105 海*** | 国省代码: | 海南;46 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语料库 算法 生成 文本 分析 方法 | ||
1.一种可跨语料库可跨算法的生成式文本隐写分析方法,所述方法包括:
将文本片段输入预先建立和训练好的的文本隐写检测模型,实现对自然文本与隐写文本的判别;
所述文本隐写检测模型包括依次连接的词重要性语义编码模块、词间关联多尺度感知模块和岭回归分类模型;其中,
所述词重要性语义编码模块,用于提取文本片段的语义特征;
所述词间关联多尺度感知模块,用于从语义特征中获取词间关联特征;
所述岭回归分类模型,用于根据词间关联特征实现对自然文本与隐写文本的判别。
2.根据权利要求1所述的可跨语料库可跨算法的生成式文本隐写分析方法,其特征在于,所述词重要性语义编码模块包括预训练语言表示模型RoBERTa和词重要度挖掘结构;其中,
所述预训练语言表示模型RoBERTa包括词嵌入层和堆叠的12层Transformer;
所述词重要度挖掘结构包括平均池化、最大池化与卷积核大小为2*1的卷积层。
3.根据权利要求2所述的可跨语料库可跨算法的生成式文本隐写分析方法,其特征在于,所述预训练语言表示模型RoBERTa的处理过程具体包括:
对于输入文本片段T={t1,t2,...tj,...,tlen},其中len代表句子长度,tj代表第j个单词,词嵌入层将T中单词转换为词向量,并引入段向量与位置向量得到输入矩阵E={e1,e2,...,ek,...,elen},其中,ej代表第j个单词的嵌入向量,E通过12层Transformer后得到文本词嵌入表示P={p1,p2,...,pj,...,plen},其中,pj∈[1,LWE]是第j个单词的词嵌入表示,LWE为词嵌入长度。
4.根据权利要求3所述的可跨语料库可跨算法的生成式文本隐写分析方法,其特征在于,所述词重要度挖掘结构的处理过程具体包括:
由平均池化与最大池化来从不同视角获取文本词嵌入表示P中的文本信息,将二者拼接起来得到双角度文本信息C,由卷积核对双角度文本信息C进行信息融合,得到词级别重要度信息G,通过sigmoid激活函数得到表示词重要度的权重系数G,并利用其对词嵌入表示进行更新,找出对隐写敏感单词的语义特征V,计算公式如下:
C=[MaxPool(P),AvgPool(P)]
V=P⊙G
其中,MaxPool与MaxPool分别为最大池化与平均池化操作,Convf为核大小为(2,1)的卷积层,V∈[len,LSF],LSF为词语义特征长度,⊙表示矩阵逐点相乘。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所南海研究站;恒锋信息科技股份有限公司,未经中国科学院声学研究所南海研究站;恒锋信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310011465.6/1.html,转载请声明来源钻瓜专利网。





