[发明专利]一种可跨语料库可跨算法的生成式文本隐写分析方法在审

申请号：	202310011465.6	申请日：	2023-01-05
公开（公告）号：	CN116050399A	公开（公告）日：	2023-05-02
发明（设计）人：	李松斌;杜辉;王津港;魏晓曦;劳成旺;陈榕魁	申请（专利权）人：	中国科学院声学研究所南海研究站;恒锋信息科技股份有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/30;G06F18/241;G06F18/27
代理公司：	北京方安思达知识产权代理有限公司 11472	代理人：	陈琳琳;杨青
地址：	570105 海***	国省代码：	海南;46
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语料库算法生成文本分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种可跨语料库可跨算法的生成式文本隐写分析方法，所述方法包括：

将文本片段输入预先建立和训练好的的文本隐写检测模型，实现对自然文本与隐写文本的判别；

所述文本隐写检测模型包括依次连接的词重要性语义编码模块、词间关联多尺度感知模块和岭回归分类模型；其中，

所述词重要性语义编码模块，用于提取文本片段的语义特征；

所述词间关联多尺度感知模块，用于从语义特征中获取词间关联特征；

所述岭回归分类模型，用于根据词间关联特征实现对自然文本与隐写文本的判别。

2.根据权利要求1所述的可跨语料库可跨算法的生成式文本隐写分析方法，其特征在于，所述词重要性语义编码模块包括预训练语言表示模型RoBERTa和词重要度挖掘结构；其中，

所述预训练语言表示模型RoBERTa包括词嵌入层和堆叠的12层Transformer；

所述词重要度挖掘结构包括平均池化、最大池化与卷积核大小为2*1的卷积层。

3.根据权利要求2所述的可跨语料库可跨算法的生成式文本隐写分析方法，其特征在于，所述预训练语言表示模型RoBERTa的处理过程具体包括：

对于输入文本片段T＝{t₁，t₂，...t_j，...，t_len}，其中len代表句子长度，t_j代表第j个单词，词嵌入层将T中单词转换为词向量，并引入段向量与位置向量得到输入矩阵E＝{e₁，e₂，...，e_k，...，e_len}，其中，e_j代表第j个单词的嵌入向量，E通过12层Transformer后得到文本词嵌入表示P＝{p₁，p₂，...，p_j，...，p_len}，其中，p_j∈[1，L_WE]是第j个单词的词嵌入表示，L_WE为词嵌入长度。