[发明专利]一种基于主题引导的生成式文本隐蔽通信方法有效
申请号: | 202110498755.9 | 申请日: | 2021-05-08 |
公开(公告)号: | CN113343250B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 康慧娴;吴汉舟;冯国瑞;张新鹏 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F16/35;G06F40/126 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 引导 生成 文本 隐蔽 通信 方法 | ||
1.一种基于主题引导的生成式文本隐蔽通信方法,其特征在于,具体操作步骤如下:
步骤1:将数据集中每段文本T按照整句分割,对每个句子构建候选主题词图,计算图中每个节点的权重,提取出每段文本的主题词[K1,K2,...,Kk];
步骤2:构建语言模型:
步骤2.1:按照公式(1),对输入单词xi进行编码,其中,wte和wpe分别是词嵌入矩阵和位置编码矩阵,pos是单词在句子中的位置,d是词向量维度;
步骤2.2:计算每个词的综合注意力向量zi;按公式(2),计算每个输入单词Emb(xi)的查询向量qi,被查询信息与其他信息的相关性向量ki,被查询信息向量vi;
对于每个单词,计算其他信息和其的相关性程度得分[s1,s2,...,sn]=qi[k1,k2,...,kn],对于每个qi,除了主题词所对应位置的得分之外,将其从第i+1到句子结尾n的得分置为负无穷大,再对得分进行归一化,最后得到每个词的综合注意力向量
步骤2.3:计算损失,训练模型:
将每个输入单词xi按照步骤2.2计算综合注意力向量zi,并经过层归一化和前馈网络,得到预测值,比对预测值和真实值计算出损失,迭代训练降低损失至收敛,得到构建好的语言模型;
步骤3:根据构建好的模型,生成含密文本;
首先,发送方将秘密信息bi∈{0,1},i=1,2,...,N,用游程编码编码成m=N00N11...,N0,N1∈[1,9]格式,再将k个主题词[K1,K2,...,Kk]编码成词向量,根据余弦相似度对主题词进行扩展,采用k-means方法对主题词进行聚类,获得三个主题词组G1、G2和G3其中,G1生成的文本用于隐藏信息“0”,G2生成的文本用于隐藏信息“1”,G3生成的文本用于隐藏“0”和“1”顺序;具体操作如下:
分别将三组主题词编码,并求得平均词向量作为模型输入,经过模型计算,G1和G2组取出概率最高的10个词作为候选单词,G3组取出概率最高的3个词作为候选单词,并按概率从大到小排序,按两位读取m的数据,若第二位的值为0,则将第一位的值N0取出,从根据G1得到的10个候选词中的第N0+1个替代第一个,从根据G3得到的3个候选词中的第二个替代第一个,再将第一个词作为模型的输入计算下一步的候选单词;
若第二位的值为1,则将第一位的值N1取出,从根据G2得到的10个候选词中的第N1+1个替代第一个,从根据G3得到的3个候选词中的第三个替代第一个,直到隐藏完m,模型继续生成文本,每次选取概率最大词作为预测词直到遇到停止标识符;
步骤4:发送方将生成的含密文本和训练好的模型参数发送给接收方;
步骤5:接收方根据主题词组按照步骤3得到三类主题词组G1、G2和G3,并根据模型参数搭建好语言模型,根据步骤3计算出模型输入,根据G1得到的文本与含密文本对比解码出N00,根据G2得到的文本与含密文本对比解码出N11,根据G3得到的文本与含密文本对比解码出它们的顺序,并拼接成消息序列m,再将m解码成秘密信息b,实现基于主题引导的生成式文本隐蔽通信。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110498755.9/1.html,转载请声明来源钻瓜专利网。