[发明专利]一种基于词间依赖的生成式文本信息隐藏检测方法及系统在审
| 申请号: | 202111321442.2 | 申请日: | 2021-11-09 |
| 公开(公告)号: | CN114254619A | 公开(公告)日: | 2022-03-29 |
| 发明(设计)人: | 李松斌;王津港;刘鹏 | 申请(专利权)人: | 中国科学院声学研究所南海研究站 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 杨青;徐淑东 |
| 地址: | 570105 海*** | 国省代码: | 海南;46 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 依赖 生成 文本 信息 隐藏 检测 方法 系统 | ||
本发明公开了一种基于词间依赖的生成式文本信息隐藏检测方法及系统,所述方法包括:对待检测的文本信息进行预处理;将预处理后的文本映射为分布式嵌入向量;将分布式嵌入向量输入预先建立和训练好的文本信息隐藏检测模型,得到待检测文本中是否包含秘密信息的决策;所述文本信息隐藏检测模型基于词间依赖注意力机制和聚合依赖特征,通过全局加权推理实现。本发明的方法能够进行高精度的生成式文本信息隐藏检测,提升了检测精度,也更适用于复杂情况下的生成式文本信息隐藏检测。通过测试验证,本发明取得了超过现有方法的检测性能。
技术领域
本发明涉及信息安全及深度学习技术领域,特别涉及一种基于词间依赖的生成式文本信息隐藏检测方法及系统。
背景技术
信息隐藏,亦称为隐写术,是一种将秘密信息嵌入到载体中而使秘密信息难于被监管者察觉的技术。现有的文本信息隐藏技术可分为四类。第一类是基于文本图像特征修改的方法,该方法通过修改人眼不可感知的文本字距、行距、字体颜色或特定像素值实现秘密信息的嵌入。第二类是基于文本内容替换的方法,该方法通过对原有文本中的部分词句内容进行增删或替换的方式实现秘密信息的嵌入。第三类是生成式文本信息隐藏方法,该方法根据秘密信息直接生成一段自然文本实现信息隐藏。第四类是基于不可见字符嵌入的方法,该方法通过将字符编码表中的不可见字符插入到文本中实现秘密信息的嵌入。在这四类方法中,生成式文本信息隐藏技术因其嵌入效率高且无需修改载体文本而成为最近的研究热点,是对网络安全造成最大威胁的方法之一。为了消除这些威胁,必须开展相应生成式文本信息隐藏检测方法的研究。
现有的生成式文本信息隐藏检测方法可以分为两类,基于手工设计特征的方法和基于深度学习的方法。基于手工设计特征的方法的主要思想是根据文本数据和隐写算法的特点从原始文档中提取各种统计特征,然后将这些特征输入到机器学习模型(如支持向量机)中进行分类。该类方法的主要缺点是手工设计特征过程繁琐、错误检测率较高以及缺乏鲁棒性。近年来,随着将深度学习技术引入生成式文本信息隐藏检测中,使其产生了长足的进步。然而,这些方法也存在着一些问题。
在现有的基于深度学习的生成式文本隐写分析方法中,一些方法未从文本中提取上下文依赖特性,直接将对文本进行词嵌入后得到的嵌入向量输入到分类网络中。一些方法利用循环神经网络(RNN)结构提取上下文依赖信息。然而,RNN的结构存在许多问题,如对长距离上下文利用不足,不能同时建模正向和向后依赖关系,以及训练过程中的梯度消失或梯度爆炸等。另外,在分类网络的设计中,现有网络在处理中间特征时没有引入选择机制滤除噪声信息,导致特征处理效率较低。
发明内容
本发明的目的在于克服现有生成式文本信息隐藏检测方法的技术缺陷,提出了一种基于词间依赖的生成式文本信息隐藏检测方法及系统。
为了实现上述目的,本发明提出了一种基于词间依赖的生成式文本信息隐藏检测方法,所述方法包括:
对待检测的文本信息进行预处理;
将预处理后的文本映射为分布式嵌入向量;
将分布式嵌入向量输入预先建立和训练好的文本信息隐藏检测模型,得到待检测文本中是否包含秘密信息的决策;
所述文本信息隐藏检测模型基于词间依赖注意力机制和聚合依赖特征,通过全局加权推理实现。
作为上述方法的一种改进,所述对待检测的文本信息进行预处理;具体包括:对待检测的文本信息采用填充或丢弃操作,将文本段中所含单词数规整为预先设定的长度。
作为上述方法的一种改进,所述将预处理后的文本映射为分布式嵌入向量;具体包括:
读取预处理后的文本,对包含k个单词的输入文本分别进行静态分布式嵌入映射和动态分布式嵌入映射,得到每一段文本对应的长度均为l的静态分布式嵌入向量Es以及动态分布式嵌入向量Ed,将两个分布式嵌入向量逐点相加得到嵌入向量E。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所南海研究站,未经中国科学院声学研究所南海研究站许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111321442.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:翻土抓取同步机械系统
- 下一篇:一种融合5G的输电线路自然灾害智能预警方法





