[发明专利]文本数据的保密处理方法和装置在审
| 申请号: | 202111617403.7 | 申请日: | 2021-12-28 |
| 公开(公告)号: | CN113987592A | 公开(公告)日: | 2022-01-28 |
| 发明(设计)人: | 崔世文;孟昌华;李志峰;王维强 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F40/30;G06K9/62 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 数据 保密 处理 方法 装置 | ||
本说明书实施例提供了一种文本数据的保密处理方法和装置。该方法包括:得到原始文本数据;将所述原始文本数据输入预先训练的文本生成模型,得到该文本生成模型输出的相似文本数据;该相似文本数据与原始文本数据的文本内容不同,但,该相似文本数据与原始文本数据的语义相似度大于预定值;提供所述相似文本数据。本说明书实施例能够更为有效地阻止文本数据内容的泄露。
技术领域
本说明书一个或多个实施例涉及电子信息技术,尤其涉及文本数据的保密处理方法和装置。
背景技术
在很多业务场景中,需要对文本数据进行保密处理,以便在不破坏原文内容的情况下,阻止文本数据被泄露以及泄露之后的追溯。目前,主要是通过在文本数据的背景中增加水印的方式进行保密处理。水印不会破坏原有文本内容的语义,让阅读者能够获知文本的内容,并且,还能够通过所增加的水印来追查泄露途径。例如企业或者机构内网通常会在保密材料的背景上加上特有的水印信息,防止员工把信息直接截图或者拍照进行外发。
但是此种增加水印的方式,无法有效地阻止文本内容的泄露。
发明内容
本说明书一个或多个实施例描述了文本数据的保密处理方法和装置,能够更为有效地阻止文本内容的泄露。
根据第一方面,提供了一种文本数据的保密处理方法,其中,包括:
得到原始文本数据;
将所述原始文本数据输入预先训练的文本生成模型,得到该文本生成模型输出的相似文本数据;该相似文本数据与原始文本数据的文本内容不同,但,该相似文本数据与原始文本数据的语义相似度大于预定值;
提供所述相似文本数据。
其中,所述文本生成模型的训练方法包括如下中的至少一项:
针对第一文本数据,将该第一文本数据中的至少一个字符替换为该字符的同义字符,得到第一变换数据,利用该第一文本数据及该第一变换数据作为训练样本训练所述文本生成模型;
针对第二文本数据,在该第二文本数据中增加或者减少非语义字符,得到第二变换数据,利用该第二文本数据及该第二变换数据作为训练样本训练所述文本生成模型;其中,非语义字符为不改变语义的字符;
针对第三文本数据,改变该第三文本数据中至少一处文本内容的语序,得到第三变换数据,利用该第三文本数据及该第三变换数据作为训练样本训练所述文本生成模型。
其中,
所述得到该文本生成模型输出的相似文本数据,包括:得到该文本生成模型输出的至少两个版本的相似文本数据;不同版本的相似文本数据的文本内容不同;
所述提供所述相似文本数据,包括:
将各个阅读者划分在至少两个分组中;
将至少两个版本的相似文本数据分别分发给至少两个分组。
该方法进一步包括:
获取被泄露的相似文本数据;
根据被泄露的相似文本数据的版本,确定该被泄露的相似文本数据被分发到的分组;
将该分组中的阅读者确定为泄露方。
在所述得到该文本生成模型输出的相似文本数据之后,并在所述提供所述相似文本数据之前,进一步包括:
根据原始文本数据的语义,对文本生成模型输出的相似文本数据进行修正,以增加该相似文本数据与原始文本数据的语义相似度;
所述提供所述相似文本数据,包括:提供修正后的相似文本数据。
根据第二方面,提供了一种文本数据的保密处理装置,其中,包括:
原始文本获取模块,配置为得到原始文本数据;
文本生成模型,配置为对输入的所述原始文本数据进行模型处理,输出相似文本数据;该相似文本数据与原始文本数据的文本内容不同,但,该相似文本数据与原始文本数据的语义相似度大于预定值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111617403.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





