[发明专利]基于字距词链的字符分组方法、存储介质及电子设备有效
| 申请号: | 202211416946.7 | 申请日: | 2022-11-14 | 
| 公开(公告)号: | CN115455965B | 公开(公告)日: | 2023-03-10 | 
| 发明(设计)人: | 田辉;鲁国峰;朱鹏远;郭玉刚;张志翔 | 申请(专利权)人: | 合肥高维数据技术有限公司 | 
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 | 
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 | 
| 地址: | 230088 安徽省合肥市高新区*** | 国省代码: | 安徽;34 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 字距词链 字符 分组 方法 存储 介质 电子设备 | ||
本发明特别涉及一种基于字距词链的字符分组方法、存储介质及电子设备,其中该字符分组方法包括如下步骤:遍历语料库,统计待分组的N个字符的频次,对语料库中的所有文本进行分词,根据N个字符所组成词语的频次计算各词语概率;按照字频从高到低,重复执行以下步骤直到所有字符完成分组;计算待分配字符c到第k组中已分组字符ci的词链和;以归一化的词链和为权重,将待分配字符c添加到权重最小的组。词链和反映的是待分配字符c和组内其他字符之间作为词语出现在一起的关系,这个值越大,就说明它们出现在一起的情况越多,应当分配到不同组;将字符的分组问题转换成具体的权重大小比较,使得分组更加有理有据且更加精准。
技术领域
本发明涉及字库隐形水印技术领域,特别涉及一种基于字距词链的字符分组方法、存储介质及电子设备。
背景技术
在现有的文本水印技术中,为了提高水印算法抵抗打印扫描、屏幕截屏和屏幕拍照等恶意攻击的鲁棒性能,基于字符拓扑结构修改的文本数字水印技术成为主流。即通过将特定字符进行不同形式的变形后对应不同的水印信息位串,字符变形数据会保存在特定的水印字库中,并在电子文本文档打印输出和屏幕显示的过程中,通过字体替换来实现水印信息的嵌入。当我们针对不同的用户使用不同的字符变形数据,对于该用户来说,该特定的水印字库即构成其安全字库。
现有的安全字库存在很多缺陷,为了实现在不改变用户任何使用习惯的前提下,用以解决现有技术中水印加载通用性差、系统稳定性差、实现过程复杂以及水印算法鲁棒性能低等问题,北京国隐科技有限公司申请的专利《一种通用的文本水印方法和装置》(公布号:CN114708133A)中公开了如下方案:一种通用的文本水印方法,包括以下步骤:根据特定策略对选定字库中一定数目的字符进行分组;根据特定规则对每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件;生成用户终端水印编码数据,用以标识用户终端的身份认证信息;依据水印编码数据,并结合水印字符数据临时文件和分组的字符,动态生成并实时加载水印字库文件;运行电子格式的文本文件,在文件打印输出和屏幕显示的文档内容数据中利用水印字库文件实时嵌入水印信息。
该方案中需要对字符进行分组。在对字符进行分组时,理论上来说,字频较高的字符,应该分别位于不同组;常出现在一起的字符,应该分别位于不同组。满足这两个要求所生成的安全字库,在进行安全码的提取时,所需要的文字内容更少,因此,提取效果、准确率也更佳。该方案中的字符分组方法存在诸多不足:其一,每组中的字符数基本相等,这与上述的要求有所冲突;其二,分组时只考虑了字频,并没有对词频进行充分考虑,理论上,经常出现的词语中对应的字符,应该分在不同组别中,这样可以在更短的内容中出现更多分组,在进行安全码的提取时所需的内容更少;其三,该方案中对分组进行优化时的计算过程太复杂,需消耗大量的时间和算力。
发明内容
本发明的目的在于提供一种基于字距词链的字符分组方法,能够更加合理的对字符进行分组。
为实现以上目的,本发明采用的技术方案为:一种基于字距词链的字符分组方法,包括如下步骤:遍历语料库,统计待分组的N个字符的频次,对语料库中的所有文本进行分词,根据N个字符所组成词语的频次计算各词语概率;按照字频从高到低,重复执行以下步骤直到所有字符完成分组;根据如下公式计算待分配字符c到第k组中已分组字符ci的词链和:
式中,为包含字符c和字符ci的所有词语;对所有组的词链和进行归一化处理得到;以归一化的词链和为权重,将待分配字符c添加到权重最小的组。
与现有技术相比,本发明存在以下技术效果:词链和反映的是待分配字符c和组内其他字符之间作为词语出现在一起的关系,这个值越大,就说明它们出现在一起的情况越多,应当分配到不同组;根据词链和计算得到的权重正好反映了上述关系;通过将字符的分组问题转换成具体的权重大小比较,使得分组更加有理有据,且更加精准。
附图说明
图1是本发明的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥高维数据技术有限公司,未经合肥高维数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211416946.7/2.html,转载请声明来源钻瓜专利网。





