[发明专利]基于字频词频的字符分组方法、存储介质及电子设备有效
| 申请号: | 202211416941.4 | 申请日: | 2022-11-14 |
| 公开(公告)号: | CN115455987B | 公开(公告)日: | 2023-05-05 |
| 发明(设计)人: | 田辉;朱鹏远;鲁国峰;郭玉刚;张志翔 | 申请(专利权)人: | 合肥高维数据技术有限公司 |
| 主分类号: | G06F40/44 | 分类号: | G06F40/44;G06F40/289;G06F17/16 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 230088 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 字频 词频 字符 分组 方法 存储 介质 电子设备 | ||
本发明特别涉及一种基于字频词频的字符分组方法、存储介质及电子设备,其中该字符分组方法包括如下步骤:遍历语料库,计算待分组的N个字符的概率及其所组成的各词语概率;根据字符概率和词语概率计算状态转移矩阵;对状态转移矩阵进行归一化得到归一化的状态转移矩阵;逐一遍历字符,计算待分配字符c分配到所有分组的权重并将字符c添加到权重最大的组,该权重和随机二元字符包含组别数的期望值正相关,以此类推直到所有字符完成分组。通过权重计算公式,让经常出现在一起的两个字符分在不同组时的权重增大,再通过选择权重最大的组来让一起出现的字符尽量不同组,实现了字符的合理分组,该分组方式对每组中字符个数不做限制,从而更加合理。
技术领域
本发明涉及字库隐形水印技术领域,特别涉及一种基于字频词频的字符分组方法、存储介质及电子设备。
背景技术
在现有的文本水印技术中,为了提高水印算法抵抗打印扫描、屏幕截屏和屏幕拍照等恶意攻击的鲁棒性能,基于字符拓扑结构修改的文本数字水印技术成为主流。即通过将特定字符进行不同形式的变形后对应不同的水印信息位串,字符变形数据会保存在特定的水印字库中,并在电子文本文档打印输出和屏幕显示的过程中,通过字体替换来实现水印信息的嵌入。当我们针对不同的用户使用不同的字符变形数据,对于该用户来说,该特定的水印字库即构成其安全字库。
现有的安全字库存在很多缺陷,为了实现在不改变用户任何使用习惯的前提下,用以解决现有技术中水印加载通用性差、系统稳定性差、实现过程复杂以及水印算法鲁棒性能低等问题,北京国隐科技有限公司申请的专利《一种通用的文本水印方法和装置》(公布号:CN114708133A)中公开了如下方案:一种通用的文本水印方法,包括以下步骤:根据特定策略对选定字库中一定数目的字符进行分组;根据特定规则对每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件;生成用户终端水印编码数据,用以标识用户终端的身份认证信息;依据水印编码数据,并结合水印字符数据临时文件和分组的字符,动态生成并实时加载水印字库文件;运行电子格式的文本文件,在文件打印输出和屏幕显示的文档内容数据中利用水印字库文件实时嵌入水印信息。
该方案中需要对字符进行分组。在对字符进行分组时,理论上来说,字频较高的字符,应该分别位于不同组;常出现在一起的字符,应该分别位于不同组。满足这两个要求所生成的安全字库,在进行安全码的提取时,所需要的文字内容更少,因此,提取效果、准确率也更佳。该方案中的字符分组方法存在诸多不足:其一,每组中的字符数基本相等,这与上述的要求有所冲突;其二,分组时只考虑了字频,并没有对词频进行充分考虑,理论上,经常出现的词语中对应的字符,应该分在不同组别中,这样可以在更短的内容中出现更多分组,在进行安全码的提取时所需的内容更少;其三,该方案中对分组进行优化时的计算过程太复杂,需消耗大量的时间和算力。
发明内容
本发明的目的在于提供一种基于字频词频的字符分组方法,能够更加合理的对字符进行分组。
为实现以上目的,本发明采用的技术方案为:一种基于字频词频的字符分组方法,包括如下步骤:遍历语料库,根据待分组的N个字符的出现频数计算各字符概率,对语料库中的所有文本进行分词,根据N个字符所组成词语的出现频数计算各词语概率;根据和计算一个字符后是另一个字符的概率得到状态转移矩阵;对状态转移矩阵进行归一化使得一个字符后是其他字符的概率之和为1得到归一化的状态转移矩阵;逐一遍历字符,计算待分配字符c分配到所有分组的权重并将字符c添加到权重最大的组,该权重和随机二元字符包含组别数的期望值正相关,以此类推直到所有字符完成分组。
与现有技术相比,本发明存在以下技术效果:该分组方案主要从词语之间的关联来对字符进行分组,对于常作为一个单词出现的多个字符,尽量将它们分配在不同的组中,状态转移矩阵反映的就是一个字符后是另一个字符的概率,再通过权重计算公式,让经常出现在一起的两个字符分在不同组时的权重增大,这样我们就能通过选择权重最大的组来让一起出现的字符尽量不同组,从而实现了字符的合理分组,此种分组方式对每组中字符个数不做限制,从而更加合理。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥高维数据技术有限公司,未经合肥高维数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211416941.4/2.html,转载请声明来源钻瓜专利网。





