[发明专利]基于特征值比对的内容分析方法有效
| 申请号: | 200910209248.8 | 申请日: | 2009-10-27 |
| 公开(公告)号: | CN101699428A | 公开(公告)日: | 2010-04-28 |
| 发明(设计)人: | 张明哲;徐克华;张保忠;刘灿雄 | 申请(专利权)人: | 中华电信股份有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 万志香;曾旻辉 |
| 地址: | 中国台湾桃园县杨梅*** | 国省代码: | 中国台湾;71 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 特征值 内容 分析 方法 | ||
技术领域
本发明是关于一种基于特征值比对的内容分析方法,特别是关于一种利用部分文件比对技术以提供快速及精确的内容分析方法。
背景技术
现有的机密防护系统,在内容分析中采用的部分文件比对方法,必须面临机密辨识率与系统效能的两难需求。较精确的机密辨识功能就会产生最多的数据比对作业而造成系统效能的冲击,反之若是追求内容分析的执行效能则难以兼顾机密数据的辨识率。且因为部分文件比对技术所处理的是指数成长的复杂度问题,当机密样本数据或目标文件长度增加时,系统效能就会面临急速恶化的困境。有鉴于机密防护技术在信息安全领域的应用日益广泛,诚然需要一个较佳的内容分析方法,以达成机密防护系统于辨识率及效能方面的需求。
由此可见,上述现有方式仍有诸多不足,实非良好的设计,而亟待加以改良。
发明内容
本发明的目的即在于提供一种既快速又精确的内容分析方法,是以切割特征值数据空间的方法改进大型文件的比对效能与正确性,并依据目标档案的长度进行文件比对参数的调整,从而达成机密辨识率与系统效能的两难需求,且由于字符内码分布的特性,本发明在中文与英文档案互相比对的作业中更能大幅减少比对次数,而改善内容分析的效能与正确性。
可达成上述发明目的的一种基于特征值比对的内容分析方法,至少包括:
文件特征建构流程,将欲防护的机密文件利用文件特征建构功能,进行特征值的分区计算,并建构出相应的文件特征档案;
特征值加载流程,将各区特征值加载至所属的数据结构中;
文件特征比对流程,利用文件特征比对功能将加载的文件特征数据向目标文件进行指定长度的数据内容比对,以判断文件是否包含机密数据。
本发明于建构机密文件的特征值时根据各资料区块所算出的字码统计值,分区储存特征值于所属的特征档案中,之后于文件比对阶段再依各资料区块的字码统计值进行分区比对;如此可在大数据量的内容分析作业中,尤其是中文与英文档案互相比对的情况下大幅减少比对次数而改善系统的效能,同时因为在特征值比对作业中加上字码统计值的区别,使得特征杂凑值的冲突机率进一步降低,而能提高内容分析的正确率。
另外在文件特征的比对作业中,本发明也依据目标文件的长度调整数据比对之重迭参数,使得数据量较小的比对作业有较精确的机密辨识率,而数据量大的比对作业则可改善系统的执行效能。
本发明的基于特征值比对的内容分析方法,与其它现有技术相互比较时,更具备下列的优点:
本发明可改进文件内容分析作业的效能,尤其在中文与英文档案互相比对时更能大幅减少比对次数而提高执行效率。
本发明可提高机密数据的辨识正确率,减少将文件误判为含有机密的情形。
本发明于数据量小的比对作业中具有精确的机密辨识率,而在数据量大的比对作业则提高执行效能。
附图说明
图1为本发明基于特征值比对的内容分析方法的流程示意图;
图2为该基于特征值比对的内容分析方法的文件特征建构流程图;以及
图3为该基于特征值比对的内容分析方法的文件特征比对流程图。
具体实施方式
以下通过具体实施例来说明本发明。
实施例1:
请参阅图1,为本发明基于特征值比对的内容分析方法的流程示意图,先在欲防护的机密文件(1)利用文件特征建构功能(2)进行特征值的计算,并建构出相应的文件特征档案(3)。在机密防护作业的内容分析阶段,加载特征值(4)至相对应的数据结构以后,即可利用文件特征比对功能(5)依此文件特征数据向目标文件(6)进行指定长度的数据内容比对。若有符合特征比对的数据则为包含机密的档案,可以让防护系统进行政策所指定的相关防护动作,否则即可判定为不含机密的文件。
请参阅图2,为本发明基于特征值比对的内容分析方法的文件特征建构流程图,其步骤包括:
a.设定数据的读取终点之后进行机密文件的循序读取;
b.排除空格符以组成一个固定长度的资料区块并且计算字码统计值;在这里所谓的空格符系指space,tab,换行符号等字符,属于与文件机密不相关的数据;当读取至区块长度时,其字码统计值也已计算完成,此一数值是统计资料区块内的每一字符内码值的分布,其计算方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中华电信股份有限公司,未经中华电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910209248.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带照明装置的淋浴房
- 下一篇:轻型液压支架的垂直导杆连接机构
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





