[发明专利]一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质有效
申请号: | 201711103789.3 | 申请日: | 2017-11-10 |
公开(公告)号: | CN108073679B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 袁方方;刘燕兵;曹聪;卢毓海;张春燕;谭建龙;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/903 | 分类号: | G06F16/903 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 匹配 场景 随机 模式 集合 生成 方法 设备 可读 存储 介质 | ||
本发明涉及一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质。该方法包括以下步骤:1)获取基于字符出现的频率建立的基于马尔可夫链的模型;2)利用基于马尔可夫链的模型生成指定长度和规模的随机模式串集合。该设备包括接收器、处理器、存储器和发送器。本发明生成的随机模式串集合符合现实世界的概率分布特征,能够依据真实模式串集合的概率分布特征生成任意长度、任意规模、特定类型的随机模式串集合,从而用于串匹配算法的功能测试和性能测试。
技术领域
本发明属于信息技术领域,涉及串匹配技术,具体涉及一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质。
背景技术
在计算机科学领域,串匹配技术一直都是研究热点之一。在现实生活中,串匹配技术的典型应用包括入侵检测系统(IPS)、病毒检测、文本过滤、信息检索、拼写检查和计算生物学等等。串匹配技术的研究与发展与现实应用是息息相关的,近年来,随着待处理数据规模的不断增大和数据实时处理的需求,对串匹配技术的性能提出了新的要求和挑战。
自20世纪70年代以来,串匹配技术发展迅速,国内外学者相继提出了上百种模式串匹配算法,如AC、Wu-Manber、SBDM、SBOM等。但是随着模式串集合规模的不断扩大,这些算法的匹配速度明显下降,极大的限制了它们的应用范围。因此,研究领域和工业界出现了各种对已有算法的改进工作,同时,也提出了新的技术和算法。
在串匹配研究领域,如何获取测试串匹配算法的数据集是一个非常重要的内容。由于受时间、数据规模、数据多样性等一些原因的限制,很难获得充分有效的测试数据集。目前用于串匹配算法测试的模式串集合一般是从开源系统中提取的真实数据集,包括开源入侵检测和防御系统Snort规则集和CLAMAV病毒库。
Snort是一个开放源码的入侵检测系统,可以用来检测网络攻击。Snort的基础库代码为libcap,规则集是它的核心,是其检测攻击行为的知识库,通过配置规则可以检测命中的数据流是否存在异常,并根据用户定义的动作对数据流进行处理。CLAMAV是一个开放源码的防毒软件,主要用于邮件服务器上的电子邮件病毒扫描服务。CLAMAV病毒库由特征哈希码、精确串特征片段等构成。软件与病毒库的更新由社区免费发布。
虽然上述真实数据集已经在串匹配算法的测试过程中得到了应用,但是它们也有其不足之处。首先,Snort规则集和CLAMAV病毒库中模式串的长度和模式串集合的大小是固定的,在对算法测试的过程中,既不能生成任意长度的模式串,也不能根据算法的需求任意增加或者减少模式串集合的规模;其次,Snort规则集和CLAMAV病毒库中模式串所属的字符集是单一的,不能测试串匹配算法性能在不同字符集的表现;最后,在现有的串匹配算法性能测试中,都只考虑了模式串集合本身的特性,如字符集大小、模式串长度和模式串个数等,对待扫描文本数据也只考虑它的长度,并没有考虑实际的应用环境,因此,直接导致串匹配算法的理论分析和实际效果差别较大。此外,测试结果只能说明串匹配算法在该测试数据集上的应用情况,无法分析和推断串匹配算法在其他数据集上的表现。
综上所述,为了对串匹配算法进行充分地测试,全面分析串匹配算法的性能,常常需要生成任意长度、任意规模、特定类型的随机模式串集合。而真实的模式串集合往往难以获得或规模有限,无法满足测试需求。
发明内容
本发明针对上述问题,提供一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质,能够依据真实模式串集合的概率分布特征生成任意长度、任意规模、特定类型的随机模式串集合,从而用于串匹配算法的功能测试和性能测试。
本发明采用马尔科夫模型描述真实世界模式串集合的概率分布特征,在此基础上生成任意长度、任意规模、特定类型的测试数据集。
本发明采用的技术方案如下:
一种串匹配场景下随机模式串集合生成方法,包括以下步骤:
1)获取基于字符出现的频率建立的基于马尔可夫链的模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711103789.3/2.html,转载请声明来源钻瓜专利网。