[发明专利]一种串匹配场景下数据集生成方法、设备和可读存储介质有效
| 申请号: | 201710589808.1 | 申请日: | 2017-07-19 |
| 公开(公告)号: | CN107515897B | 公开(公告)日: | 2021-02-02 |
| 发明(设计)人: | 刘燕兵;袁方方;卢毓海;张春燕;谭建龙;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06F16/903 | 分类号: | G06F16/903 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100195 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 匹配 场景 数据 生成 方法 设备 可读 存储 介质 | ||
1.一种串匹配算法的测试方法,其特征在于,包括以下步骤:
采用以下步骤生成用于串匹配算法测试的数据集:
1)独立地生成模式串的每个字符,形成预设规模和预设长度的随机模式串集合;
2)根据已生成的随机模式串集合,构造指定命中水平的文本数据集;
3)输出生成的随机模式串集合和文本数据集;
利用生成的随机模式串集合和文本数据集,测试不同规模不同长度的模式串集合、不同长度不同命中水平的文本数据集对串匹配算法的影响,在模式串集合数量不断增加的情况下,找出串匹配算法的内存占用量、扫描时间和匹配速度的变化规律;
步骤1)包括以下子步骤:
1-1)设定字符集、模式串的预设规模r和模式串的预设长度m;
1-2)在生成长度为m的模式串时,在当前模式串位置调用系统的伪随机函数生成一个属于所述字符集的随机字符,用该随机字符填充该模式串,如此循环填充,直至长度为m的模式串填充完毕;然后生成r个长度为m的模式串,构成随机模式串集合;
步骤2)构造指定命中水平的文本数据集的方法为:根据生成的r个长度为m的随机模式串集合P,当生成命中水平为ρ、长度为n的文本数据集T时,在当前文本位置i生成[0,1)之间的随机浮点数,若该随机浮点数小于q且i+m≤n,其中q为填充概率并且q与ρ相关,则生成[0,r)之间的随机整数j,用模式串集合P中的模式串p(j)填充文本T;否则,调用系统的伪随机函数生成一个随机字符t,用随机字符t填充文本T,如此循环填充,直至长度为n的文本数据填充完毕。
2.如权利要求1所述的方法,其特征在于,还包括存储步骤1)生成的随机模式串集合的步骤。
3.如权利要求1所述的方法,其特征在于,步骤2)利用stdrand()函数生成[0,1)之间的随机浮点数,调用Rand(0,r)函数生成[0,r)之间的随机整数j。
4.如权利要求1所述的方法,其特征在于,所述填充概率q的计算公式为:
5.如权利要求1所述的方法,其特征在于,所述命中水平ρ的取值范围为之间。
6.一种串匹配场景下数据集生成设备,其特征在于,包括通过总线连接的接收器、处理器、存储器和发送器;所述接收器用于接收外部的指令;所述存储器用于存储串匹配算法的测试指令;所述处理器用于读取所述存储器中的串匹配算法的测试指令,并通过执行该指令实现权利要求1至5中任一权利要求所述串匹配算法的测试方法的步骤;所述发送器用于输出执行的结果。
7.一种非易失性计算机可读存储介质,其上存储有串匹配算法的测试程序,其特征在于,所述串匹配算法的测试程序被计算机执行时,实现权利要求1至5中任一权利要求所述串匹配算法的测试方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710589808.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种醇基燃料燃烧炉头
- 下一篇:一种灶具燃烧器的炉头
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





