[发明专利]特征串集合的分组方法和装置有效

专利信息
申请号: 201611104011.X 申请日: 2016-12-05
公开(公告)号: CN106776965B 公开(公告)日: 2019-11-26
发明(设计)人: 尹延伟 申请(专利权)人: 东软集团股份有限公司
主分类号: G06F16/335 分类号: G06F16/335
代理公司: 11201 北京清亦华知识产权代理事务所(普通合伙) 代理人: 张润<国际申请>=<国际公布>=<进入国
地址: 110179 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 特征 集合 分组 方法 装置
【权利要求书】:

1.一种特征串集合的分组方法,其特征在于,包括以下步骤:

获取特征串集合中多个特征串中每个特征串的长度信息,统计基于每种长度信息下特征串的数量,根据所述数量生成特征串数量矩阵,并基于所述长度信息生成长度序列;

根据所述长度序列确定分组数,并根据所述分组数和所述特征串数量矩阵确定多个初始分组;

从所述多个初始分组中,选取所包含的特征串长度最小的分组作为第一目标分组;

若所述多个初始分组中包括第二目标分组,将所述第一目标分组中的每个特征串的字符进行扩展,得到与所述每个特征串对应的多个扩展字符串,并将所述多个扩展字符串置入所述第二目标分组中,其中,所述第二目标分组中所包含的特征串长度比所述第一目标分组中的特征串长度大1;

将所述第二目标分组和所述多个初始分组中剩余的分组作为第三目标分组,以基于所述第三目标分组构建所述特征串集合的掩码表,并对所述特征串集合进行匹配;

所述基于所述长度信息生成长度序列,包括:

从多个所述长度信息中选取长度值小于或者等于预设长度阈值的长度信息并作为目标长度信息;

基于所述目标长度信息,按照长度值升序生成所述长度序列;

所述基于所述第三目标分组构建所述特征串集合的掩码表,包括:

将所述掩码表所有位初始化为零,依次对当前分组中的每个特征串中的q-gram字符块,使用选取好的字符转换函数进行求值,对于所求值找到所述掩码表中相对应行,并根据当前字符块在特征串中的位置,找到所述掩码表中的相应列,相对应的将所述相对应行和所述相应列的位置为1。

2.如权利要求1所述的特征串集合的分组方法,其特征在于,所述对所述特征串集合进行匹配后,还包括:

获取目标系数,其中,所述目标系数为:对所述特征串增加一个字符时,增加字符后的特征串的命中概率与增加字符前的特征串的命中概率之间的比例值;

根据所述目标系数对所述特征串集合的每个分组中的特征串数量进行调整,所述每个分组属于所述第三目标分组。

3.如权利要求1所述的特征串集合的分组方法,其特征在于,在所述将所述第二目标分组和所述多个初始分组中剩余的分组作为第三目标分组之后,还包括:

将每个分组中的特征串长度与预设长度阈值作比对;

获取所包含特征串的长度大于或者等于所述预设长度阈值的分组的数量;

在所述分组的数量大于1时,获取所述分组中的特征串并作为目标特征串;

确定目标分组数,并根据所述目标分组数,结合K-means聚类算法对所述目标特征串进行分组。

4.如权利要求3所述的特征串集合的分组方法,其特征在于,所述确定目标分组数,包括:

对所述长度序列中不同的长度值按照升序进行逐个累加运算,得到每次的累加运算的结果作为对应的中间长度值;

判断所述中间长度值是否大于预设掩码表位长;

在所述中间长度值大于所述预设掩码表位长时,停止所述逐个累加运算;

获取小于所述预设掩码表位长的中间长度值中值最大的中间长度值并作为目标总长度值;

将所述预设掩码表位长和所述目标总长度值作差,得到差值;

判断所述长度序列中是否存在等于预设长度阈值的长度值,得到判断结果;

根据所述判断结果和所述差值确定所述目标分组数。

5.如权利要求4所述的特征串集合的分组方法,其特征在于,所述根据所述判断结果和所述差值确定所述目标分组数,包括:

对所述差值和所述预设长度阈值进行求余取模运算,得到模值;

在所述判断结果为所述长度序列中存在等于所述预设长度阈值的长度值时,将所述模值进行加1运算,得到加1运算后的值并作为所述目标分组数;

在所述判断结果为所述长度序列中不存在等于所述预设长度阈值的长度值时,直接将所述模值作为所述目标分组数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611104011.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top