[发明专利]基于离群值检测技术和位图索引的动态数据库填充方法有效

专利信息
申请号: 202110395631.8 申请日: 2021-04-13
公开(公告)号: CN113076319B 公开(公告)日: 2022-05-06
发明(设计)人: 杜瑞忠;张玉晴 申请(专利权)人: 河北大学
主分类号: G06F16/22 分类号: G06F16/22;G06F16/23;G06F21/62
代理公司: 石家庄国域专利商标事务所有限公司 13112 代理人: 胡素梅
地址: 071002 *** 国省代码: 河北;13
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 离群 检测 技术 位图 索引 动态 数据库 填充 方法
【权利要求书】:

1.一种基于离群值检测技术和位图索引的动态数据库填充方法,其特征是,包括如下步骤:

a、生成填充数据库;

对数据库中关键字按关键字频率进行聚类;关键字频率指关键字出现在各文件中的频次,以文件数来记录关键字频率;每个簇中每一关键字按照频率最大的关键字填充至相同的数量,具体是:根据每个关键字需要填充伪文件的数量随机生成伪文件进行填充,直到所有关键字填充至最大填充计数为止;由填充的伪文件生成填充数据库,并生成相应索引;

步骤a中,生成伪文件的方法如下:将需填充的关键字以及关键字对应的需填充的伪文件的数量一并放入集合G中;从集合G中需填充的关键字中随机选取τ位关键字进行填充以生成伪文件v,其中τ是从范围[l,u]中随机选取的,l和u分别是数据库中最小文件大小和最大文件大小;对所生成的伪文件v进行离群值检测,如果伪文件v没有被识别为离群值,则将所生成的伪文件v加入填充数据库,相应地,伪文件v中包含有某一关键字,集合G中与该关键字对应的需填充的伪文件的数量减1;如果伪文件v被识别为离群值,则重新从集合G中需填充的关键字中随机选取τ位关键字进行填充以生成伪文件v,如此循环,直至集合G中所有关键字对应的需填充的伪文件的数量为0;

b、根据更新操作动态调整填充数据库;

更新操作包括对关键字的添加操作和对关键字的删除操作;

若更新操作为对关键字的添加操作,则首先判断添加后的关键字频率是否最大,如果是,则根据此关键字频率对其他关键字进行填充;否则对填充数据库中此关键字对应的填充伪文件进行删除;

若更新操作为对关键字的删除操作,则对填充数据库中未填充此关键字的伪文件进行填充;

对关键字进行填充或将关键字对应的伪文件进行删除,均应首先进行尝试性更改伪文件,之后对伪文件进行离群值检测,如果伪文件没有被识别为离群值,则更改相应伪文件并更新填充数据库以及对应索引;如果伪文件被识别为离群值,则回滚到尝试性更改前的状态,并选择下一个伪文件进行尝试性更改,再对伪文件进行离群值检测,如此循环;

c、判断每个关键字的频率是否均相同,如果是,则更新操作完成;否则循环执行步骤b。

2.根据权利要求1所述的基于离群值检测技术和位图索引的动态数据库填充方法,其特征是,步骤a中,生成索引的依据如下:

根据位图索引的表示方法与运算规则:设数据库中包含n个文件,对于每个关键词,对应一个n位长的比特串,如果关键字存在于文件fi中,则将比特串的第i位设为1,否则设置为0;对于添加或者删除文件/关键字对,需要生成对应比特串并将其加到初始比特串上。

3.根据权利要求1所述的基于离群值检测技术和位图索引的动态数据库填充方法,其特征是,步骤b中,离群值检测的依据如下:

对于一个伪文件v,它的k近邻N(v)首先通过测量每个真实文件点的海明距离d来导出:

N(v)←{r∈D\v|d(v,r)≤k-dist(v)} (1)

其中r为真实文件,D为真实文件的集合,k-dist(v)是伪文件v和它的k近邻之间的距离,之后,可达距离计算如下:

reach-dist(v,r)=max{k-dist(r),d(v,r)} (2)

然后,伪文件v的局部可达性密度计算如下:

最后,计算离群因子LOF(v):

其中,lrd(r)为真实文件r的局部可达性密度;

经过计算LOF值来进行离群值检测,如果LOF(v)1,则表明此伪文件没有被识别为离群值,否则该伪文件被识别为离群值。

4.根据权利要求1所述的基于离群值检测技术和位图索引的动态数据库填充方法,其特征是,在生成伪文件的过程中,为了对所生成的符合条件的伪文件进行表示,采用一个m维的位向量,m是关键字空间的大小,若伪文件v中包含某一关键字,则在m维位向量中将与该关键字对应的位置设置为1;否则设置为0。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北大学,未经河北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110395631.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top