[发明专利]一种基于计算机大数据的数据分类系统有效

专利信息
申请号: 202010663513.6 申请日: 2020-07-10
公开(公告)号: CN111814882B 公开(公告)日: 2021-06-22
发明(设计)人: 徐惠红 申请(专利权)人: 辽东学院
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京卓特专利代理事务所(普通合伙) 11572 代理人: 段宇
地址: 118003 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 计算机 数据 分类 系统
【权利要求书】:

1.一种基于计算机大数据的数据分类系统,其特征在于,所述数据分类系统包括云计算设施,所述云计算设施允许用户配置远程的、虚拟的计算系统和数据中心,并在这些远程的计算机系统和数据中心内执行各种类型的计算任务,所述云计算设施向用户提供映射到实际物理服务器、计算机、数据存储子系统和其它远程物理数据中心组件的虚拟系统和数据中心,在云计算环境中,数据被存储在计算机系统中相对大的文件对象或块内,所述文件对象或块与唯一标识符相关联,所述文件对象或块,表示由云计算设施内提供的数据存储子系统提供的数据存储的基本单元,所述文件对象或块内包括相应的记录,所述记录由密钥或密钥值组成,密钥值包括数据类型的指示以及键值,由此通过云合并分类操作对记录进行排序,所述文件对象或块包括kmax个数据记录,当在最下面一组块中的记录未被排序时,按递增或递减的键顺序排序,其中由云合并分类产生的记录的顺序由用于在云合并分类内部操作期间比较记录密钥对的关系算子的实现来定义,当键值在键值的合并-分类范围内时,键值可以直接从选项数据结构移动到当前输出块中,在选项数据结构之一中找到下一个最高的键值,以及从输入块之一中提取具有尚未存储在选项数据结构中的下一最高键值的记录;将每条数据记录看成是粒子,获得的kmax将用于生成控制变量,所述控制变量将用于确定每个粒子中的活动分类数量k,k∈kmax,采用局部密度的识别方法获取kmax,通过找到具有高密度的代表的数据记录的数量,就可以得到用于分组数据的分类数量,通过计算所有数据记录的密度为分类数据集选择核心对象,并根据密度将所有数据记录降序排列,密度最大的数据记录首先被拾取,它的近邻被形成一个原子团,在形成第一个原子簇之后,对剩余的簇重复这个过程,以找到其余的簇中心及其响应的邻居,从而得到原子簇的集合;

采用局部密度的识别方法获取kmax的步骤包括:

设X是具有m个属性的n个分类数据记录的集合,每个数据记录可以用一组m个分类属性来描述,因此xi={xi1,xi2,…,xim},分类数据密度定义如下:

对象xj∈X定义为核心对象xi的最近邻居,其距离dijdc,其中dc为截止距离,采用汉明距离度量法计算两个范畴对象之间的距离,汉明距离度量法测量二进码上的距离,如果两个分类值不同,则它们之间的距离为1,否则,对于两个相同的特征,距离为0,截止距离的选择是基于邻居数量为数据对象数量的1-2%;

采用分类紧密性π和模糊分离sep作为目标函数,这两个值的计算方法如下:

W=(Wji)为模糊隶属度矩阵,令k=kmax,Z={z1,z2,…,zk}为簇中心集,α为权重因子,d(xi,zj)为对象i到簇j的距离,d(zj,zl)为簇j到l的距离。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽东学院,未经辽东学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010663513.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top