[发明专利]一种基于模糊层次分析的主数据归集方法在审

专利信息
申请号: 201410522687.5 申请日: 2014-09-30
公开(公告)号: CN104268247A 公开(公告)日: 2015-01-07
发明(设计)人: 李明阳;屈乐圃;米岩;辛鹏飞;张金;靳锐;张国栋 申请(专利权)人: 北京首钢自动化信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06Q50/00
代理公司: 北京华谊知识产权代理有限公司 11207 代理人: 刘建民
地址: 100041*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 模糊 层次 分析 数据 方法
【说明书】:

技术领域

发明属于冶金行业信息化技术领域,涉及一种基于模糊层次分析的主数据归集技术。

背景技术

本发明公开了一种基于模糊层次分析的主数据归集技术。企业主数据具有元数据多样复杂、数据来源层级较多收集困难、数据频繁变化率高、系统更新不及时等特性,传统企业主数据收集基本靠人工收集,对数据质量要求很高,出错率较大,重复性工作较多。业界虽然有部分成型的数据收集软件,如SAP mdm,Oracle EBS等,虽然可以做到数据一致性、完整性,但收集的数据仅限于内部系统,且内部逻辑不强,一次变动需调整的数据量大,且耗时较长,面临后续数据维护工作繁重的问题。本发明另辟蹊径,针对行业特点,在模糊层次法的基础上,采用数据分层级处理、规则权重分配、多关键字模糊匹配的方法,然后通过对有限指令集的动态组装来实现组件化,最后结合规格再校验,动态解析方式实现数据收集方面的一次收集、较少维护、动态逻辑更新的数据归集技术,让用户不用再抱怨数据收集中的诸多问题,并且数据后期维护简单、快捷,能不断提高效率与快速响应用户需求的服务能力。

发明内容

本发明重点应用模糊层次分析理论,通过归集整理出主数据的基本构成单元,即元数据,对其进行属性定义和编排,对全数据建立索引,抽取典型属性值的关键字,对元数据原始文件进行语义分析,进而分词处理,结合索引,模糊匹配。从传统的单纯人工收集、人工校对转变为基础数据人工收集、深层次动态匹配,参考面多,避免重复工作、容错率低,可信度高,数据后期维护简单、快捷。

为达到上述目的,一种基于模糊层次分析的主数据归集技术,采用先层次划分、再关键字抽取形成规则、而后模糊匹配的策略。该技术包括以下几个关键组成部分:

(1)元数据定义:企业数据进行分级分层,层级定义需严谨、可扩展化、期间引进有意义的赋值编码唯一定义一条元数据,编码本身有特殊意义,即为层级划分对应的规则。

(2)属性值定义:针对需要分析处理的数据,定义其属性值,这里以代表冶金行业生产设备的技术参数为属性,清晰定义、避免重复、分类五个属性值。

(3)规则抽取:对于排序好的属性值,按照语义分析,做一步拆解加工,称为分词,对特殊符号进行剔除,形成传统意义上的关键字,结合排序规则,关键字再去重,去重之前进行权重分配,这里采用的是构造判断矩阵法,按照属性值前5个,通过成对比较法,列出矩阵,即为两个5X5矩阵做乘法运算,应用几何平均法(根法):

计算判断矩阵A各行各个元素mi的乘积;

计算mi的n次方根;

对向量进行归一化处理;

该向量即为所求权重。

(4)索引建立:对目标匹配数据进行全数据索引,此索引随着目标数据的增减实时变动其索引文件,索引存储在服务器文件中。

(5)语模糊匹配:针对抽取的规则和关键字,将元数据和目标数据进行模糊匹配,其规则是优先权重、再次关键字、再次关键字数量,最终依照用户业务要求,选取元数据与N个目标值进行匹配,系统自动记录匹配关系,关系一旦建立,期初一步人工校验,作为主数据存储起来,之后元数据、或者目标数据发生变化,不需要人工维护,系统自动将原来的匹配关系重置,优化重组。

其中,所述采用层次分析法的构造矩阵来确定属性权重,是一种数学理论,这里简述:比较第i个元素与第j个元

素相对上一层某个因素的重要性时,使用数量化的相对权重aij来描述。设共有n个元素参与比较,则

A=(aij)n×n称为成对比较矩阵。构成成对比较矩阵是层次分析法的数量依据,针对具体问题由各个领域的经验丰富、判断力强的专家给出。

另外,该技术封装了表达式可引用的通用方法lucene进行目标数据的分词索引建立方法以供调用,其特点为:

(1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。

(2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。

(3)优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。

(4)设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京首钢自动化信息技术有限公司,未经北京首钢自动化信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410522687.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top