[发明专利]一种基于模糊层次分析的主数据归集方法在审
申请号: | 201410522687.5 | 申请日: | 2014-09-30 |
公开(公告)号: | CN104268247A | 公开(公告)日: | 2015-01-07 |
发明(设计)人: | 李明阳;屈乐圃;米岩;辛鹏飞;张金;靳锐;张国栋 | 申请(专利权)人: | 北京首钢自动化信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 北京华谊知识产权代理有限公司 11207 | 代理人: | 刘建民 |
地址: | 100041*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 层次 分析 数据 方法 | ||
技术领域
本发明属于冶金行业信息化技术领域,涉及一种基于模糊层次分析的主数据归集技术。
背景技术
本发明公开了一种基于模糊层次分析的主数据归集技术。企业主数据具有元数据多样复杂、数据来源层级较多收集困难、数据频繁变化率高、系统更新不及时等特性,传统企业主数据收集基本靠人工收集,对数据质量要求很高,出错率较大,重复性工作较多。业界虽然有部分成型的数据收集软件,如SAP mdm,Oracle EBS等,虽然可以做到数据一致性、完整性,但收集的数据仅限于内部系统,且内部逻辑不强,一次变动需调整的数据量大,且耗时较长,面临后续数据维护工作繁重的问题。本发明另辟蹊径,针对行业特点,在模糊层次法的基础上,采用数据分层级处理、规则权重分配、多关键字模糊匹配的方法,然后通过对有限指令集的动态组装来实现组件化,最后结合规格再校验,动态解析方式实现数据收集方面的一次收集、较少维护、动态逻辑更新的数据归集技术,让用户不用再抱怨数据收集中的诸多问题,并且数据后期维护简单、快捷,能不断提高效率与快速响应用户需求的服务能力。
发明内容
本发明重点应用模糊层次分析理论,通过归集整理出主数据的基本构成单元,即元数据,对其进行属性定义和编排,对全数据建立索引,抽取典型属性值的关键字,对元数据原始文件进行语义分析,进而分词处理,结合索引,模糊匹配。从传统的单纯人工收集、人工校对转变为基础数据人工收集、深层次动态匹配,参考面多,避免重复工作、容错率低,可信度高,数据后期维护简单、快捷。
为达到上述目的,一种基于模糊层次分析的主数据归集技术,采用先层次划分、再关键字抽取形成规则、而后模糊匹配的策略。该技术包括以下几个关键组成部分:
(1)元数据定义:企业数据进行分级分层,层级定义需严谨、可扩展化、期间引进有意义的赋值编码唯一定义一条元数据,编码本身有特殊意义,即为层级划分对应的规则。
(2)属性值定义:针对需要分析处理的数据,定义其属性值,这里以代表冶金行业生产设备的技术参数为属性,清晰定义、避免重复、分类五个属性值。
(3)规则抽取:对于排序好的属性值,按照语义分析,做一步拆解加工,称为分词,对特殊符号进行剔除,形成传统意义上的关键字,结合排序规则,关键字再去重,去重之前进行权重分配,这里采用的是构造判断矩阵法,按照属性值前5个,通过成对比较法,列出矩阵,即为两个5X5矩阵做乘法运算,应用几何平均法(根法):
计算判断矩阵A各行各个元素mi的乘积;
计算mi的n次方根;
对向量进行归一化处理;
该向量即为所求权重。
(4)索引建立:对目标匹配数据进行全数据索引,此索引随着目标数据的增减实时变动其索引文件,索引存储在服务器文件中。
(5)语模糊匹配:针对抽取的规则和关键字,将元数据和目标数据进行模糊匹配,其规则是优先权重、再次关键字、再次关键字数量,最终依照用户业务要求,选取元数据与N个目标值进行匹配,系统自动记录匹配关系,关系一旦建立,期初一步人工校验,作为主数据存储起来,之后元数据、或者目标数据发生变化,不需要人工维护,系统自动将原来的匹配关系重置,优化重组。
其中,所述采用层次分析法的构造矩阵来确定属性权重,是一种数学理论,这里简述:比较第i个元素与第j个元
素相对上一层某个因素的重要性时,使用数量化的相对权重aij来描述。设共有n个元素参与比较,则
A=(aij)n×n称为成对比较矩阵。构成成对比较矩阵是层次分析法的数量依据,针对具体问题由各个领域的经验丰富、判断力强的专家给出。
另外,该技术封装了表达式可引用的通用方法lucene进行目标数据的分词索引建立方法以供调用,其特点为:
(1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
(2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。
(3)优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。
(4)设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京首钢自动化信息技术有限公司,未经北京首钢自动化信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410522687.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:单动双压压头铆接装置
- 下一篇:一种磨具导向装置