[发明专利]一种基于模糊层次分析的主数据归集方法在审

申请号：	201410522687.5	申请日：	2014-09-30
公开（公告）号：	CN104268247A	公开（公告）日：	2015-01-07
发明（设计）人：	李明阳;屈乐圃;米岩;辛鹏飞;张金;靳锐;张国栋	申请（专利权）人：	北京首钢自动化信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06Q50/00
代理公司：	北京华谊知识产权代理有限公司 11207	代理人：	刘建民
地址：	100041***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于模糊层次分析数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于冶金行业信息化技术领域，涉及一种基于模糊层次分析的主数据归集技术。

背景技术

本发明公开了一种基于模糊层次分析的主数据归集技术。企业主数据具有元数据多样复杂、数据来源层级较多收集困难、数据频繁变化率高、系统更新不及时等特性，传统企业主数据收集基本靠人工收集，对数据质量要求很高，出错率较大，重复性工作较多。业界虽然有部分成型的数据收集软件，如SAP mdm，Oracle EBS等，虽然可以做到数据一致性、完整性，但收集的数据仅限于内部系统，且内部逻辑不强，一次变动需调整的数据量大，且耗时较长，面临后续数据维护工作繁重的问题。本发明另辟蹊径，针对行业特点，在模糊层次法的基础上，采用数据分层级处理、规则权重分配、多关键字模糊匹配的方法，然后通过对有限指令集的动态组装来实现组件化，最后结合规格再校验，动态解析方式实现数据收集方面的一次收集、较少维护、动态逻辑更新的数据归集技术，让用户不用再抱怨数据收集中的诸多问题，并且数据后期维护简单、快捷，能不断提高效率与快速响应用户需求的服务能力。

发明内容

本发明重点应用模糊层次分析理论，通过归集整理出主数据的基本构成单元，即元数据，对其进行属性定义和编排，对全数据建立索引，抽取典型属性值的关键字，对元数据原始文件进行语义分析，进而分词处理，结合索引，模糊匹配。从传统的单纯人工收集、人工校对转变为基础数据人工收集、深层次动态匹配，参考面多，避免重复工作、容错率低，可信度高，数据后期维护简单、快捷。

为达到上述目的，一种基于模糊层次分析的主数据归集技术，采用先层次划分、再关键字抽取形成规则、而后模糊匹配的策略。该技术包括以下几个关键组成部分：

(1)元数据定义：企业数据进行分级分层，层级定义需严谨、可扩展化、期间引进有意义的赋值编码唯一定义一条元数据，编码本身有特殊意义，即为层级划分对应的规则。

(2)属性值定义：针对需要分析处理的数据，定义其属性值，这里以代表冶金行业生产设备的技术参数为属性，清晰定义、避免重复、分类五个属性值。

(3)规则抽取：对于排序好的属性值，按照语义分析，做一步拆解加工，称为分词，对特殊符号进行剔除，形成传统意义上的关键字，结合排序规则，关键字再去重，去重之前进行权重分配，这里采用的是构造判断矩阵法，按照属性值前5个，通过成对比较法，列出矩阵，即为两个5X5矩阵做乘法运算，应用几何平均法(根法)：

计算判断矩阵A各行各个元素mi的乘积；

计算mi的n次方根；

对向量进行归一化处理；

该向量即为所求权重。

(4)索引建立：对目标匹配数据进行全数据索引，此索引随着目标数据的增减实时变动其索引文件，索引存储在服务器文件中。

(5)语模糊匹配：针对抽取的规则和关键字，将元数据和目标数据进行模糊匹配，其规则是优先权重、再次关键字、再次关键字数量，最终依照用户业务要求，选取元数据与N个目标值进行匹配，系统自动记录匹配关系，关系一旦建立，期初一步人工校验，作为主数据存储起来，之后元数据、或者目标数据发生变化，不需要人工维护，系统自动将原来的匹配关系重置，优化重组。

其中，所述采用层次分析法的构造矩阵来确定属性权重，是一种数学理论，这里简述：比较第i个元素与第j个元

素相对上一层某个因素的重要性时，使用数量化的相对权重a_ij来描述。设共有n个元素参与比较，则

A＝(a_ij)n×n称为成对比较矩阵。构成成对比较矩阵是层次分析法的数量依据，针对具体问题由各个领域的经验丰富、判断力强的专家给出。

另外，该技术封装了表达式可引用的通用方法lucene进行目标数据的分词索引建立方法以供调用，其特点为：

(1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式，使得兼容系统或者不同平台的应用能够共享建立的索引文件。

(2)在传统全文检索引擎的倒排索引的基础上，实现了分块索引，能够针对新的文件建立小文件索引，提升索引速度。然后通过与原有索引的合并，达到优化的目的。

(3)优秀的面向对象的系统架构，使得对于Lucene扩展的学习难度降低，方便扩充新功能。

(4)设计了独立于语言和文件格式的文本分析接口，索引器通过接受Token流完成索引文件的创立，用户扩展新的语言和文件格式，只需要实现文本分析的接口。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京首钢自动化信息技术有限公司，未经北京首钢自动化信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410522687.5/2.html，转载请声明来源钻瓜专利网。