[发明专利]基于Merkle-tree的工业生产数据实体识别方法有效
| 申请号: | 201910035568.X | 申请日: | 2019-01-15 |
| 公开(公告)号: | CN109783698B | 公开(公告)日: | 2023-05-26 |
| 发明(设计)人: | 王妍;曾辉;杨冰清;李玉诺 | 申请(专利权)人: | 辽宁大学 |
| 主分类号: | G06F16/901 | 分类号: | G06F16/901 |
| 代理公司: | 沈阳杰克知识产权代理有限公司 21207 | 代理人: | 罗莹 |
| 地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 merkle tree 工业生产 数据 实体 识别 方法 | ||
1.基于Merkle-tree的工业生产数据实体识别方法,其特征在于:其步骤为:
步骤1)、针对工业生产数据的浮动性,利用矩阵及向量的性质,对数据进行相应的标准化处理,确保同一实体的数值型属性值相同;
1.1)通过实体的标准名称对原始数据集进行采样,得到的样本集称为标准实体样本集S;计算a(i)′·b={a(i)′·b(k1),a(i)′·b(k2)……a(i)′·b(kn)},
a(i)′·b(key)={a(i)′·b(1),a(i)′·b(2)……a(i)′·b(n)},a(i)′代表a(i)的转置;
元组向量集合a={a(i)|a(i)∈A,i=1,2,3……n};
标准实体矩阵集合b={b(key)|key:标准实体名称},其中,矩阵b(key)={b(j)|b(j)∈S,j=1,2,3……n};
1.2)根据向量余弦公式计算出每个向量a(i)′·b(key)中各个向量的余弦值,形成一个余弦值向量c(key)={cosθ1,cosθ2,cosθ3,...,cosθk};
1.3)将每个向量c(key)中的元素求和,然后计算其平均值avg;
1.4)计算max(avg),找出最大avg对应的标准实体,计算其各个属性平均值;
1.5)将对应的各属性平均值作为其标准值,完成数据标准化处理;
步骤2)、计算各属性列的信息熵,获取属性敏感度强弱信息,去除敏感度低的属性,将其余属性根据敏感度降序排序;
利用信息熵判定属性的敏感度,属性的信息熵越大,说明其属性值越多样化,区别实体的能力也就越强,即属性敏感度越高;信息熵公式如下:
其中,pi是属性中某一属性值出现的概率;去除信息熵低的属性,根据信息熵大小,将属性降序排序,先计算敏感度大的属性哈希值;
步骤3)、提出一种链式结构,称作“St-Chain”;基于St-Chain对排序后的属性进行渐进式哈希编码,将哈希值相同的实体划分到同一块中;
3.1)根据排序后的属性顺序,计算各元组中某个属性的哈希值;
3.2)根据哈希值异同,将数据化分成块,形成链式结构“St-Chain”;
步骤4)、对于步骤3)中得到的结构,继续计算各元组中后续属性的哈希值,根据哈希值异同,重复划分成块,最终得到实体识别结果;
4.1)根据步骤3)得到的St-Chain结构,若结构中num大于1;则继续计算该块中后续属性哈希值,根据哈希值异同继续分块;若num=1,说明该块中的实体不存在同一性问题,不需要计算后续属性哈希值;
4.2)重复1)的操作,直至实体识别完成,得到最终识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910035568.X/1.html,转载请声明来源钻瓜专利网。





