[发明专利]一种基于互异特征向量的重复物料实体识别方法在审
| 申请号: | 202110047689.3 | 申请日: | 2021-01-14 |
| 公开(公告)号: | CN112861918A | 公开(公告)日: | 2021-05-28 |
| 发明(设计)人: | 王红涛;冯连强;王志超;丁小梅;崔冬 | 申请(专利权)人: | 中国重型机械研究院股份公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安吉盛专利代理有限责任公司 61108 | 代理人: | 张培勋 |
| 地址: | 710032 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征向量 重复 物料 实体 识别 方法 | ||
1.一种基于互异特征向量的重复物料实体识别方法,其特征在于,包括以下步骤:
S1、输入物料数据集,输入物料数据的二维表;
S2、物料数据预处理,将所有物料记录根据物料所属类划分成相互独立的记录块;
S3,构建互异特征向量与类别向量,针对每一个独立的物料记录块,根据记录块内每一条物料记录之间的特征描述差异,两两构建物料记录之间的互异特征向量以及物料记录之间相似与否的类别向量;
S4、训练和测试概率神经网络分类器,将同一物料记录块内的互异特征向量和类别向量分为训练样本和测试样本,在训练时,将训练样本的互异特征向量和类别向量输入概率神经网络分类器,得到训练好的概率神经网络分类器,之后将测试样本内的互异特征向量输入训练好的概率神经网络分类器,概率神经网络分类器输出类别向量,将输出的类别向量与测试样本的类别向量对比,若对比结果合格,则认为概率神经网络分类器训练完毕,若不合格,则重新划分训练样本和测试样本再次训练和测试;
S5、获取待测物料记录的互异特征向量,按照S1、S2和S3的步骤获取待测物料记录的互异特征向量;
S6、相似性识别结果,将S5中获得的物料记录的互异特征向量输入训练完毕的概率神经网络分类器,如果概率神经网络分类器的输出结果为1,表示两个物料记录在语义表达上存在差异,如果概率神经网络分类器的输出结果为0,则表示两个物料记录在语义表达上相同。
2.根据权利要求1所述的一种基于互异特征向量的重复物料实体识别方法,其特征在于:所述S2之前,还对物料数据二维表中的物料名称字段采用数据倒置算法对所有物料记录的物料名称字段进行数据倒置操作,并将将倒置后的物料名称字段,按照字典中的字母顺序进行升序排列。
3.根据权利要求1所述的一种基于互异特征向量的重复物料实体识别方法,其特征在于:所述S2中,运用倒排索引的方法,将所有物料记录根据物料所属类划分成相互独立的记录块。
4.根据权利要求1所述的一种基于互异特征向量的重复物料实体识别方法,其特征在于:所述S3中,构建互异特征向量与类别向量的具体方法为,
第一步,不重复地提取一个记录块中的所有关键字集合,W={word1,word2,...,wordn},并按照字母顺序升序排列;
第二步,将相互比较的记录对表示成互异特征向量的形式,即:D(Rs,Rt)=[M1,M2,...,Mn],其中Rs和Rt表示相互比较的两个物料实体名称,Mi是一个0-1变量,若Mi=0,则说明wordi是两个物料名称的共有词或者两个名称中都不包括的词;若Mi=1,则说明wordi是两个物料名称的差异词,即wordi只在Rs中或者只在Rt中出现;
第三步,构建物料类别向量,类别向量由C表示,是0-1变量,若C=1,代表两个物料名称语义表达上存在差异,如果C=0,则代表物料名称语义表达相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国重型机械研究院股份公司,未经中国重型机械研究院股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110047689.3/1.html,转载请声明来源钻瓜专利网。





