[发明专利]一种基于互异特征向量的重复物料实体识别方法在审

申请号：	202110047689.3	申请日：	2021-01-14
公开（公告）号：	CN112861918A	公开（公告）日：	2021-05-28
发明（设计）人：	王红涛;冯连强;王志超;丁小梅;崔冬	申请（专利权）人：	中国重型机械研究院股份公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	西安吉盛专利代理有限责任公司 61108	代理人：	张培勋
地址：	710032 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于特征向量重复物料实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于互异特征向量的重复物料实体识别方法，其特征在于，包括以下步骤：

S1、输入物料数据集，输入物料数据的二维表；

S2、物料数据预处理，将所有物料记录根据物料所属类划分成相互独立的记录块；

S3，构建互异特征向量与类别向量，针对每一个独立的物料记录块，根据记录块内每一条物料记录之间的特征描述差异，两两构建物料记录之间的互异特征向量以及物料记录之间相似与否的类别向量；

S4、训练和测试概率神经网络分类器，将同一物料记录块内的互异特征向量和类别向量分为训练样本和测试样本，在训练时，将训练样本的互异特征向量和类别向量输入概率神经网络分类器，得到训练好的概率神经网络分类器，之后将测试样本内的互异特征向量输入训练好的概率神经网络分类器，概率神经网络分类器输出类别向量，将输出的类别向量与测试样本的类别向量对比，若对比结果合格，则认为概率神经网络分类器训练完毕，若不合格，则重新划分训练样本和测试样本再次训练和测试；

S5、获取待测物料记录的互异特征向量，按照S1、S2和S3的步骤获取待测物料记录的互异特征向量；

S6、相似性识别结果，将S5中获得的物料记录的互异特征向量输入训练完毕的概率神经网络分类器，如果概率神经网络分类器的输出结果为1，表示两个物料记录在语义表达上存在差异，如果概率神经网络分类器的输出结果为0，则表示两个物料记录在语义表达上相同。

2.根据权利要求1所述的一种基于互异特征向量的重复物料实体识别方法，其特征在于：所述S2之前，还对物料数据二维表中的物料名称字段采用数据倒置算法对所有物料记录的物料名称字段进行数据倒置操作，并将将倒置后的物料名称字段，按照字典中的字母顺序进行升序排列。

3.根据权利要求1所述的一种基于互异特征向量的重复物料实体识别方法，其特征在于：所述S2中，运用倒排索引的方法，将所有物料记录根据物料所属类划分成相互独立的记录块。

4.根据权利要求1所述的一种基于互异特征向量的重复物料实体识别方法，其特征在于：所述S3中，构建互异特征向量与类别向量的具体方法为，

第一步，不重复地提取一个记录块中的所有关键字集合，W＝{word₁,word₂,...,word_n}，并按照字母顺序升序排列；

第二步，将相互比较的记录对表示成互异特征向量的形式，即：D(R_s,R_t)＝[M₁,M₂,...,M_n]，其中R_s和R_t表示相互比较的两个物料实体名称，M_i是一个0-1变量，若M_i＝0，则说明word_i是两个物料名称的共有词或者两个名称中都不包括的词；若M_i＝1，则说明word_i是两个物料名称的差异词，即word_i只在R_s中或者只在R_t中出现；

第三步，构建物料类别向量，类别向量由C表示，是0-1变量，若C＝1，代表两个物料名称语义表达上存在差异，如果C＝0，则代表物料名称语义表达相同。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国重型机械研究院股份公司，未经中国重型机械研究院股份公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110047689.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种适用于酒店装修环境的隔尘阻音设备
下一篇：一种适用于酒店装修用智能化节能通风系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于互异特征向量的重复物料实体识别方法在审

专利文献下载