[发明专利]一种基于互异特征向量的重复物料实体识别方法在审
申请号: | 202110047689.3 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112861918A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 王红涛;冯连强;王志超;丁小梅;崔冬 | 申请(专利权)人: | 中国重型机械研究院股份公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安吉盛专利代理有限责任公司 61108 | 代理人: | 张培勋 |
地址: | 710032 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征向量 重复 物料 实体 识别 方法 | ||
本发明公开了一种基于互异特征向量的重复物料实体识别方法,包括以下步骤:S1、输入物料数据集S2、物料数据预处理,S3,构建互异特征向量与类别向量;S4、训练和测试概率神经网络分类器,S5、获取待测物料记录的互异特征向量;S6、将S5中获得的物料记录的互异特征向量输入训练完毕的概率神经网络分类器,如果概率神经网络分类器的输出结果为1,表示两个物料记录在语义表达上存在差异,如果概率神经网络分类器的输出结果为0,则表示两个物料记录在语义表达上相同。考虑实体特征描述之间的差异,充分利用实体自身的特征信息,来解决通用知识库在测度不同领域实体之间语义相似性的局限性。
技术领域
本发明属于实体识别技术领域,具体涉及一种基于互异特征向量的重复物料实体识别方法。
背景技术
重复实体识别,又称为实体识别,是在数据库中识别哪些记录表示现实世界同一实体的过程。重复记录的识别和检测是学术界和业界普遍关心的问题,已经引起了数据库、信息系统及其他相关领域学者的研究兴趣,对该问题的研究取得了丰富的成果。
现有的实体识别方法,大多采用基于文本相似度函数的字符串匹配方法,如编辑距离方法、向量空间模型方法(Vector Space Model,VSM)等,即根据两条记录对应属性的字符匹配程度来判断两条记录的相似性。
黄林晟,邓志鸿,唐世渭,王文清,陈凌在其发表的论文“基于编辑距离的中文组织机构名简称-全称匹配算法”(山东大学学报(理学版),2012年)中提出了一种基于编辑距离思想的中文实体名称匹配方法。该方法首先对实体名称进行分词,之后通过调整编辑距离的权重测度实体名称之间的相似性。该方法存在的不足之处是,采用编辑距离计算实体名称之间的相似性,忽略了实体名称之间的语义相似性,导致识别准确性低下。
南京邮电大学申请的专利“一种基于编辑距离的数据相似度检测方法”(申请公布号:CN109117464A,申请号:2018109261255)中提出了一种基于编辑距离的字符串相似度检测算法。该方法通过获取两个字符串之间的编辑距离、最长公共子序列、最长公共子串来测度字符串之间的相似度。该方法存在的不足之处是,该方法通过编辑距离计算字符串之间的相似度,没有考虑字符串之间的语义相似性,造成计算准确率低下。
除编辑距离方法以外,向量空间模型(Vector Space Model,VSM)也是信息检索和文本挖掘领域常用的文本相似度计算方法,该方法结合字符出现的频次与权重计算文本之间的相似性。厦门美域中央信息科技有限公司申请的专利“一种基于向量空间模型的文本分类及R语言实现”(申请公布号:CN110750639A,申请号:CN201910587852.8)中提出了一种基于向量空间模型的文本相似度检测方法。该方法首先构建文本之间的向量空间模型,进而通过比较向量夹角与设定阈值之间的关系来测度文本之间的语义相似性。这种方法只考虑文本描述之间的表象特征,忽略了文本之间的语义相似性,在一定程度上影响文本分类的准确性。
通过对上述相关研究的分析总结发现,当前主流的重复记录识别算法大都基于如下假设:无论是输入错误或是不同的表达等原因,同一实体的属性值在表象上相差不大。比如“Jone Doe”与“Jonn Doe”,虽然字符串表象上有细微差异,但有可能表示的是同一个人。然而,这个假设在识别重复物料记录时并不成立。对于物料名称来说,即使两条物料记录在命名及表达上相差甚远,但它们仍然可能代表的是同一种物料;或者两条物料记录在命名及表达上极为相近,但有可能代表的是完全不同的两种物料。例如“无油轴承”与“自润滑轴承”,不同的名字描述的却是同一种物料;又如“无油轴承”与“有油轴承”,相近的物料名称,描述的却是两种不同的物料。也就是说,在识别重复物料记录方面,不仅仅要考虑字符串本身,还要考虑字符之间的语义相似性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国重型机械研究院股份公司,未经中国重型机械研究院股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110047689.3/2.html,转载请声明来源钻瓜专利网。