[发明专利]企业自然人实体综合判断对齐方法及系统在审
申请号: | 201911424404.2 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111241153A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 李焕;刘世林;罗镇权;张发展;康青杨;吴桐;曾途 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610093 四川省成都市武侯*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业 自然人 实体 综合 判断 对齐 方法 系统 | ||
本发明涉及企业自然人实体综合判断对齐方法及系统;本发明方法及系统引入机器学习方法,综合多个企业投资数据特征,对不同企业的重要同名自然人是否是同一自然人做出准确的判断。选取企业投资路径的远近来作为判断相同姓名自然人是否是同一人的主要判断依据之一,充分使用企业投资数据的本来特性,同时借助企业名称、企业地址以及同名自然人数量等综合特征来构建模型。集成多个特征相互配合共同得出计算结果,判断结果准确率非常高;为企业自然人实体对齐提供十分重要且有效的方法。
技术领域
本发明涉及自然语言处理技术领域,特别涉及企业自然人实体综合判断对齐方法及系统。
背景技术
随着大数据技术的发展,对于不同数据源中的自然人是否是同一的判断越来越重要;自然人重名的情况十分常见,再者现实生活中,经常出现同一自然人投资多家企业的情况。大数据技术中,将企业和股东、高管等信息抽离出来建立起知识图谱,对于市场调查,投资分析,金融监管等领域有十分重要的应用。当将多个数据源中的信息提取出来时进行关联分析时,身份的唯一性识别就变得非常重要。比如说在绘制关联图谱时,如果不能判断不同企业信息的自然人是同一个人,则不会将图谱节点进行合并,会在一张图谱中出现多个同名节点(这些节点事实上是同一个实体自然人),影响图谱的推理分析能力。且同一人身份的判断的准确性要求很高,不确定同名的两个人是同一个人的情况下,贸然将不同的数据进行合并,则可能产生关联网络构建的错误。
目前识别企业间同名人的方法主要依赖于数据,如招聘数据、身份证数据。现有的情况是大多数数据来源都不会公布身份证信息;一则进行隐私保护,二则信息简化;比如工商登记信息中不含有股东等人的身份证信息。或者从其他海量的非正式文本比如新闻、舆情等中获取的数据中更不会含有身份证信息。因此面临巨大的实体识别需求,急需一种准确高效的企业自然人实体唯一性识别方法。
发明内容
本发明的目的在于提供企业自然人实体综合判断对齐方法及系统;充分挖掘数据的关联性,发挥数据集成分析的优势;引入机器学习方法,综合多个企业投资数据特征,对不同企业的重要同名自然人是否是同一自然人做出准确的判断。
为解决上述技术问题,本发明实施例提供了以下技术方案:
企业自然人实体综合判断对齐方法,利用企业投资关系的远近等特征来辅助判断不同企业间相同姓名的自然人是否是同一人。当两个企业投资关系度数小于设置阈值时,认为这两个企业间相同姓名的自然人是同一人。本专利中自然人为企业的主要股东、董事、监事、高管等。
包含以下实现步骤:
(1)获取企业数据,所述企业数据包含投资关系、主要相关自然人、企业地址、企业名称;
(2)用包含企业间投资路径、企业名称相似性、企业地址相似性、同名自然人个数的特征向量来构建判断模型;
(3)使用标注数据训练模型;
(4)将待判定企业对之间的特征向量输入到训练后的模型中,由模型判断出同名自然人是否是同一人的概率;当概率值大于设置阈值时判断为同一人。
进一步的,所述步骤(2)中的投资路径数据为两企业之间的最短投资路径。
进一步的,所述方法包含将投资路径数据向量化转化的过程。
进一步的,所述步骤(2)中所述特征向量为:x=[X1、X2、X3、X4…];
其中X为待判定企业对的特征向量数据,X1为最短投资路径的倒数,X2为同名自然人个数、X3为企业名称关键字的相似度、X4企业地址的相似度。
进一步的,所述模型公式为:
其中f(x)为不同企业同名人为同一人的概率;其中θ为模型需要训练的参数,x为量化后的特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911424404.2/2.html,转载请声明来源钻瓜专利网。