[发明专利]一种企业征信人名重名消歧的方法及运用该方法的征信系统在审
| 申请号: | 201710843051.4 | 申请日: | 2017-09-18 |
| 公开(公告)号: | CN107577791A | 公开(公告)日: | 2018-01-12 |
| 发明(设计)人: | 王云丽 | 申请(专利权)人: | 河北省科学院应用数学研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
| 代理公司: | 石家庄开言知识产权代理事务所(普通合伙)13127 | 代理人: | 赵俊娇 |
| 地址: | 050000 河北省石家庄*** | 国省代码: | 河北;13 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 企业 人名 重名 方法 运用 系统 | ||
技术领域
本发明涉及多实体消歧领域,特别是涉及一种面向企业征信领域的企业高管、股东、法人代表重名的消除歧义的方法和系统。
背景技术
随着创业的资金门槛要求越来越低,企业的真实征信状况就显得十分重要,合作商在考虑是否要与一个企业合作之前或者客户在考虑是否要将自己的需求委托给一个公司之前,都会考察该公司的征信情况。于是一些企业征信系统便应运而生了,企业征信系统可以帮助人们去初步了解一个企业的信用状况,帮助企业或个人做出较好的选择。同时,企业征信系统也具有约束性和影响力,让企业的投资人/高管/法人代表能够诚信经营,提高信用意识,建设和谐社会。
在实际生活中,重名问题在企业信息搜索过程中是很普遍的现象。虽然企业负责人等的个人信息是要到有关部门依法登记,但是很多私人信息(联系方式,身份证编号等)都是保密的,并不对外公开。因此,企业征信数据的来源很大一部分来自网络爬虫,很难得到企业负责人/股东/合伙人的一些个人信息。因此,通过重名但不同性别或者重名但不同身份证编号来区分的方法,在公众可获知的信息范围内就行不通了。目前,通过采集公众互联网信息、媒体信息聚合汇总形成“企业信用评价基础资料库”,并主要基于人工辨识方式和标注的方法解决重名消歧的问题。这种原始的方法,在数据量较少的情况下具有较高的可靠性;但是很显然人工辨识的方式效率偏低,比较费时费力,不适合拥有大量数据的系统,显然已经不能满足需求。
为此,有必要提出一种解决企业中投资人/高管等重名问题的方法,以及应用该方法的征信系统,以有效的解决企业人名消歧的问题,大大提高搜索的准确性,发现更多更全面的关于目标企业中投资人/高管的重要信息。
发明内容
本发明的目的是提出一种有效解决企业征信中人名重名问题的方法,以及运用该方法的企业征信系统。
为实现上述目的,本发明提供的技术方案包括:
根据本发明的一种企业征信人名重名消歧的方法,其适于在计算机设备中执行,该方法包括:
步骤a):检索出企业征信系统中企业关键人物包含某一确定人名的所有企业组成的合集,其中每一个企业实体都自成一个类簇;
步骤b):对步骤a)得到的各个元素,进行两两运算,计算任意两个企业的关键人物姓名的相似度值,若得到至少一个相似度值为1,则将两个企业归入到同一个类簇之下,否则不归入;
步骤c):根据步骤b)得到的类簇,比较任两个类簇的企业之间的投资参股关系,若发现某两个类簇内企业之间存在着投资参股关系,则将存在投资参股关系的企业所对应的类簇归并为一个类簇,否则不归并;
步骤d):根据步骤c)得到的类簇,罗列各类簇中企业名称,提取企业字号,计算任意两个类簇内企业字号之间的相似度值,若计算某两个类簇内企业字号存在至少一个相似度值为1的情况,则将该两个类簇归并为一个类簇,否则不归并;
步骤e):构建爬虫程序,爬取企业之间的业务往来关系,并比较步骤d)得到的类簇的任两个类簇内的企业之间业务往来关系,将存在关联业务关系的企业所对应的类簇归并为一个类簇,否则不归并;
步骤f):对步骤e)处理后得到的类簇进行两两运算,判断任两个类簇内企业注册地址的匹配度,若判断某两个类簇内企业注册地址存在相匹配的情况,则将该两个类簇归并为一个类簇,否则不归并;
以上步骤,除步骤a)之外,在一个步骤无法执行或无法完全执行时,将自动跳转到下一步,并将已经得到的计算结果作为该步骤完成执行后的结果转交到下一步;
经过上述运算,得到不同的类簇,使因该确定人名而重名的人被区分。
根据本发明方法的一个可行的实施例,所述步骤c)所述的投资参股关系是通过数据爬虫得到,具体是通过构建爬虫程序,爬取网络公开资料(尤其是企业官网主页或企业黄页)中有关某一个企业的义项,获得一个类簇中包含的所有的公司的对外投资清单,比较这些清单中的企业名称是否存在与另一个类簇中所包含的企业名称相同的情况,若存在相同的情况;则将这两个类簇再进行合并;否则不合并。
根据本发明的一个可行的实施例,其中步骤a)中所述的企业关键人物包括企业的法人代表、合伙人、股东和高级管理人员。
根据本发明方法的一个可行的实施例,其中步骤d)所述的提取企业字号,依据企业名称是由行政区划+字号+行业属性+组织形式构成的特性,采用双向最大匹配法、双向神经网络或深度学习法提取企业字号。
根据本发明方法的一个可行的实施例,其中步骤b)所述计算两个企业关键人物姓名的相似度值的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北省科学院应用数学研究所,未经河北省科学院应用数学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710843051.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像搜索方法及装置
- 下一篇:一种企业数据自动聚类的方法及其系统





