[发明专利]公司名称的匹配方法、装置、计算机设备及存储介质有效

专利信息
申请号: 202110248504.5 申请日: 2021-03-08
公开(公告)号: CN112597284B 公开(公告)日: 2021-06-15
发明(设计)人: 黄文辉;廖志军;黄咏毫;万赐华;冯璐茜 申请(专利权)人: 中邮消费金融有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/335
代理公司: 广州微斗专利代理有限公司 44390 代理人: 唐立平
地址: 511458 广东省广州市南沙区海*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 公司名称 匹配 方法 装置 计算机 设备 存储 介质
【说明书】:

发明涉及一种公司名称的匹配方法、装置、计算机设备及存储介质,该公司名称的匹配方法包括如下步骤:S1:接收用户提交的公司名称;S2:对公司名称进行分词,并根据分词结构计算词的频次和词的权重;S3:以公司名称为点,相同词为边,构建点边关系;S4:有相同的边关系的两个公司名称,计算莱文斯坦距离相似度,并根据词权重计算两个公司名称的余弦距离相似度;S5:过滤掉低于阈值的边,量化出公司名称的相似度;S6:根据过滤后的边数据,计算连通图,将数据进行划分,找出相似或者相同的公司名称;该公司名称的匹配方法、装置、计算机设备及存储介质通过构建边关系避免两两计算,大量减少了计算量,提高计算效率和计算的准确性。

技术领域

本发明涉及软件开发技术领域,特别涉及一种公司名称的匹配方法、装置、计算机设备及存储介质。

背景技术

大规模数据集公司名模糊匹配,是在海量公司名数据中找出同一个公司在不同的公司名称呼表达方式的集合。现有技术中,公开的公司名模糊匹配使用的算法为人工或者做切词,对公司名进行标准化,两两比对,对降低两两比对次数上并没有做优化。

目前针对大规模数据集的公司名模糊匹配算法较少,主要是两两比对公司名的算法较多,多模糊匹配算法在性能上频次过高,且准确率低,导致计算大规模数据集较慢或不能计算,比对的算法比较单一,容易受某一些因素影响导致模糊匹配结果不够准确。

因此,亟需一种效率较高、准确性较好的匹配方法。

发明内容

基于此,有必要提供一种效率较高、准确性较好的公司名称的匹配方法、装置、计算机设备及存储介质。

本发明实施例一方面提供一种公司名称的匹配方法,包括如下步骤:

S1:接收用户提交的公司名称;

S2:对公司名称进行分词,并根据分词结构计算词的频次和词的权重;

S3:以公司名称为点,相同词为边,构建点边关系;

S4:有相同的边关系的两个公司名称,计算莱文斯坦距离相似度,并根据词权重计算两个公司名称的余弦距离相似度;

S5:过滤掉低于阈值的边,量化出公司名称的相似度;

S6:根据过滤后的边数据,计算连通图,将数据进行划分,找出相似或者相同的公司名称。

优选地,对公司名称进行分词,并根据分词结构计算词的频次和词的权重包括:

1)分词:公司名称使用jieba分词,如果有行政区,要补充公司名称中的行政区;将全量公司名称分词后,形成公司名称的分词库;

2)计算词的频次:根据分词结果,统计每个分词在全量公司名称中出现的频率,对于出现频次大于设定阈值的词作为无意义词;

3)计算词的权重:根据所有的公司名称切出来的词, 计算TF-IDF。

优选地,根据TF-IDF=TF*IDF公式,得出公司名称的分词计算公司:

TF=该分词i在公司名称j的出现频次/公司名称j的分词数量。

优选地,以公司名称为点,相同词为边,构建点边关系包括:

对海量的公司名称,根据公司名称有相同的词,则将他们建立边关系,构边计算;

构边时,将相同词的公司名称分为一个数据集,将数据集中数据量大于阈值的词进行分级膨胀。

优选地,所述分级膨胀的步骤包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中邮消费金融有限公司,未经中邮消费金融有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110248504.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top