[发明专利]基于词向量表达和余弦相似度的银行全称快速匹配方法有效
申请号: | 201910851391.0 | 申请日: | 2019-09-10 |
公开(公告)号: | CN110598066B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 李振;鲍东岳;张刚;尹正 | 申请(专利权)人: | 民生科技有限责任公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06Q40/02 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
地址: | 101300 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 向量 表达 余弦 相似 银行 全称 快速 匹配 方法 | ||
本发明提供了一种基于词向量表达和余弦相似度的银行名称快速匹配方法,所述快速匹配方法将银行名称库作为训练集,通过对训练集进行训练,获取词向量矩阵和训练模型,随后对需要匹配的银行名称进行切分和词向量处理,最后基于余弦相似度的计算方法,将需要检索的词向量处理结果与词向量矩阵转置相乘,以相乘后的矩阵每一行最大值结果,结合检索的词与训练模型中的比对结果,获取银行名称,为了提高速度,转化成矩阵相乘与2进程同时计算,最终可以达到2000条2s的速度;每一行为一个输入与银行库中记录的结果,词向量之间的余弦相似度,通过矩阵运算,大大减小了使用循环的速度。
技术领域
本发明属于银行信息处理技术领域,具体涉及一种基于词向量表达和余弦相似度的银行全称快速匹配方法。
背景技术
在时代日益发展的今天,由于中小企业、微型企业的急剧增加,银行对公业务也持续增加,银行对公业务包括企业电子银行、单位存款业务、信贷业务、机构业务、国际业务、委托性住房金融、资金清算、中间业务、资产推介、基金托管等等。银行内部基本的部门和工作包括:储蓄(对私)、会计(对公)和信贷。会计是信贷的后台和服务部门,信贷是单位的存款和贷款业务,这些单位与银行发生的所有业务往来则都是通过会计部门实现的。具体来说,对公业务是以企业法人、单位等客户为主体,围绕公存账户开展各类支票、汇兑、贷款等业务,这些业务中,有大批量人工手动检索速度较慢的问题,目前市面上的文本相似度匹配的算法速度较慢,满足不了银行需要快速查找的需求。
发明内容
为了解决上述存在问题,1、银行内部对公业务有大量的此项任务,人工手动检索速度较慢;2、目前很多文本相似度匹配的算法速度较慢,满足不了银行需要快速查找的需求,本发明提供一种基于词向量表达和余弦相似度的银行全称快速匹配方法,所述快速匹配方法将银行全称库处理,得到训练集,通过对训练集进行训练,获取词向量矩阵和训练模型,随后对需要匹配的银行全称进行切分和词向量处理,最后基于余弦相似度的计算方法,将需要检索的词向量处理结果与词向量矩阵转置相乘,以相乘后的矩阵每一行最大值结果,结合匹配的银行全称与训练模型中的比对结果,获取银行全称;
进一步地,所述快速匹配方法包括:
S1:对银行全称库进行去词、切分和组合处理,获取训练集;
S2:对训练集进行词向量处理,获取训练集的tf-idf词向量矩阵,并每行做标准化处理,同时保存tf-idf词向量矩阵和训练模型;
S3:输入需要匹配的银行全称并对其进行去词、切分和组合处理,获得多个“2字词组”,并将去词、切分和组合处理后的银行全称以及多个“2字词组”转换为一个字符串,最后将字符串转化成tf-idf词向量;
S5:将S3中转化的tf-idf词向量与S2中训练集的tf-idf词向量矩阵的转置相乘,根据相乘后的矩阵结果,选择每一行中最大值的位置对应的银行全称;
S6:将需要匹配的银行全称与训练模型进行比对,根据比对结果和S5中的结果,得到的两部分银行全称合并,并输出最终结果;
进一步地,所述S1和S3中的去词、切分和组合处理具体为:
去词:去除银行全称中的无关键信息的文字,以减小计算量;
切分:对去除无关键信息文字后的银行全称进行分词处理,获得精简词条;
组合:将分词处理后的精简词条进行2字组合,获得多个“2字词组”;
S1中组合后的“2字词组”和多个精简词条的集合为训练集;
进一步地,切分处理中无关键信息的文字包括但不限于有限公司,股份有限公司,银行和支行;
进一步地,所述S3和S1中“2字词组”的获得方法为:从精简词条中任意选择两个字,按照精简词条中汉字的正序排列,进行所有可能的排列组合,构成“2字词组”;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于民生科技有限责任公司,未经民生科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910851391.0/2.html,转载请声明来源钻瓜专利网。