[发明专利]血缘分析方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202110336649.0 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112860784A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 张兴思 | 申请(专利权)人: | 中信银行股份有限公司 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/28 |
代理公司: | 北京市兰台律师事务所 11354 | 代理人: | 李浩;张峰 |
地址: | 100020 北京市朝阳区光*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 血缘 分析 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本申请涉及网上交易技术领域,尤其涉及一种血缘分析方法、装置、电子设备及计算机可读存储介质。该血缘分析方法包括:对多个指标的名称进行语义相似度分析,确定多个指标的名称相似度;对多个指标进行维度分析,确定多个指标的维度相似度;基于所述多个指标的名称、名称相似度、维度、维度相似度以及确定的度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
技术领域
本申请涉及网上交易技术领域,尤其涉及一种血缘分析方法、装置、电子设备及计算机可读存储介质。
背景技术
现有技术中,在进行血缘分析时,有几种常规分析方式,如直接读取元数据库及通过SQL解析提取加工规则和表间映射关系等方式,对于上述两种方式,原理上全部依赖于技术元数据,如此处理应用范围窄、开发成本高,具有如下几个缺陷:
开发复杂度极高:传统的分析模式依赖于底层元数据的完善度和脚本的标准度。现实中指标的加工经过复杂的数据链条,且数据源基本都是异构的。异构数据库的SQL语句会有差别,故SQL解析引擎开发的工作量极高,需要针对不同的计算引擎单独开发。
精细度不足:血缘关系分析时只能分析到表级和字段级影响,无法做到记录集的血缘分析。譬如APP端交易量和PC端交易量两个指标,两个指标都是通过同表同字段加工而成,传统的字段级分析方法无法再做精细化分析。
应用面固化:传统的血缘分析方案因为是基于技术元数据的分析,所以使用人员和表现形式通常仅对于技术人员使用,应用领域也局限于数据管控领域,无法上升到业务层,与业务分析出现严重断层。
影响分析滞后:通常是上游系统告知数据问题,下游系统再通过血缘分析判断指标的影响范围,反向分析无法支持。因为传统方法无法通过反向分析完成问题定位,固无法在第一时间评估被影响范围。
因此,基于上述阐述,亟需一种血缘分析方法来克服现有血缘分析方法所带来的缺陷问题。
发明内容
本申请提供了一种血缘分析方法、装置、电子设备及计算机可读存储介质,以克服现有技术中进行血缘分析方法的应用范围窄、开发成本高的缺陷。
第一方面,提供了一种血缘分析方法,包括:
对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;
对所述多个指标进行维度分析,确定所述多个指标的维度相似度;
基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。
在一个可能地实现方式中,所述对多个指标的名称进行语义分析,确定所述多个指标的名称相似度,包括:
根据所述多个指标中任一指标的名称进行语义分析,得到所述任一指标的语义特征向量;
根据任意两个语义特征向量计算其对应夹角的余弦值;
根据所述余弦值确定所述任一指标的名称相似度。
在一个可能地实现方式中,所述对所述多个指标进行维度分析,确定所述多个指标的维度相似度,包括:
基于所述多个指标中任一指标的名称及维度构建维度宽表;
对所述维度宽表中的数据进行维度拼接,得到维度拼接文档;
基于预设的开发词袋模型对所述维度拼接文档进行处理,得到分词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信银行股份有限公司,未经中信银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110336649.0/2.html,转载请声明来源钻瓜专利网。