[发明专利]一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法在审
| 申请号: | 202011267511.1 | 申请日: | 2020-11-13 | 
| 公开(公告)号: | CN112256769A | 公开(公告)日: | 2021-01-22 | 
| 发明(设计)人: | 庞明宇 | 申请(专利权)人: | 北京海致星图科技有限公司 | 
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06Q40/02;G06Q40/04 | 
| 代理公司: | 北京成实知识产权代理有限公司 11724 | 代理人: | 张焱 | 
| 地址: | 100089 北京市石景*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 pregel 实现 挖掘 商业银行 交易 数据 资金 分布 方法 | ||
1.一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法,其特征在于:包括如下步骤:
步骤1:以转账交易数据构建边,形成一个有向图,图中每一条边都是一个转账交易行为,边的表达形式如下:(a,b,attrs),整个有向图的数学形式为:[(srcId,srcAttr),(dstId,dstAttr),(attr)];
其中a,b代表企业实体,attrs代表a和b转账行为的自有属性;
其中,srcId为a转账方节点id;
其中,srcAttr为a转账方节点自身属性;
其中,dstId为b转账方节点id;
其中,dstAttr为b转账方节点自身属性;
其中,attr为转账属性;
步骤2:利用Spark大数据的pregel,设计迭代算法,基于pregel实现,找出成环的资金流向。
2.根据权利要求1所述的一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法,其特征在于:attrs代表a和b转账行为的自有属性,该自有属性包括转账的时间、转账的金额、转账设备的ID以及转账设备网络IP地址。
3.根据权利要求1所述的一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法,其特征在于:srcAttr为a转账方节点自身属性,该自身属性包括企业属性以及个人属性。
4.根据权利要求1所述的一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法,其特征在于:attr为转账属性,且该转账属性包括转账金额、转账时间、转账类型以及转账用途。
5.根据权利要求1所述的一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法,其特征在于:所述步骤2中的迭代算法设计依据为根据业务需求而定,且业务需求限定为:Attr(x)=F(Attr(x-1)),其中,Attr代表某笔交易的转账属性,Attr(x-1)代表x-1刻的交易,Attr(x)代表第x刻的交易,F代表约束关系,或称为迭代条件,任何两笔相邻的转账都符合该种约束关系。
6.根据权利要求5所述的一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法,其特征在于:当F与转账金额,转账时间有关时,抽象表达如下:
F~(factor1,factor2,..);
其中,Factor,factor2表示迭代条件的要素,也是一笔转账里包含的属性,在图中为边属性。
7.根据权利要求6所述的一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法,其特征在于:假设限定迭代条件F~(factor1,factor2,...),迭代算法步骤如下:
S1:对有向图中所有节点设定初始属性attr,且attr包含srcId,作为自身节点的初始化属性id,以及自定义属性,用自己的节点id作为所属强连通分支的id,并将所有节点打上初始标记false;
S2:首先做循环,将只有出边或入边的节点标记为true,将“只存在单向边的或者孤立的节点”和“已经确认且打好标记的强连通分量”中的被标记为true的节点从有向图中去除;
S3:初始化完成自身的属性后,基于Pregel计算框架,开始分布式进行有向图的信息传递,图中每一条边沿着出边由src节点向dst节点发送自己的属性id,并且设置如下规则,只允许属性id小的节点向属性id大的节点传递信息,或者属性值大的往属性小的传递,取决于实现方法,该种操作会决定哪个节点会作为强连通分量的唯一性标记;
其中,在由src节点向dst节点传递的过程中,为了实现两笔转账的约束条件F,需要做如下操作:
在A传递到B的时候,需要连带边属性attr传入给B,作为B的节点属性,也即自定义属性,之后B传递给C时,B的节点属性需要与B-C转账的边属性进行比较,且需要满足F条件,否则B-C不往下传递,抽象表示如下:
F(attrAB,attrBC)=F(srcAttr_B,attrBC)=true;
S4:当深搜结束,Pregel中是人为设置遍历深度,默认为原图已被“着色”,有向图开始反向遍历,为着色完成的图中节点反向打标签以确定是否完成强连通分支id标记,在着色完成的图中,节点id与节点属性id相同时,则表明该节点是自身所处强连通分支的root节点,则节点标签标记为true,之后,有向图中所有节点沿着入边由dst节点向src节点发送自身标记情况,只要节点收到true消息,则该节点便标记为true;
S5:反向遍历同样深度后,遍历到的节点完成了强连通分量的标记,然后将该部分节点从原图中删除,作为返回结果的一部分,剩下的节点构成新的原图,重新执行步骤S1-S4,直到整张图所有节点被删除干净;
其中,在由dst节点向src节点传递的过程中,需要满足:
F逆(attrBC,attrAB)=F逆(srcAttr_C,attrBC)=true;
其中,F逆表示F的逆转条件,即从dst出发去看待F条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011267511.1/1.html,转载请声明来源钻瓜专利网。





