[发明专利]基于深度学习的电子凭据高频异常开具检测系统及方法有效
| 申请号: | 201910302523.4 | 申请日: | 2019-04-16 |
| 公开(公告)号: | CN110084620B | 公开(公告)日: | 2022-08-12 |
| 发明(设计)人: | 邱卫东;陈爽;唐鹏;段国蕊;郭捷;黄征 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06Q30/04;G06Q40/00;G06K9/62 |
| 代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 电子 凭据 高频 异常 开具 检测 系统 方法 | ||
1.一种基于深度学习的电子凭据异常行为研判系统,其特征在于,包括:特征提取模块、深度学习训练模块以及异常行为检测模块,其中:特征提取模块与深度学习训练模块相连并传输训练数据信息,深度学习训练模块与异常行为检测模块相连并传输智能研判模型信息,异常行为检测模块与特征提取模块中数据处理单元相连传输新数据信息并接收数据处理结果信息;
所述的特征提取模块包括:数据读取单元、数据处理单元以及数据标记单元,其中:数据读取单元与数据处理单元相连并传输从开具凭据数据库中读取的历史数据信息,数据处理单元与数据标记单元相连并传输用于划分异常种类的数据信息,数据标记单元输出数据作为本模块的输出数据与深度学习训练模块相连并为其提供训练数据;
所述的电子凭据异常行为研判,具体包括:
S1)读取历史电子凭据数据一,读取企业正常开具凭据时间段数据二;
S2)根据开具企业ID字段从数据一中提取每条数据的开具时间字段一,根据开具企业ID字段从数据二中提取该企业正常开具凭据时间段字段二,依次判断每条数据的字段一是否位于字段二所描述的时间段内;
S3)根据开具企业ID字段提取字段一位于字段二所描述的时间段内的电子凭据数据,分别提取1分钟、2分钟、3分钟、4分钟以及5分钟内的开票数量并在对应数据上标记这五类数量值,提取所选数据的所述五类数量值并进行标准化处理,通过k-means聚类算法得出开票频率阈值F1,根据聚类结果将大于F1的数据标记为“同一企业短时间开具大量凭据”异常行为Event1,其余数据标记为0;
S4)根据开具企业ID字段提取字段一位于字段二所描述的时间段内的电子凭据数据,提取开具金额字段,通过k-means聚类算法得出该企业开具金额阈值M1,根据聚类结果提取开具金额大于M1的数据的1分钟、2分钟、3分钟、4分钟以及5分钟内的开票数量并在对应数据上标记这五类数量值,提取所选数据的所述五类数量值并进行标准化处理,通过k-means聚类算法得出开票频率阈值F2,根据聚类结果将大于F2的数据标记为“同一企业短时间开具大量大额凭据”异常行为Event2,其余数据标记为0;
S5)根据开具企业ID字段提取字段一不在字段二所描述的时间段内的电子凭据数据,提取1分钟、2分钟、3分钟、4分钟以及5分钟内的开票数量并在对应数据上标记这五类数量值,提取所选数据的所述五类数量值并进行标准化处理,通过k-means聚类算法得出开票频率阈值F3,根据聚类结果将大于F3的数据标记为“企业异常时间开具大量凭据”异常行为Event3,其余数据标记为0;
S6)根据开具企业ID字段提取字段一不在字段二所描述的时间段内的电子凭据数据,提取开具金额字段并进行标准化处理,通k-means聚类算法得出该企业开具金额阈值M2,根据聚类结果将开具金额大于M2的数据标记为“企业异常时间开具大量凭据”异常行为Event4,其余数据标记为0;
S7)选定开源项目提供的MLP作为深度学习网络模型程序,MLP的参数为:输入神经元个数为提取的特征数目,中间层为1层,输出神经元个数为1,即是否为异常行为,允许误差为0.001,最大训练递归次数为1000;
S8)依次将步骤S3~步骤S6中异常行为Event1~4划分为训练集和测试集,其中训练集与测试集的数据量比例均为7:3;
S9)将划分好的异常行为Event1~4依次输入MLP网络模型进行训练,得到异常行为研判模型一、异常行为研判模型二、异常行为研判模型三、异常行为研判模型四;
对于输入的特征数目:异常行为研判模型一的输入特征为:1分钟内开具凭据数量、2分钟内开具凭据数量、3分钟内开具凭据数量、4分钟内开具凭据数量以及5分钟内开具凭据数量;
异常行为研判模型二的输入特征数为:1分钟内开具凭据数量、2分钟内开具凭据数量、3分钟内开具凭据数量、4分钟内开具凭据数量、5分钟内开具凭据数量以及开具金额;
异常行为研判模型三的输入特征为:1分钟内开具凭据数量、2分钟内开具凭据数量、3分钟内开具凭据数量、4分钟内开具凭据数量以及5分钟内开具凭据数量;
异常行为研判模型四的输入特征数为:1分钟内开具凭据数量、2分钟内开具凭据数量、3分钟内开具凭据数量、4分钟内开具凭据数量、5分钟内开具凭据数量以及开具金额;
S10)定时读取数据库新数据,根据开具企业ID字段判断数据的开具时间字段值是否位于企业正常开具凭据时间段内;
S11)将开具时间字段值位于企业正常开具凭据时间段内的数据依次输入到异常行为研判模型一、异常行为研判模型二中进行研判,得到的输出就是异常行为的判定;
S12)将开具时间字段值不是位于企业正常开具凭据时间段内的数据依次输入到异常行为研判模型三、异常行为研判模型四中进行研判,得到的输出就是异常行为的判定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910302523.4/1.html,转载请声明来源钻瓜专利网。





