[发明专利]分类器的训练系统及方法、异常样本的识别方法有效

专利信息
申请号: 201911259207.X 申请日: 2019-12-10
公开(公告)号: CN111046947B 公开(公告)日: 2023-06-30
发明(设计)人: 康青杨;刘世林;曾途;杨李伟;吴桐 申请(专利权)人: 成都数联铭品科技有限公司
主分类号: G06F18/2431 分类号: G06F18/2431;G06F18/23;G06F18/214;G06Q40/06
代理公司: 北京市领专知识产权代理有限公司 11590 代理人: 张玲
地址: 610015 四川省成都市自由贸易试验区*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分类 训练 系统 方法 异常 样本 识别
【说明书】:

发明涉及一种分类器的训练方法及系统、异常样本的识别方法,该分类器的训练方法包括步骤:构造训练样本;基于样本中记录的字段,构造出占比型特征和增长率型特征;将构造的占比型特征和增长率型特征进行全组合,并使用聚类算法对所有样本进行聚类,得到每个样本的欧式距离;将构造的占比型特征和增长率型特征进行全组合,使用线性回归算法对所有样本进行回归计算,并得到每个样本的回归相对误差;将所述欧式距离和所述回归相对误差作为样本的特征,基于监督学习算法在训练集上进行训练,得到所述分类器。基于训练得到的分类器,可以识别出异常样本,例如识别出数据异常的财务报表,继而增强监管效率。

技术领域

本发明涉及数据分析技术领域,特别涉及一种用于异常样本识别的分类器的训练系统及方法、异常样本的识别方法。

背景技术

近几年,由于数据在互联网领域的持续增长,基于大数据、数据挖掘的应用层出不穷。其中,应用主要分为分类、估计、关联性分析、异常检测等。对数据进行分析,比如,银行在发放贷款时,通过数据挖掘构建一个分类模型,将贷款申请者分为低、中、高风险,从而调整放款额度,降低违约风险。又例如,超市通过对用户购买的物品进行关联挖掘,发现某些物品经常被同时购买,表现出较强的关联性,然后将关联度高的物品放在一起卖,既增加销量又方便消费者选购。

上市公司每季度都会发布财务报表,证监会需要通过这些财务报表对这些公司进行监管,一些投资机构也需要分析这些报表选择出投资标的。然而,在这些财务报表中可能存在一些造假行为,造假会给广大股民带来巨大经济损失,严重影响股市正常秩序。如果通过数据挖掘发现这些财务报表中的异常,就可以增强监管效率,减轻造假事件造成的危害。因此,如何从财务报表数据中识别出异常信息是目前亟待解决的问题。

发明内容

本发明的目的在于提供一种用于异常样本识别的分类器的训练系统及方法,以及异常样本的识别方法,通过该分类器可以识别出存储异常数据的财务报表,加强监管效率。

为了实现上述发明目的,本发明实施例提供了以下技术方案:

一种用于异常样本识别的分类器的训练方法,包括以下步骤:

构造训练样本;

基于样本中记录的字段,构造出占比型特征和增长率型特征;

将构造的占比型特征和增长率型特征进行全组合,并使用聚类算法对所有样本进行聚类,得到每个样本的欧式距离;

将构造的占比型特征和增长率型特征进行全组合,使用线性回归算法对所有样本进行回归计算,并得到每个样本的回归相对误差;

将所述欧式距离和所述回归相对误差作为样本的特征,基于监督学习算法在训练集上进行训练,得到所述分类器。

在进一步完善的方案中,在构造出占比型特征和增长率型特征之前,还包括步骤:对样本中的数据进行预处理,剔除信息不完整的样本。

另一方面,本发明实施例还提供了一种用于异常样本识别的分类器的训练系统,包括:

样本构造模块,用于构造训练样本;

特征构造模块,用于基于样本中记录的字段,构造出占比型特征和增长率型特征;

聚类模块,用于将构造的占比型特征和增长率型特征进行全组合,并使用聚类算法对所有样本进行聚类,得到每个样本的欧式距离;

回归模块,用于将构造的占比型特征和增长率型特征进行全组合,使用线性回归算法对所有样本进行回归计算,并得到每个样本的回归相对误差;

训练模块,用于将所述欧式距离和所述回归相对误差作为样本的特征,基于监督学习算法在训练集上进行训练,得到所述分类器。

另一方面,本发明实施例还提供了一种异常样本的识别方法,包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911259207.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top