[发明专利]分类器的训练系统及方法、异常样本的识别方法有效
| 申请号: | 201911259207.X | 申请日: | 2019-12-10 |
| 公开(公告)号: | CN111046947B | 公开(公告)日: | 2023-06-30 |
| 发明(设计)人: | 康青杨;刘世林;曾途;杨李伟;吴桐 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
| 主分类号: | G06F18/2431 | 分类号: | G06F18/2431;G06F18/23;G06F18/214;G06Q40/06 |
| 代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 张玲 |
| 地址: | 610015 四川省成都市自由贸易试验区*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分类 训练 系统 方法 异常 样本 识别 | ||
1.一种用于异常样本识别的分类器的训练方法,所述异常样本为存在异常数据的财务报表,其特征在于,包括以下步骤:
构造训练样本,将因财务异常而被处罚的企业的处罚当年的财务年报作为负样本,其余时间对应的财务年报作为正样本;
基于样本中记录的字段,构造出占比型特征和增长率型特征;占比型特征是指体现所占比例的特征,增长率型特征是指体现增长率的特征;
将构造的占比型特征和增长率型特征进行全组合,并使用聚类算法对所有样本进行聚类,得到每个样本的欧式距离;
将构造的占比型特征和增长率型特征进行全组合,使用线性回归算法对所有样本进行回归计算,并得到每个样本的回归相对误差;
将所述欧式距离和所述回归相对误差作为样本的特征,基于监督学习算法在训练集上进行训练,得到所述分类器。
2.根据权利要求1所述的方法,其特征在于,在构造出占比型特征和增长率型特征之前,还包括步骤:对样本中的数据进行预处理,剔除信息不完整的样本。
3.一种用于异常样本识别的分类器的训练系统,所述异常样本为存在异常数据的财务报表,其特征在于,包括:
样本构造模块,用于构造训练样本,将因财务异常而被处罚的企业的处罚当年的财务年报作为负样本,其余时间对应的财务年报作为正样本;
特征构造模块,用于基于样本中记录的字段,构造出占比型特征和增长率型特征;占比型特征是指体现所占比例的特征,增长率型特征是指体现增长率的特征;
聚类模块,用于将构造的占比型特征和增长率型特征进行全组合,并使用聚类算法对所有样本进行聚类,得到每个样本的欧式距离;
回归模块,用于将构造的占比型特征和增长率型特征进行全组合,使用线性回归算法对所有样本进行回归计算,并得到每个样本的回归相对误差;
训练模块,用于将所述欧式距离和所述回归相对误差作为样本的特征,基于监督学习算法在训练集上进行训练,得到所述分类器。
4.根据权利要求3所述的系统,其特征在于,还包括预处理模块:用于对样本中的数据进行预处理,剔除信息不完整的样本。
5.一种异常样本的识别方法,所述异常样本为存在异常数据的财务报表,其特征在于,包括以下步骤:
基于待识别样本中记录的字段,构造出占比型特征和增长率型特征,所述待识别样本为企业的财务报表;占比型特征是指体现所占比例的特征,增长率型特征是指体现增长率的特征;
将构造的占比型特征和增长率型特征进行全组合,并使用聚类算法对待识别样本进行聚类,得到待识别样本的欧式距离;
将构造的占比型特征和增长率型特征进行全组合,使用线性回归算法对待识别样本进行回归计算,并得到待识别样本的回归相对误差;
将所述欧式距离和所述回归相对误差作为样本的特征,输入预先训练的分类器,输出得到该待识别样本为异常样本的概率值。
6.根据权利要求5所述的方法,其特征在于,所述分类器经过以下步骤训练得到:
构造训练样本,将因财务异常而被处罚的企业的处罚当年的财务年报作为负样本,其余时间对应的财务年报作为正样本;
基于样本中记录的字段,构造出占比型特征和增长率型特征;
将构造的占比型特征和增长率型特征进行全组合,并使用聚类算法对所有样本进行聚类,得到每个样本的欧式距离;
将构造的占比型特征和增长率型特征进行全组合,使用线性回归算法对所有样本进行回归计算,并得到每个样本的回归相对误差;
将所述欧式距离和所述回归相对误差作为样本的特征,基于监督学习算法在训练集上进行训练,得到所述分类器。
7.一种包括计算机可读指令的计算机可读存储介质,其特征在于,所述计算机可读指令在被执行时使处理器执行权利要求1或2或5或6所述方法中的操作。
8.一种电子设备,其特征在于,所述的设备包括:
存储器,存储程序指令;
处理器,与所述存储器相连接,执行存储器中的程序指令,实现权利要求1或2或5或6所述方法中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911259207.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电缆检测装置
- 下一篇:内窥镜系统、环锯组件和保护套





