[发明专利]一种车险理赔欺诈风险识别方法及装置在审
申请号: | 202111322808.8 | 申请日: | 2021-11-09 |
公开(公告)号: | CN114187120A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 陈平;焦抚京;颜子昂 | 申请(专利权)人: | 中国人寿财产保险股份有限公司 |
主分类号: | G06Q40/08 | 分类号: | G06Q40/08;G06F16/2457;G06F16/2458;G06K9/62 |
代理公司: | 北京观韬中茂律师事务所 11553 | 代理人: | 夏涛 |
地址: | 100032 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 车险 理赔 欺诈 风险 识别 方法 装置 | ||
1.一种车险理赔欺诈风险识别方法,所述方法包括:
数据处理,包括数据选取和数据预处理,所述数据选取包括获取车险理赔已结案件信息,然后选取整案欺诈和部分欺诈案件为正样本,正常案件为负样本;所述数据预处理建立特征工程,具体包括空值率处理,噪音数据处理,缺失值处理和离散化处理;
在线特征因子分析,根据特征在正负样本的分布情况从而获得对欺诈具有区分度的在线特征因子,具体包括选取多个单一特征因子,然后根据多个单一特征因子组合构建多个衍生特征并进行筛选,最后识别并删除穿越特征因子;所述多个衍生特征包括延迟报案、批量损失险、相同车辆多次出险等;所述延迟报案包括报案时间与出险时间差,具体包括出险时间、报案时间、事故号等;所述批量损失险包括批增损失险小于N天,具体包括批增时间、损失险别、出险时间、事故号;所述相同车辆多次出险包括相同标的与三者车出险次数大于N次,具体包括标的车牌号、三者车牌号、事故号;
离线特征因子分析,选取在线特征因子后,根据历史数据构建以被保险人纬度的离线特征库,通过统计方式加工离线特征库,选取离线特征因子;
建立风险识别模型,根据所述在线特征因子和所述离线特征因子建立总特征库进行模型训练;所述模型训练采用XGBoost算法;具体定义包含n件车险理赔案件和m个特征因子属性的数据集D={(xi,yi)}(|D|=n,xi∈Rm,yi∈{0,1}),其中xi表示第i个理赔案件的特征向量,Rm代表m维实数集,yi代表该案件是否涉嫌欺诈,0为正常案件,1为欺诈案件,将多棵回归树所得的结果进行相加即可得到最终预测结果,如式(1.1)所示:
其中,k为树的总个数,fk表示第k颗树,fk(xi)表示样本xi输入到第k棵树后得到的叶子节点的预测分数,表示样本xi的预测结果,F={f(x)=ωq(x)}(q:Rm→T,ω∈RT)表示回归树空间,q代表单颗树的结构,T代表叶子节点的数量,ω代表每个叶子节点的权重,每一棵树都是独立存在的,对于一件理赔案件通过k棵树,将其映射到对应的叶子节点后,相加所有映射叶子节点的分数即可得到该样本的最终分数结果;
所述风险识别模型的目标函数Obj(Θ)如式(1.2)所示:
式(1.2)分为两部分,第一部分误差函数代表预测值与真实值的yi之间的训练误差,第二部分代表模型复杂度的惩罚项,Ω(fk)表示第k颗树fk的复杂度,Ω表示计算复杂度的公式符号;
车险理赔欺诈风险预警,核心理赔系统和所述风险识别模型对接,实时提示案件风险指数。
2.根据权利要求1所述的方法,其特征在于,所述空值率处理包括:
删除空值率为100%的特征因子。
3.根据权利要求1所述的方法,其特征在于,所述离散化处理包括:采用等距分箱算法。
4.根据权利要求1所述的方法,其特征在于,所述缺失值处理包括:通过均值和/或中位数和/或众数填充缺失值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人寿财产保险股份有限公司,未经中国人寿财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111322808.8/1.html,转载请声明来源钻瓜专利网。