[发明专利]一种基于文本分析的P2P网络借贷风险预测系统有效
| 申请号: | 201510076663.6 | 申请日: | 2015-02-12 |
| 公开(公告)号: | CN104616198B | 公开(公告)日: | 2018-01-26 |
| 发明(设计)人: | 叶强;郭雷;张紫琼;张自立 | 申请(专利权)人: | 哈尔滨工业大学 |
| 主分类号: | G06Q40/08 | 分类号: | G06Q40/08;G06F17/27 |
| 代理公司: | 哈尔滨市松花江专利商标事务所23109 | 代理人: | 杨立超 |
| 地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 分析 p2p 网络 借贷 风险 预测 系统 | ||
1.一种基于文本分析的P2P网络借贷风险预测系统,其特征在于该系统包括:
平台数据采集模块,用于自动采集P2P网络借贷平台中的用户数据和交易数据,包括用户基本数据、用户信用数据、借款列表数据、借款描述文本、借款偿还情况;
文本特征提取模块,用于获取平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的语义特征,包括情感特征S、主题特征T和可读性特征R;
风险预测模型搭建、训练模块,用于搭建和训练风险预测模型;
风险预测模块,用于预测、输出新借款列表的风险情况。
2.根据权利要求1所述的一种基于文本分析的P2P网络借贷风险预测系统,其特征在于,
所述的文本特征提取模块,包括:
词语切分子模块,用于获取平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语;
情感特征S提取、存储子模块,用于提取、存储借款描述文本情感特征S;
主题特征T提取、存储子模块,通过LDA主题生成模型计算出每个借款描述文本中的主题概率分布P(主题|文本),存储为借款描述文本的主题特征T;
可读性特征R提取、存储子模块,首先统计所有借款描述文本中每个词语出现的次数,然后统计出当前借款描述文本中所出现的词语,计算当前借款描述文本中每个词语在所有借款描述文本中出现的次数的总和,并以C=(出现的次数的总和/当前借款描述文本中所出现的词语个数)作为当前借款描述文本中所出现的词语的平均出现次数,存储为前借款描述文本的可读性特征R。
3.根据权利要求2所述的一种基于文本分析的P2P网络借贷风险预测系统,其特征在于,
所述情感特征S提取、存储子模块,包括
人工情感标注子模块,随机提取借款描述文本并输出显示,供用户进行人工情感标注:褒义、中性和贬义,分别以1、0和-1标记;并将已进行人工情感标注的借款描述文本分为情感标注训练集和情感标注测试集;
计算机情感分类子模块,提取人工情感标注子模块中的情感标注训练集数据,根据情感标注训练集的人工情感标注分别计算出1、0和-1三种情感类别中各词语集合出现的次数;以此为基础,计算出情感标注测试集中的每个借款描述文本在1、0和-1三种情感类别中的概率;将概率最大时所对应的类别作为情感标注测试集中借款描述文本对应的情感类别进行存储;
情感比对子模块,提取计算机情感分类子模块中存储的借款描述文本对应的情感类别,将其与人工情感标注进行比对,计算出两种标注方法的匹配度;若匹配度不能满足情感分类需求,则返回人工情感标注子模块进行调整优化,直到筛选出能够准确进行情感分类的提取借款描述文本情感特征的分类器;
计算机情感标注子模块,提取情感比对子模块中的提取借款描述文本情感特征的分类器对所有的借款描述文本进行标注1、0或-1,存储为借款描述文本情感特征S。
4.根据权利要求1、2或3所述的一种基于文本分析的P2P网络借贷风险预测系统,其特征在于,
所述的风险预测模型搭建、训练模块,包括:
风险预测模型搭建子模块,以平台数据采集模块中的户基本数据、用户信用数据、借款列表数据以及文本特征提取模块中的情感特征S、主题特征T和可读性特征R作为输入变量,以平台数据采集模块中的借款偿还情况为输出变量,搭建风险预测模型;
风险预测模型训练子模块,利用支持向量机对风险预测模型进行训练,采用M折交叉验证,反复优化运算,筛选出满足预测需求的风险预测模型。
5.根据权利要求4所述的一种基于文本分析的P2P网络借贷风险预测系统,其特征在于,
所述的风险预测模块,通过新借款列表数据提取子模块调用平台数据采集模块和文本特征提取模块,生成新借款列表的用户基本数据、用户信用数据、借款列表数据、情感特征S、主题特征T和可读性特征R,将新借款列表的用户基本数据、用户信用数据、借款列表数据、情感特征S、主题特征T和可读性特征R输入风险预测模型;最后通过风险预测模型输出新借款列表的风险。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510076663.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向网络话题的热度评价方法
- 下一篇:吊灯(6125)





