"景先生毕设|www.jxszl.com

基于随机森林的p2p网贷借款人信用风险评估研究【字数:9293】

2024-11-03 10:15编辑: www.jxszl.com景先生毕设

目录
摘 要 III
关键词 III
ABSTRACT IV
KEY WORDS IV
引言 1
1 绪论 1
1.1 选题背景及意义 1
1.2 信用评估研究现状 1
1.2.1 国外研究现状 1
1.2.2 国内研究现状 2
1.4 论文结构 2
2 随机森林理论概述 3
2.1 决策树简介 3
2.1.1 决策树原理 3
2.1.2 节点分裂标准 3
2.2 Bagging算法 4
2.3 随机森林 4
2.3.1 随机森林算法 4
2.3.2 OOB估计 5
2.3.3 随机森林的特征选择 5
2.3.4 加权随机森林(WRF) 5
3 数据预处理及特征选择 6
3.1 数据介绍 6
3.2 数据预处理 6
3.3 随机森林特征选择 8
4 基于随机森林的网贷风险评估实证研究 11
4.1 参数选择 11
4.1.1 ntree的选择 11
4.1.2 mtry的选择 12
4.1.3 classwt的选择 13
4.2 模型改进——不平衡数据的处理 14
5 结论与展望 16
致谢 16
参考文献 17
附录 18
基于随机森林的P2P网贷借款人信用风险评估研究
摘 要
本文采用了随机森林算法,基于拍拍贷公司20152017年间的公开的交易数据集,构建了P2P网贷的风险评估模型。
首先对数据进行预处理,主要包括剔除离群值、剔除缺失值、规范化处理、相关性检验等,处理后的训练集中含有12705条样本数据。接下来进行随机森林特征选择,筛选出的特征子集中包括"初始评级"、"借款金额"、"借款期限"、"历史成功借款次数"、"历史成功借款金额"、"历史正常还款期数"、"年龄"、"学历认证"、 "总待还本金"9个特征 *51今日免费论文网|www.51jrft.com +Q: &351916072
变量。以这9个特征变量为基础建立随机森林模型并进行参数选择,调整ntree和mtry的值以使模型误差达到最小,再调节classwt的值以调整不同类权重,提高模型的准确率。在模型改进中,为了解决数据的不平衡问题,使用SMOTE算法对数据集进行处理,使得正类及负类样本各占数据集的一半,实验证明SMOTE算法对负类样本的分类准确率有极大的提升,也使得分类结果更有现实意义。
综上所述,本文通过随机森林算法构建了P2P网贷借款人的信用风险评估模型,可以根据9个特征变量的值预测借款人是否会违约还款,模型总预测精度为91.05%,其中负类样本的预测准确率为97.14%,即有97.14%的概率成功判断信贷风险高的借款人,具有较强的实际应用意义。

原文链接:http://www.jxszl.com/jsj/sxtj/606744.html