(机器学习)关于逻辑回归评分卡案例中的分箱处理过程,Python交流,编程语言专区,鱼C论坛

zzong2019 发表于 2021-9-19 14:04:54

(机器学习)关于逻辑回归评分卡案例中的分箱处理过程

本帖最后由 zzong2019 于 2021-9-19 14:04 编辑

import numpy as np
import scipy
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression as LR
def graphforbestbins(DF, X, Y, m=5, n=50, graph=True):
'''
基于卡方检验进行分箱，根据最大P值选择需要合并的分箱，直到达到设置的分箱个数，并且可以绘制IV值曲线
参数设置：
DF：包含特征及标签的数据集
X：需要分箱的特征列名
Y:数据集的标签列名
m：最终想要得到的分箱个数
n：初始的分箱个数
graph：是否需要画图
'''
# 第一步，初始分箱
global bins_df
DF_1 = DF[].copy()# 为了保护原数据创建一份副本
DF_1['qcut'], bins = pd.qcut(DF_1, q=n, retbins=True, duplicates='drop')
'''
设置retbins=True可以返回每个样本（索引值）对应的分箱
设置duplicates=True为了在出现分箱上下边界冲突时直接将分箱合并（实际分箱数可能小于设置的分箱数）
bins返回的是所有分箱上下边界组成的一维数组
'''
# 第二步，统计分箱后的样本分布情况
count_0 = DF_1.loc == 0].groupby(by='qcut').count()# 获取每个分箱中标签为0的样本数
count_1 = DF_1.loc == 1].groupby(by='qcut').count()# 获取每个分箱中标签为1的样本数
numbins = [*zip(bins, bins, count_0, count_1)]# 通过zip函数得到每个分箱的下限、上限、标签为0的样本数，标签为1的样本数组成的一个列表

# 第三步，对分箱结果进行检验，确保每个分箱中能够同时包含两种类别的标签
i = 0
n = len(numbins) - 1
while i < n:
   if i != n - 1:
         '''
         对于num_bins从第一个分箱开始判断是否有哪一个分箱中存在标签对应的样本为0的情况，如果有就向后合并
         如果执行向后合并，再校验合并后是否还存在标签对应的样本为0的情况，如果有就继续向后合并
         如果没有检测到标签对应的样本为0的情况，就继续检测下一个分箱，直到倒数第二个分箱
         '''
         if 0 in numbins:
            numbins = [(
               numbins,
               numbins,
               numbins + numbins,
               numbins + numbins)]
         else:
            i += 1
         n = len(numbins)

   else:
         '''
         对于num_bins的最后一个分箱，如果存在标签对应的样本为0的情况，就向前合并
         这样就可以确保所有的分箱都没有样本为0的情况，注意这一步结束之后break退出循环
         '''
         if 0 in numbins[-1]:
            numbins = [(
               numbins,
               numbins,
               numbins + numbins,
               numbins + numbins)]
         break

# 第四步，编写公式计算WOE值和IV值
def get_woe(numbins):
   columns = ['min', 'max', 'count_0', 'count_1']
   df = pd.DataFrame(numbins, columns=columns)
   df['total'] = df['count_0'] + df['count_1']
   df['percentage'] = df['total'] / df['total'].sum()
   df['bad_rate'] = df['count_1'] / df['total']
   df['good%'] = df['count_0'] / df['count_0'].sum()
   df['bad%'] = df['count_1'] / df['count_1'].sum()
   df['woe'] = np.log(df['good%'] / df['bad%'])
   return df

def get_iv(df):
   rate = df['good%'] - df['bad%']
   iv = np.sum(rate * df['woe'])
   return iv

# 第五步，利用卡方检验，对P值最大的相邻分箱进行合并，直到达到要求的最终分箱数，并绘制每次分箱合并后的IV值曲线
IV = []# 用于存储每次分箱后计算出的iv值
axisx = []# 用于存储每次合并后的分箱个数
while len(numbins) > n:
   pvs = []# 用于存储相邻分箱的卡方检验P值
   for i in range(len(numbins) - 1):
         x1 = numbins
         x2 = numbins
         pv = scipy.stats.chi2_contingency()
         pvs.append(pv)
   print(pvs)
   j = pvs.index(max(pvs))# 求出pvs列表中p值最大的元素对应的索引（准备对这个索引对应的相邻分箱执行合并）
   numbins = [(numbins,
                        numbins,
                        numbins + numbins,
                        numbins + numbins
                        )]
   axisx.append(len(numbins))
   bins_df = get_woe(numbins)
   IV.append(get_iv(bins_df))
# 第六步，根据需要绘制不同分箱个数的IV值曲线
if graph:
   plt.figure(figsize=)
   plt.plot(axisx, IV, color='red')
   plt.xticks(axisx)
   plt.yticks(IV)
   plt.xlabel('num_of_bins')
   plt.ylabel('IV_value')
   plt.show()
return bins_df, IV

model_data=pd.read_csv(r'E:\BaiduNetdiskDownload\【机器学习】菜菜的sklearn课堂(1-12全课) (1)\05逻辑回归与评分卡\银行信贷客户数据\model_data.csv',index_col=0)
graphforbestbins(model_data, 'age', 'SeriousDlqin2yrs', m=8, n=50, graph=True)

上面是对数据集的指定某一个特征进行分箱的过程，根据卡方检验计算出P值，之后选择需要合并的分箱，直到达到设置的分箱个数，并且可以绘制IV值曲线
上面的每一个代码块我都是可以成功运行的，但是可能是我Python基础不扎实，在进行函数嵌套的时候写的有问题，整体运行下来报错：NameError: name 'bins_df' is not defined
还请大佬帮忙指点一下如何修改，感谢~~~

逃兵发表于 2021-9-19 14:04:55

84行
while len(numbins) > n:
条件不成立

zzong2019 发表于 2021-9-19 17:50:48

逃兵发表于 2021-9-19 14:39
84行
while len(numbins) > n:
条件不成立

啊啊啊，我居然没检查出来，不过现在虽然能运行，但结果还是不对，问题可能出在IV值的计算上，你还能再帮我看看嘛？

页: [1]

鱼C论坛's Archiver

(机器学习)关于逻辑回归评分卡案例中的分箱处理过程