金融风控模型之逻辑回归模型中回归系数的正负性符号的理解

在常见的现金贷金融风控模型中 , 逻辑回归模型是建模人员常用的用于用户信用评估的模型方案 。
在LR模型中 , 在特征工程阶段 , 经常采用WOE编码方式 , 因此本文简要的对逻辑回归模型中回归系数的正负性符号的理解做下理解说明 。
【金融风控模型之逻辑回归模型中回归系数的正负性符号的理解】首先先来看下常见的WOE编码的计算公式:
金融风控模型之逻辑回归模型中回归系数的正负性符号的理解文章插图
WOE编码方式
逻辑回归的线性公式可以表示为:Ln(p/(1-p)) =β0 +β1*x1 +β2*x2 +β3*x3 +...+βn*xn
其中 , P是逻辑回归模型预测的负样本概率 , Xn表示经过WOE编码后的特征 , 在风控场景下当概率P表示负样本出现的概率时 , Ln(P/(1-P)表示的是负样本概率与正样本概率之比 , 因此假如当WOE公式是由上图中给出的形式 , 即每个bin下的正样本占全局正样本比值(Gi/Gt) 除以 该bin下 负样本占全局负样本的比值(Bi/Bt) , 那么该bin的WOE值大于0时 , 表明该bin更容易集中正样本 , 出现负样本的概率更小 , 所以WOE的计算方式与逻辑回归的预测目标方向相反 , 因此线性公式中的回归系数符号应该为负 , 但是如果WOE的表达式与上图中的表达式相反 , 即WOE的计算方式是bin下 负样本占全局负样本的比值(Bi/Bt)除以 该bin下的正样本占全局正样本比值(Gi/Gt) , 那么WOE计算方式与预测目标是正向的 , 此时回归系数符号应该为正 。
因此我们在逻辑回归模型筛选变量的过程中 , 需要去观察回归模型的系数变量符号是否满足要求 , 而且都一致 , 假如回归系数符号应该为负 , 但此时个别特征的系数出现了正符号 , 这种情况下说明 现有的特征体系中可能还存在着多重共线性的问题 。
?
金融风控模型之逻辑回归模型中回归系数的正负性符号的理解文章插图
??上图中实际的逻辑回归模型预测的P表示的是负样本的概率
如果定义woe是好比坏的话, 须要求logistic回归系数为负 , 确保风险趋势与业务理解一致