2016-10-17 49 views
2

我使用HMeasure包在涉及信用风险的分析中涉及LDA。我有11000个obs,我选择年龄和收入来开发分析。我不知道如何解释LDA的R结果。所以,我不知道我是否根据信用风险选择了最佳变量。 我在代码下面给你看。LDA解释

lda(default ~ ETA, data = train) 

Prior probabilities of groups: 
       0         1 
0.4717286 0.5282714 

Group means: 
      ETA 
0 34.80251 
1 37.81549 

Coefficients of linear discriminants: 
         LD1 
ETA 0.1833161 

lda(default~ ETA + Stipendio,  train) 

Call: 
lda(default ~ ETA + Stipendio, data = train) 

Prior probabilities of groups: 
       0         1 
0.4717286 0.5282714 

Group means: 
      ETA Stipendio 
0 34.80251  1535.531 
1 37.81549  1675.841 

Coefficients of linear discriminants: 
                 LD1 
ETA       0.148374799 
Stipendio 0.001445174 

lda(default~ ETA, train) 
ldaP <- predict(lda, data= test) 

其中ETA =年龄和STIPENDIO =收入

非常感谢!

回答

1

LDA使用每个类的均值和方差来创建它们之间的线性边界(或分离)。这个边界由系数限定。

您有两种不同的型号,一种取决于变量ETA,另一种取决于ETAStipendio

您可以看到的第一件事是Prior probabilities of groups。这些概率是您的训练数据中已经存在的概率。即47.17%的训练数据对应的信用风险评估为0,52.82%的训练数据对应的信用风险评估为1.(我假设0代表“无风险”,1代表“有风险”)。这两种模型的概率是相同的。

您可以看到的第二件事是组意味着每个类中每个预测变量的平均值。这些值可能表明变量ETA可能对风险信用(37.8154)的影响稍大于对非风险信用(34.8025)的影响。在第二个模型中,变量Stipendio也会发生这种情况。

第一个模型中ETA的计算系数为0.1833161。这意味着,两个不同的类之间的边界将通过下式指定:

y = 0.1833161 * ETA 

这可以表示由以下linex表示可变ETA)。信贷风险0或1将根据其所在行的哪一侧进行预测。

enter image description here

你的第二个模型包含两个因变量,ETAStipendio,使阶层之间的边界将通过这个公式来界定:

y = 0.148374799 * ETA + 0.001445174 * Stipendio 

正如你可以看到,这个公式表示plane 。 (x1代表ETAx2代表Stipendio)。和以前的模型一样,这个平面代表了有风险的信用和非风险信用之间的差异。

enter image description here

在第二个模型中,ETA系数远远大于该Stipendio系数,这表明前者变量对信用风险程度比后来的变量更大的影响。

我希望这会有所帮助。