線形回帰は最も人気のある統計手法の1つです。
人気があるにもかかわらず、最も単純なモデル以外の回帰係数を解釈するのは、まあ….難しいです。
そこで、連続変数とカテゴリー変数の係数を解釈してみましょう。
2つの予測変数を持つ線形回帰モデルは、次の式で表すことができます:
Y = B0 + B1*X1 + B2*X2 + e。
モデルの変数は次のとおりです。
モデルのパラメータは、
- B0(Y切片)、
- B1(第1回帰係数)、
- B2(第2回帰係数)です。
一例として、土壌中のバクテリアの量(X1)と、植物が部分日向にあるか完全日向にあるか(X2)に基づいて、低木の高さ(Y)のモデルを作成することができます。
高さはcmで、バクテリアは土壌1mlあたり1000個で、植物が部分日向にある場合は日向の種類=0、完全日向にある場合は日向の種類=1です。
回帰式が次のように推定されたとしましょう:
Y = 42 + 2.3*X1 + 11*X2
Interpreting the Intercept
Y切片であるB0は、X1 = 0とX2 = 0の両方があった場合にYに対して予測される値と解釈できます。
土壌にバクテリアがいない部分日照の低木の平均身長は42cmと予想されます。
これらの条件のどちらも当てはまらない場合、B0は意味のある解釈をしません。 回帰線を適切な場所に固定するだけです。
Interpreting Coefficients of Continuous Predictor Variables
X1 が連続変数であるため、B1 は、X2 が一定の場合、X1 が 1 単位異なるごとの Y の予測値の差を表します。
つまり、X1が1ユニット異なる(X2は変わらない)場合、Yは平均してB1ユニット異なることになります。
この例では、バクテリア数が5000の低木は、バクテリア数が5000の低木よりも平均して2.
この例では、5000 個のバクテリア数を持つ低木は、4000/ml のバクテリア数を持つ低木よりも平均して 2.3 cm 高くなり、同様に、同じ種類の太陽の下にある限り、3000/ml のバクテリア数を持つ低木よりも約 2.3 cm 高くなります。
Categorical Predictor Variablesの係数の解釈
同様に、B2は、X1が一定の場合、X2が1ユニット異なるごとにYの予測値が異なると解釈されます。
B2は、X2=0のカテゴリー(参照グループ)とX2=1のカテゴリー(比較グループ)の平均的なYの差になります。
つまり、部分日照下にある低木と比較して、日当たりの良い場所にある低木は、同じレベルの土壌細菌であれば、平均して11cm背が高くなることが予想されます。
そのため、各係数は、モデル内の唯一の変数である場合のように、対応する変数のYに対する効果全体を測定するものではありません。
むしろ、各係数は、モデル内の他のすべての変数の効果がすでに説明されている場合に、その変数をモデルに追加することによる追加効果を表します。 (これをType 3回帰係数と呼び、通常の計算方法です。
これは、他の変数がモデルに追加されたり削除されたりすると、各係数が変化することを意味します。
相互作用項を持つモデルの係数をどのように解釈するかについては、Interpreting Interactions in Regressionを参照してください。