La regressione lineare è una delle tecniche statistiche più popolari.
Nonostante la sua popolarità, l’interpretazione dei coefficienti di regressione di qualsiasi modello che non sia il più semplice è a volte, beh….difficile.
Quindi interpretiamo i coefficienti di una variabile continua e una categorica. Anche se l’esempio qui è un modello di regressione lineare, l’approccio funziona per interpretare i coefficienti di qualsiasi modello di regressione senza interazioni, compresi i modelli logistici e di rischio proporzionale.
Un modello di regressione lineare con due variabili predittrici può essere espresso con la seguente equazione:
Y = B0 + B1*X1 + B2*X2 + e.
Le variabili del modello sono:
- Y, la variabile di risposta;
- X1, la prima variabile predittiva;
- X2, la seconda variabile predittiva; e
- e, l’errore residuo, che è una variabile non misurata.
I parametri del modello sono:
- B0, l’intercetta Y;
- B1, il primo coefficiente di regressione; e
- B2, il secondo coefficiente di regressione.
Un esempio potrebbe essere un modello dell’altezza di un arbusto (Y) basato sulla quantità di batteri nel suolo (X1) e se la pianta si trova in sole parziale o pieno (X2).
L’altezza si misura in cm, i batteri si misurano in migliaia per ml di suolo, e il tipo di sole = 0 se la pianta è in sole parziale e il tipo di sole = 1 se la pianta è in pieno sole.
Diciamo che l’equazione di regressione è stata stimata come segue:
Y = 42 + 2.3*X1 + 11*X2
Interpretazione dell’intercetta
B0, l’intercetta Y, può essere interpretata come il valore che si prevede per Y se sia X1 = 0 che X2 = 0.
Ci aspetteremmo un’altezza media di 42 cm per gli arbusti in sole parziale senza batteri nel terreno. Tuttavia, questa è un’interpretazione significativa solo se è ragionevole che sia X1 che X2 possano essere 0, e se il set di dati include effettivamente valori per X1 e X2 che sono vicini allo 0.
Se nessuna di queste condizioni è vera, allora B0 non ha davvero alcuna interpretazione significativa. Si limita ad ancorare la linea di regressione nel posto giusto. Nel nostro caso, è facile vedere che X2 a volte è 0, ma se X1, il nostro livello di batteri, non si avvicina mai a 0, allora la nostra intercetta non ha alcuna interpretazione reale.
Interpretare i coefficienti delle variabili predittrici continue
Siccome X1 è una variabile continua, B1 rappresenta la differenza nel valore previsto di Y per ogni differenza di una unità in X1, se X2 rimane costante.
Questo significa che se X1 differisce di un’unità (e X2 non differisce) Y differirà di B1 unità, in media.
Nel nostro esempio, gli arbusti con una conta di 5000 batteri sarebbero, in media, 2.3 cm più alti di quelli con un numero di batteri di 4000/ml, che allo stesso modo sarebbero circa 2,3 cm più alti di quelli con 3000/ml di batteri, a condizione che si trovino nello stesso tipo di sole.
(Non dimenticare che poiché il numero di batteri è stato misurato in 1000 per ml di suolo, 1000 batteri rappresentano una unità di X1).
Interpretare i coefficienti delle variabili predittrici categoriali
Similmente, B2 viene interpretato come la differenza nel valore previsto in Y per ogni differenza di una unità in X2 se X1 rimane costante. Tuttavia, poiché X2 è una variabile categorica codificata come 0 o 1, una differenza di una unità rappresenta il passaggio da una categoria all’altra.
B2 è quindi la differenza media in Y tra la categoria per cui X2 = 0 (il gruppo di riferimento) e la categoria per cui X2 = 1 (il gruppo di confronto).
Quindi, rispetto agli arbusti che sono in sole parziale, ci aspettiamo che gli arbusti in pieno sole siano 11 cm più alti, in media, allo stesso livello di batteri del suolo.
Interpretare i coefficienti quando le variabili predittrici sono correlate
Non dimenticare che ogni coefficiente è influenzato dalle altre variabili in un modello di regressione. Poiché le variabili predittrici sono quasi sempre associate, due o più variabili possono spiegare parte della stessa variazione in Y.
Pertanto, ogni coefficiente non misura l’effetto totale su Y della sua variabile corrispondente, come farebbe se fosse l’unica variabile nel modello.
Piuttosto, ogni coefficiente rappresenta l’effetto aggiuntivo dell’aggiunta di quella variabile al modello, se gli effetti di tutte le altre variabili nel modello sono già considerati. (Questo è chiamato coefficienti di regressione di tipo 3 ed è il modo usuale di calcolarli. Tuttavia, non tutti i software usano coefficienti di tipo 3, quindi assicuratevi di controllare il manuale del vostro software in modo da sapere cosa state ottenendo).
Questo significa che ogni coefficiente cambierà quando altre variabili vengono aggiunte o eliminate dal modello.
Per una discussione su come interpretare i coefficienti dei modelli con termini di interazione, vedi Interpretare le interazioni nella regressione.