La regresión lineal es una de las técnicas estadísticas más populares.
A pesar de su popularidad, la interpretación de los coeficientes de regresión de cualquiera de los modelos, excepto los más simples, es a veces, bueno….difícil.
Así que vamos a interpretar los coeficientes de una variable continua y otra categórica. Aunque el ejemplo aquí es un modelo de regresión lineal, el enfoque funciona para interpretar los coeficientes de cualquier modelo de regresión sin interacciones, incluidos los modelos logísticos y de riesgos proporcionales.
Un modelo de regresión lineal con dos variables predictoras puede expresarse con la siguiente ecuación:
Y = B0 + B1*X1 + B2*X2 + e.
Las variables del modelo son:
- Y, la variable de respuesta;
- X1, la primera variable predictora;
- X2, la segunda variable predictora; y
- e, el error residual, que es una variable no medida.
- B0, la intersección Y;
- B1, el primer coeficiente de regresión; y
- B2, el segundo coeficiente de regresión.
Los parámetros del modelo son:
Un ejemplo sería un modelo de la altura de un arbusto (Y) basado en la cantidad de bacterias en el suelo (X1) y en si la planta está situada a sol parcial o a pleno sol (X2).
La altura se mide en cm, las bacterias se miden en miles por ml de suelo, y el tipo de sol = 0 si la planta está a sol parcial y el tipo de sol = 1 si la planta está a pleno sol.
Digamos que resulta que la ecuación de regresión se estimó como sigue:
Y = 42 + 2.3*X1 + 11*X2
Interpretando el intercepto
B0, el intercepto de Y, puede interpretarse como el valor que se predeciría para Y si tanto X1 = 0 como X2 = 0.
Esperaríamos una altura media de 42 cm para arbustos en sol parcial sin bacterias en el suelo. Sin embargo, esto sólo es una interpretación significativa si es razonable que tanto X1 como X2 puedan ser 0, y si el conjunto de datos realmente incluyera valores para X1 y X2 que estuvieran cerca de 0.
Si ninguna de estas condiciones es cierta, entonces B0 realmente no tiene ninguna interpretación significativa. Simplemente ancla la línea de regresión en el lugar correcto. En nuestro caso, es fácil ver que X2 a veces es 0, pero si X1, nuestro nivel de bacterias, nunca se acerca a 0, entonces nuestro intercepto no tiene ninguna interpretación real.
Interpretación de los coeficientes de las variables predictoras continuas
Dado que X1 es una variable continua, B1 representa la diferencia en el valor predicho de Y por cada diferencia de una unidad en X1, si X2 permanece constante.
Esto significa que si X1 difiere en una unidad (y X2 no difiere) Y diferirá en B1 unidades, en promedio.
En nuestro ejemplo, los arbustos con un recuento de bacterias de 5000 serían, en promedio, 2.3 cm más altos que los que tienen un recuento de bacterias de 4000/ml, que igualmente serían unos 2,3 cm más altos que los que tienen bacterias de 3000/ml, siempre y cuando estuvieran en el mismo tipo de sol.
(No olvide que como el recuento de bacterias se midió en 1000 por ml de suelo, 1000 bacterias representan una unidad de X1).
Interpretación de los coeficientes de las variables predictoras categóricas
De forma similar, B2 se interpreta como la diferencia en el valor predicho en Y por cada diferencia de una unidad en X2 si X1 permanece constante. Sin embargo, dado que X2 es una variable categórica codificada como 0 o 1, una diferencia de una unidad representa el cambio de una categoría a otra.
B2 es entonces la diferencia media en Y entre la categoría para la que X2 = 0 (el grupo de referencia) y la categoría para la que X2 = 1 (el grupo de comparación).
Así, en comparación con los arbustos que estaban en sol parcial, esperaríamos que los arbustos a pleno sol fueran 11 cm más altos, de media, al mismo nivel de bacterias del suelo.
Interpretación de los coeficientes cuando las variables predictoras están correlacionadas
No olvide que cada coeficiente está influenciado por las otras variables en un modelo de regresión. Dado que las variables predictoras están casi siempre asociadas, dos o más variables pueden explicar parte de la misma variación en Y.
Por lo tanto, cada coeficiente no mide el efecto total sobre Y de su correspondiente variable, como lo haría si fuera la única variable en el modelo.
Más bien, cada coeficiente representa el efecto adicional de añadir esa variable al modelo, si los efectos de todas las demás variables del modelo ya están contabilizados. (Esto se denomina coeficientes de regresión de tipo 3 y es la forma habitual de calcularlos. Sin embargo, no todos los programas informáticos utilizan coeficientes de Tipo 3, así que asegúrese de consultar el manual de su programa informático para saber qué está obteniendo).
Esto significa que cada coeficiente cambiará cuando se añadan o eliminen otras variables del modelo.
Para una discusión sobre cómo interpretar los coeficientes de los modelos con términos de interacción, consulte Interpretación de las interacciones en la regresión.