Regressão linear é uma das técnicas estatísticas mais populares.
Apesar da sua popularidade, a interpretação dos coeficientes de regressão de qualquer um dos modelos mais simples é, por vezes, bem….difícil.
P>P>Ponhamos então interpretar os coeficientes de uma variável contínua e categórica. Embora o exemplo aqui seja um modelo de regressão linear, a abordagem funciona para interpretar os coeficientes de qualquer modelo de regressão sem interacções, incluindo modelos de riscos logísticos e proporcionais.
Um modelo de regressão linear com duas variáveis preditoras pode ser expresso com a seguinte equação:
Y = B0 + B1*X1 + B2*X2 + e.
As variáveis no modelo são:
- Y, a variável de resposta;
- X1, a primeira variável de previsão;
- X2, a segunda variável de previsão; e
- e, o erro residual, que é uma variável não medida.
Os parâmetros no modelo são:
- B0, o coeficiente de Y;
- B1, o primeiro coeficiente de regressão; e
- B2, o segundo coeficiente de regressão.
Um exemplo seria um modelo da altura de um arbusto (Y) baseado na quantidade de bactérias no solo (X1) e se a planta está localizada em sol parcial ou pleno (X2).
A altura é medida em cm, as bactérias são medidas em mil por ml de solo, e tipo de sol = 0 se a planta está em sol parcial e tipo de sol = 1 se a planta está em sol pleno.
Vamos dizer que a equação de regressão foi estimada da seguinte forma:
Y = 42 + 2.3*X1 + 11*X2
Interpretando a Intercepção
B0, o intercepção Y, pode ser interpretado como o valor que se prevê para Y se ambos X1 = 0 e X2 = 0,
esperaríamos uma altura média de 42 cm para arbustos em sol parcial sem bactérias no solo. Contudo, esta só é uma interpretação significativa se for razoável que tanto X1 como X2 possam ser 0, e se o conjunto de dados incluir valores para X1 e X2 que estivessem próximos de 0,
Se nenhuma destas condições for verdadeira, então B0 não tem realmente nenhuma interpretação significativa. Apenas ancora a linha de regressão no sítio certo. No nosso caso, é fácil ver que X2 por vezes é 0, mas se X1, o nosso nível bacteriano, nunca se aproxima de 0, então a nossa intercepção não tem interpretação real.
Introdução de coeficientes de variáveis de previsão contínua
Desde que X1 é uma variável contínua, B1 representa a diferença no valor previsto de Y para cada diferença de uma unidade em X1, se X2 se mantiver constante.
Isto significa que se X1 diferisse por uma unidade (e X2 não diferisse) Y diferirá por unidades B1, em média.
No nosso exemplo, os arbustos com uma contagem de 5000 bactérias seriam, em média, 2.3 cm mais alto do que aqueles com uma contagem de bactérias de 4000/ml, que também seria cerca de 2,3 cm mais alto do que aqueles com 3000/ml de bactérias, desde que estivessem no mesmo tipo de sol.
(Não esquecer que, uma vez que a contagem de bactérias foi medida em 1000 por ml de solo, 1000 bactérias representam uma unidade de X1).
Coeficientes de interpretação das variáveis categóricas de previsão
Simplesmente, B2 é interpretado como a diferença no valor previsto em Y para cada diferença de uma unidade em X2, se X1 se mantiver constante. Contudo, como X2 é uma variável categórica codificada como 0 ou 1, uma diferença de uma unidade representa a passagem de uma categoria para a outra.
B2 é então a diferença média em Y entre a categoria para a qual X2 = 0 (o grupo de referência) e a categoria para a qual X2 = 1 (o grupo de comparação).
Assim, em comparação com os arbustos que estavam a sol parcial, seria de esperar que os arbustos a sol pleno fossem 11 cm mais altos, em média, ao mesmo nível de bactérias do solo.
Coeficientes de interpretação quando as variáveis de previsão estão relacionadas com Cor
Não esquecer que cada coeficiente é influenciado pelas outras variáveis num modelo de regressão. Como as variáveis preditoras estão quase sempre associadas, duas ou mais variáveis podem explicar alguma da mesma variação em Y.
Por isso, cada coeficiente não mede o efeito total em Y da sua variável correspondente, como faria se fosse a única variável no modelo.
Rather, cada coeficiente representa o efeito adicional de adicionar essa variável ao modelo, se os efeitos de todas as outras variáveis no modelo já estiverem contabilizados. (A isto chama-se coeficientes de regressão de Tipo 3 e é a forma habitual de os calcular. Contudo, nem todo o software utiliza coeficientes de Tipo 3, por isso certifique-se de verificar o manual do software para saber o que está a obter).
Isto significa que cada coeficiente irá mudar quando outras variáveis forem adicionadas ou eliminadas do modelo.
Para uma discussão sobre como interpretar os coeficientes dos modelos com termos de interacção, ver Interpretando as Interacções em Regressão.