Soma dos Quadrados Total, Soma dos Quadrados Regressão e Soma dos Quadrados Erro

Vocês podem estar a perguntar-se sobre o que são todas essas somas de quadrados. Talvez tenha sido isso que o trouxe até aqui em primeiro lugar. Bem, eles são os determinantes de uma boa regressão linear. Este tutorial é baseado no quadro ANOVA que já deve ter ouvido antes.

Antes de o ler, no entanto, certifique-se de que não está a confundir regressão com correlação. Se tiver verificado isto, podemos entrar directamente na acção.

Uma nota lateral rápida: Quer aprender mais sobre a regressão linear? Veja os nossos vídeos explicativos sobre o Modelo de Regressão Linear. Geometrical Representation and The Simple Linear Regression Model.

SST, SSR, SSE: Definition and Formulas

Há três termos que temos de definir. A soma do total dos quadrados, a soma da regressão dos quadrados, e a soma do erro dos quadrados.

A soma do total dos quadrados, a soma da regressão dos quadrados, e a soma do erro dos quadrados.

O que é o SST?

A soma do total dos quadrados, designada SST, é a diferença quadrática entre a variável dependente observada e a sua média. Pode-se pensar nisto como a dispersão das variáveis observadas em torno da média – tal como a variância na estatística descritiva.

Soma dos quadrados totais

É uma medida da variabilidade total do conjunto de dados.

Nota lateral: Há outra notação para o SST. É TSS ou soma total de quadrados.

O que é o SSR?

O segundo termo é a soma dos quadrados devido à regressão, ou SSR. É a soma das diferenças entre o valor previsto e a média da variável dependente. Pense nisto como uma medida que descreve o quão bem a nossa linha se ajusta aos dados.

Soma dos quadrados de regressão

Se este valor de SSR for igual à soma dos quadrados totais, significa que o nosso modelo de regressão capta toda a variabilidade observada e é perfeito. Mais uma vez, temos de mencionar que outra notação comum é ESS ou soma explicada dos quadrados.

Qual é o SSE?

O último termo é a soma do erro dos quadrados, ou SSE. O erro é a diferença entre o valor observado e o valor previsto.

Soma do erro dos quadrados

Queremos normalmente minimizar o erro. Quanto menor for o erro, melhor será o poder de estimativa da regressão. Finalmente, devo acrescentar que também é conhecido como RSS ou soma residual dos quadrados. Residual como em: restante ou inexplicado.

A confusão entre as diferentes abreviaturas

Torna-se realmente confuso porque algumas pessoas o denotam como SSR. Isto torna pouco claro se estamos a falar da soma dos quadrados devido à regressão ou soma dos resíduos quadrados.

Soma do erro dos quadrados

Em qualquer caso, nenhum deles é universalmente adoptado, pelo que a confusão permanece e teremos de viver com ela.

Lembrar que as duas notações são SST, SSR, SSE, ou TSS, ESS, RSS.

Soma de erro dos quadrados

Existe um conflito em relação às abreviaturas, mas não em relação ao conceito e à sua aplicação. Portanto, vamos concentrar-nos nisso.

Como estão relacionados?

Matematicamente, SST = SSR + SSE.

Ligação

A lógica é a seguinte: a variabilidade total do conjunto de dados é igual à variabilidade explicada pela linha de regressão mais a variabilidade inexplicada, conhecida como erro.

Dada uma variabilidade total constante, um erro menor causará uma melhor regressão. Inversamente, um erro mais elevado causará uma regressão menos potente. E isso é o que se deve lembrar, independentemente da notação.

Próximo Passo: O quadrado R

Bem, se não tiver a certeza porque precisamos de todas essas somas de quadrados, temos a ferramenta certa para si. O R-quadrado. Gostaria de saber mais? Basta mergulhar no tutorial ligado onde irá compreender como mede o poder explicativo de uma regressão linear!

*****

Interessado em aprender mais? Pode levar as suas competências do bem para o óptimo com o nosso curso de estatística.

Curso de estatística grátis

Próximo Tutorial: Medindo a Variabilidade com o R-quadrado

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *