Możesz się zastanawiać, o co chodzi z tymi wszystkimi sumami kwadratów. Może to jest to, co doprowadziło cię tutaj w pierwszej kolejności. Cóż, są one wyznacznikami dobrej regresji liniowej. Ten tutorial jest oparty na metodzie ANOVA, którą być może już słyszałeś.
Przed jego przeczytaniem upewnij się jednak, że nie mylisz regresji z korelacją. Jeśli to sprawdziłeś, możemy przejść do działania.
Szybka uwaga na marginesie: Chcesz dowiedzieć się więcej o regresji liniowej? Sprawdź nasze filmy objaśniające Model regresji liniowej. Geometryczna reprezentacja i Prosty model regresji liniowej.
SST, SSR, SSE: Definicja i wzory
Są trzy terminy, które musimy zdefiniować. Suma kwadratów, suma kwadratów regresji, i suma kwadratów błędu.
Co to jest SST?
Suma kwadratów, oznaczana jako SST, jest kwadratem różnic pomiędzy obserwowaną zmienną zależną a jej średnią. Można o tym myśleć jako o rozproszeniu obserwowanych zmiennych wokół średniej – podobnie jak o wariancji w statystykach opisowych.
Jest to miara całkowitej zmienności zbioru danych.
Uwaga dodatkowa: Istnieje inna notacja dla SST. Jest to TSS, czyli całkowita suma kwadratów.
Co to jest SSR?
Drugi termin to suma kwadratów spowodowanych regresją, czyli SSR. Jest to suma różnic pomiędzy wartością przewidywaną a średnią zmiennej zależnej. Pomyśl o tym jako o miarze, która opisuje, jak dobrze nasza linia pasuje do danych.
Jeśli ta wartość SSR jest równa sumie kwadratów, oznacza to, że nasz model regresji wychwytuje całą obserwowaną zmienność i jest doskonały. Po raz kolejny musimy wspomnieć, że innym popularnym zapisem jest ESS czyli wyjaśniona suma kwadratów.
Co to jest SSE?
Ostatnim terminem jest błąd sumy kwadratów, czyli SSE. Błąd jest różnicą między wartością obserwowaną a przewidywaną.
Zazwyczaj chcemy zminimalizować błąd. Im mniejszy błąd, tym lepsza moc estymacyjna regresji. Na koniec powinienem dodać, że jest on również znany jako RSS lub rezydualna suma kwadratów. Resztkowa jak: pozostała lub niewyjaśniona.
Zamieszanie pomiędzy różnymi skrótami
To staje się naprawdę mylące, ponieważ niektórzy ludzie oznaczają to jako SSR. To sprawia, że nie jest jasne, czy mówimy o sumie kwadratów spowodowanych regresją, czy o sumie kwadratów reszt.
W każdym razie, żaden z nich nie jest powszechnie przyjęty, więc zamieszanie pozostaje i będziemy musieli z nim żyć.
Po prostu pamiętajmy, że obie notacje to SST, SSR, SSE lub TSS, ESS, RSS.
Jest konflikt co do skrótów, ale nie co do koncepcji i jej zastosowania. Skupmy się więc na tym.
Jak są one powiązane?
Matematycznie, SST = SSR + SSE.
Zasadność jest następująca: całkowita zmienność zbioru danych jest równa zmienności wyjaśnionej przez linię regresji plus niewyjaśniona zmienność, zwana błędem.
Przy stałej całkowitej zmienności, niższy błąd spowoduje lepszą regresję. I odwrotnie, wyższy błąd spowoduje mniej silną regresję. I to jest to, o czym musisz pamiętać, niezależnie od notacji.
Kolejny krok: The R-squared
Cóż, jeśli nie jesteś pewien, dlaczego potrzebujemy tych wszystkich sum kwadratów, mamy dla Ciebie odpowiednie narzędzie. R-kwadrat. Chcesz dowiedzieć się więcej? Zanurz się w linkowanym samouczku, gdzie zrozumiesz, jak mierzy on moc wyjaśniającą regresji liniowej!
***
Zainteresowany nauką więcej? Możesz podnieść swoje umiejętności z dobrych na świetne dzięki naszemu kursowi statystyki.
Wypróbuj kurs statystyki za darmo
Następny Samouczek: Mierzenie zmienności za pomocą kwadratu R