Odchylenie standardowe i błąd standardowy są prawdopodobnie dwiema najmniej zrozumiałymi statystykami powszechnie pokazywanymi w tabelach danych. Poniższy artykuł ma na celu wyjaśnienie ich znaczenia i zapewnienie dodatkowego wglądu w to, jak są one wykorzystywane w analizie danych.
Odchylenie standardowe i błąd standardowy są prawdopodobnie dwiema najmniej zrozumiałymi statystykami powszechnie pokazywanymi w tabelach danych. Poniższy artykuł ma na celu wyjaśnienie ich znaczenia i zapewnienie dodatkowego wglądu w to, jak są one wykorzystywane w analizie danych. Obie statystyki są zazwyczaj pokazywane wraz ze średnią zmiennej i w pewnym sensie obie mówią o średniej. Są one często określane jako „odchylenie standardowe średniej” i „błąd standardowy średniej”. Jednakże, nie są one wymienne i reprezentują bardzo różne koncepcje.
Odchylenie standardowe
Odchylenie standardowe (często skracane jako „Std Dev” lub „SD”) zapewnia wskazanie, jak daleko poszczególne odpowiedzi na pytanie różnią się lub „odbiegają” od średniej. SD mówi badaczowi, jak rozłożone są odpowiedzi — czy są one skoncentrowane wokół średniej, czy rozproszone daleko & szeroko? Czy wszyscy respondenci oceniali Twój produkt w środku skali, czy też niektórzy go uwielbiali, a inni nienawidzili?
Powiedzmy, że poprosiłeś respondentów o ocenę Twojego produktu w odniesieniu do serii atrybutów na 5-punktowej skali. Średnia dla grupy dziesięciu respondentów (oznaczonych poniżej literami od „A” do „J”) dla cechy „dobry stosunek jakości do ceny” wyniosła 3,2 przy SD równym 0,4, a średnia dla cechy „niezawodność produktu” wyniosła 3,4 przy SD równym 2,1. Na pierwszy rzut oka (patrząc tylko na średnie) wydawać by się mogło, że niezawodność została oceniona wyżej niż wartość. Jednak wyższe SD dla niezawodności może wskazywać (jak pokazano w poniższym rozkładzie), że odpowiedzi były bardzo spolaryzowane, gdzie większość respondentów nie miała problemów z niezawodnością (oceniając ten atrybut na „5”), ale mniejsza, ale ważna grupa respondentów miała problem z niezawodnością i oceniła ten atrybut na „1”. Samo spojrzenie na średnią mówi tylko część historii, jednak zbyt często to właśnie na niej skupiają się badacze. Rozkład odpowiedzi jest ważny do rozważenia, a SD zapewnia wartościową miarę opisową tego.
Respondent: | Dobra wartość za pieniądze: |
Produkt Reliability: |
A | 3 | 1 |
B | 3 | 1 |
C | 3 | 1 |
D | 3 | 1 |
E | 4 | 5 |
F | 4 | 5 |
G | 3 | 5 |
H | 3 | 5 |
I | 3 | 5 |
J | 3 | 5 |
Mean | 3.2 | 3.4 |
Std Dev | 0.4 | 2.1 |
Dwa bardzo różne rozkłady odpowiedzi na 5-punktową skalę ocen mogą dać tę samą średnią. Rozważmy następujący przykład pokazujący wartości odpowiedzi dla dwóch różnych ocen. W pierwszym przykładzie (ocena „A”) odchylenie standardowe wynosi zero, ponieważ WSZYSTKIE odpowiedzi były dokładnie taką samą wartością średnią. Poszczególne odpowiedzi nie odbiegały w ogóle od średniej. W ocenie „B”, nawet jeśli średnia grupy jest taka sama (3.0) jak w pierwszym rozkładzie, odchylenie standardowe jest wyższe. Odchylenie standardowe równe 1,15 pokazuje, że odpowiedzi indywidualne, średnio*, odbiegały od średniej o nieco ponad 1 punkt.
Respondent: | Ocena „A” | Ocena „B” |
A | 3 | 1 |
B | 3 | 2 |
C | 3 | 2 |
D | 3 | 3 |
E | 3 | 3 |
F | 3 | 3 |
G | 3 | 3 |
H | 3 | 4 |
I | 3 | 4 |
J | 3 | 5 |
Mean | 3.0 | 3.0 |
Std Dev | 0.00 | 1.15 |
Innym sposobem spojrzenia na odchylenie standardowe jest wykreślenie rozkładu jako histogramu odpowiedzi. Dystrybucja z niskim SD będzie wyświetlana jako wysoki wąski kształt, podczas gdy duże SD będzie wskazywane przez szerszy kształt.
SD ogólnie nie wskazuje „dobrze lub źle” lub „lepiej lub gorzej” – niższe SD niekoniecznie jest bardziej pożądane. Jest używany wyłącznie jako statystyka opisowa. Opisuje ona rozkład w odniesieniu do średniej.
*Zastrzeżenie techniczne: myślenie o odchyleniu standardowym jako o „średnim odchyleniu” jest doskonałym sposobem koncepcyjnego zrozumienia jego znaczenia. Jednak w rzeczywistości nie jest ono obliczane jako średnia (gdyby tak było, nazwalibyśmy je „odchyleniem przeciętnym”). Zamiast tego, jest ono „standaryzowane”, co jest nieco skomplikowaną metodą obliczania wartości przy użyciu sumy kwadratów. Dla celów praktycznych, sposób obliczania nie jest ważny. Większość programów tabulacyjnych, arkuszy kalkulacyjnych lub innych narzędzi do zarządzania danymi obliczy SD za Ciebie. Ważniejsze jest zrozumienie, co ta statystyka przekazuje.
Błąd standardowy
Błąd standardowy („Std Err” lub „SE”), jest wskaźnikiem wiarygodności średniej. Mały SE jest wskazówką, że średnia z próby jest dokładniejszym odzwierciedleniem rzeczywistej średniej populacji. Większa liczebność próby zwykle skutkuje mniejszym SE (podczas gdy na SD nie ma bezpośredniego wpływu liczebność próby).
Większość badań ankietowych polega na losowaniu próby z populacji. Następnie wnioskujemy o populacji na podstawie wyników uzyskanych z tej próby. Jeśli wylosowana została druga próba, wyniki prawdopodobnie nie będą dokładnie odpowiadać pierwszej próbie. Jeśli średnia wartość dla atrybutu oceny wyniosła 3,2 dla jednej próbki, może ona wynieść 3,4 dla drugiej próbki o tej samej wielkości. Jeśli wylosowalibyśmy nieskończoną liczbę próbek (o równej wielkości) z naszej populacji, moglibyśmy wyświetlić zaobserwowane średnie jako rozkład. Następnie moglibyśmy obliczyć średnią wszystkich średnich z naszych próbek. Ta średnia byłaby równa prawdziwej średniej populacji. Możemy również obliczyć odchylenie standardowe rozkładu średnich z próby. Odchylenie standardowe tego rozkładu średnich z próby jest błędem standardowym każdej indywidualnej średniej z próby. Innymi słowy, Błąd Standardowy to Odchylenie Standardowe średniej populacji.
Próba: | Średnia | |
1.2 | ||
2nd | 3.4 | |
3rd | 3.3 | |
4th | 3.2 | |
5th | 3.1 | |
. | . | |
. | . | |
. | . | . |
Mean | 3.3 | |
Std Dev | 0.13 |
Pomyśl o tym. Jeśli SD tego rozkładu pomaga nam zrozumieć, jak daleko średnia z próbki jest od prawdziwej średniej populacji, to możemy użyć tego, aby zrozumieć, jak dokładna jest każda indywidualna średnia z próbki w stosunku do prawdziwej średniej. To jest właśnie istota błędu standardowego. W rzeczywistości wylosowaliśmy tylko jedną próbę z naszej populacji, ale możemy użyć tego wyniku, aby oszacować wiarygodność naszej zaobserwowanej średniej z próby.
W rzeczywistości SE mówi nam, że możemy być na 95% pewni, że nasza zaobserwowana średnia z próby jest plus lub minus około 2 (w rzeczywistości 1.96) błędów standardowych od średniej w populacji.
Poniższa tabela pokazuje rozkład odpowiedzi z naszej pierwszej (i jedynej) próby użytej do naszych badań. SE wynoszący 0,13, będąc stosunkowo małym, daje nam wskazówkę, że nasza średnia jest stosunkowo bliska prawdziwej średniej naszej całej populacji. Margines błędu (przy 95% pewności) dla naszej średniej jest (mniej więcej) dwukrotnie większy (+/- 0,26), co oznacza, że prawdziwa średnia mieści się najprawdopodobniej w przedziale od 2,94 do 3,46.
Respondent: | Rating: |
A | 3 |
B | 3 |
C | 3 |
D | 3 |
E | 4 |
F | 4 |
G | 3 |
H | 3 |
I | 3 |
J | 3 |
Mean | 3.2 |
Std Err | 0.13 |
Podsumowanie
Wielu badaczy nie rozumie różnicy między odchyleniem standardowym a błędem standardowym, mimo że są one powszechnie uwzględniane w analizie danych. Podczas gdy rzeczywiste obliczenia Odchylenia Standardowego i Błędu Standardowego wyglądają bardzo podobnie, reprezentują one dwie bardzo różne, ale uzupełniające się miary. SD mówi nam o kształcie naszego rozkładu, jak blisko poszczególne wartości danych są od wartości średniej. SE mówi nam, jak blisko średnia z naszej próbki jest prawdziwej średniej z całej populacji. Razem pomagają one uzyskać pełniejszy obraz sytuacji, niż wynikałoby to z samej średniej.