Średnia to nie wszystko
W poprzedniej lekcji nauczyliśmy się mierzyć środek danych. Ale sam środek nie mówi całej historii. Dwie grupy danych mogą mieć taką samą średnią, a wyglądać zupełnie inaczej.
Wyniki matury dwóch klas (średnia obu = 70):
Klasa A: 68, 69, 70, 71, 72
Klasa B: 40, 55, 70, 85, 100
Obie klasy mają tę samą średnią, ale Klasa A jest bardzo jednorodna, a Klasa B ma ogromne różnice między uczniami. Potrzebujemy sposobu na zmierzenie tego rozrzutu.
Rozstęp: najprostsza miara rozrzutu
Rozstęp to po prostu różnica między najwyższą a najniższą wartością. Jest łatwy do obliczenia i zrozumienia.
Rozstęp = wartość maksymalna - wartość minimalna.
Klasa A: rozstęp = 72 - 68 = 4 punkty
Klasa B: rozstęp = 100 - 40 = 60 punktów
Rozstęp jasno pokazuje, że Klasa B ma dużo większy rozrzut wyników.
Problem z rozstępem: jest oparty tylko na dwóch wartościach - najwyższej i najniższej. Jedna skrajnie nietypowa wartość może drastycznie zmienić rozstęp, a informacje o wszystkich pozostałych wartościach są ignorowane.
Pensje w firmie: 4 500 zł, 5 000 zł, 5 200 zł, 5 500 zł, 5 800 zł, 45 000 zł
Rozstęp = 45 000 - 4 500 = 40 500 zł. Ale jeśli pominiemy szefa (45 000 zł), rozstęp to tylko 1 300 zł. Jedna wartość zmieniła rozstęp 30-krotnie.
Wariancja: uwzględnia każdą wartość
Wariancja mierzy, jak daleko każda wartość odbiega od średniej. Uwzględnia wszystkie dane, nie tylko skrajne.
Jak obliczyć wariancję:
- Oblicz średnią
- Od każdej wartości odejmij średnią
- Podnieś każdą różnicę do kwadratu
- Oblicz średnią z tych kwadratów
Dane: 4, 8, 6, 5, 7. Średnia = 30 ÷ 5 = 6.
Odchylenia od średniej: -2, 2, 0, -1, 1
Kwadraty odchyleń: 4, 4, 0, 1, 1
Wariancja = (4 + 4 + 0 + 1 + 1) ÷ 5 = 10 ÷ 5 = 2
Dlaczego podnosimy do kwadratu?
Gdybyśmy po prostu uśrednili odchylenia od średniej, wartości ujemne i dodatnie znosiłyby się nawzajem, a wynik byłoby zawsze 0. Podniesienie do kwadratu sprawia, że wszystkie odchylenia stają się dodatnie - i im większa różnica, tym bardziej wpływa na wynik.
Wariancja populacji vs. wariancja próby
Jest jeden istotny szczegół: jeśli obliczasz wariancję dla próby (nie całej populacji), dzielisz przez n-1 zamiast n. To korekta statystyczna, która daje dokładniejsze oszacowanie. Na razie nie przejmuj się dlaczego - po prostu pamiętaj, że kalkulatory i programy zazwyczaj robią to automatycznie.
Porównanie w praktyce
Dwie kawiarnie w Warszawie mierzą czas oczekiwania klientów (w minutach):
Kawiarnia A: 3, 4, 4, 5, 4 (średnia = 4, wariancja = 0,4)
Kawiarnia B: 1, 2, 4, 6, 7 (średnia = 4, wariancja = 5,2)
Obie mają średni czas 4 minuty, ale Kawiarnia A jest bardzo przewidywalna, a w Kawiarni B możesz czekać 1 minutę albo 7. Którą wybrałbyś, gdybyś się spieszył?
Kiedy rozrzut jest ważny
Rozrzut danych ma znaczenie praktyczne w wielu sytuacjach:
- Inwestycje: Dwie akcje mogą mieć taki sam średni zwrot, ale jedna z dużo większą wariancją jest bardziej ryzykowna.
- Kontrola jakości: Fabryka chce, żeby produkty były jak najbardziej jednorodne - niska wariancja to cel.
- Edukacja: Jeśli wyniki matury mają dużą wariancję, znaczy to, że są duże różnice między uczniami.
Rozstęp to różnica między maksimum a minimum - prosty, ale wrażliwy na skrajności. Wariancja mierzy przeciętne odchylenie od średniej (podniesione do kwadratu) i uwzględnia każdą wartość. Obie miary pomagają zrozumieć, jak bardzo dane są rozproszone wokół środka. Sam środek bez informacji o rozrzucie daje niepełny obraz.