Rozstęp i wariancja

Poziom trudności: Początkujący Czas czytania: 10 minut

Średnia to nie wszystko

W poprzedniej lekcji nauczyliśmy się mierzyć środek danych. Ale sam środek nie mówi całej historii. Dwie grupy danych mogą mieć taką samą średnią, a wyglądać zupełnie inaczej.

10 12 14 16 18 20 15.0
Przykład

Wyniki matury dwóch klas (średnia obu = 70):

Klasa A: 68, 69, 70, 71, 72

Klasa B: 40, 55, 70, 85, 100

Obie klasy mają tę samą średnią, ale Klasa A jest bardzo jednorodna, a Klasa B ma ogromne różnice między uczniami. Potrzebujemy sposobu na zmierzenie tego rozrzutu.

Rozstęp: najprostsza miara rozrzutu

Rozstęp to po prostu różnica między najwyższą a najniższą wartością. Jest łatwy do obliczenia i zrozumienia.

Rozstęp = wartość maksymalna - wartość minimalna.

Przykład

Klasa A: rozstęp = 72 - 68 = 4 punkty

Klasa B: rozstęp = 100 - 40 = 60 punktów

Rozstęp jasno pokazuje, że Klasa B ma dużo większy rozrzut wyników.

Problem z rozstępem: jest oparty tylko na dwóch wartościach - najwyższej i najniższej. Jedna skrajnie nietypowa wartość może drastycznie zmienić rozstęp, a informacje o wszystkich pozostałych wartościach są ignorowane.

Przykład

Pensje w firmie: 4 500 zł, 5 000 zł, 5 200 zł, 5 500 zł, 5 800 zł, 45 000 zł

Rozstęp = 45 000 - 4 500 = 40 500 zł. Ale jeśli pominiemy szefa (45 000 zł), rozstęp to tylko 1 300 zł. Jedna wartość zmieniła rozstęp 30-krotnie.

Wariancja: uwzględnia każdą wartość

Wariancja mierzy, jak daleko każda wartość odbiega od średniej. Uwzględnia wszystkie dane, nie tylko skrajne.

Jak obliczyć wariancję:

  1. Oblicz średnią
  2. Od każdej wartości odejmij średnią
  3. Podnieś każdą różnicę do kwadratu
  4. Oblicz średnią z tych kwadratów
Przykład

Dane: 4, 8, 6, 5, 7. Średnia = 30 ÷ 5 = 6.

Odchylenia od średniej: -2, 2, 0, -1, 1

Kwadraty odchyleń: 4, 4, 0, 1, 1

Wariancja = (4 + 4 + 0 + 1 + 1) ÷ 5 = 10 ÷ 5 = 2

Dlaczego podnosimy do kwadratu?

Gdybyśmy po prostu uśrednili odchylenia od średniej, wartości ujemne i dodatnie znosiłyby się nawzajem, a wynik byłoby zawsze 0. Podniesienie do kwadratu sprawia, że wszystkie odchylenia stają się dodatnie - i im większa różnica, tym bardziej wpływa na wynik.

Wariancja populacji vs. wariancja próby

Jest jeden istotny szczegół: jeśli obliczasz wariancję dla próby (nie całej populacji), dzielisz przez n-1 zamiast n. To korekta statystyczna, która daje dokładniejsze oszacowanie. Na razie nie przejmuj się dlaczego - po prostu pamiętaj, że kalkulatory i programy zazwyczaj robią to automatycznie.

Porównanie w praktyce

Przykład

Dwie kawiarnie w Warszawie mierzą czas oczekiwania klientów (w minutach):

Kawiarnia A: 3, 4, 4, 5, 4 (średnia = 4, wariancja = 0,4)

Kawiarnia B: 1, 2, 4, 6, 7 (średnia = 4, wariancja = 5,2)

Obie mają średni czas 4 minuty, ale Kawiarnia A jest bardzo przewidywalna, a w Kawiarni B możesz czekać 1 minutę albo 7. Którą wybrałbyś, gdybyś się spieszył?

Kiedy rozrzut jest ważny

Rozrzut danych ma znaczenie praktyczne w wielu sytuacjach:

  • Inwestycje: Dwie akcje mogą mieć taki sam średni zwrot, ale jedna z dużo większą wariancją jest bardziej ryzykowna.
  • Kontrola jakości: Fabryka chce, żeby produkty były jak najbardziej jednorodne - niska wariancja to cel.
  • Edukacja: Jeśli wyniki matury mają dużą wariancję, znaczy to, że są duże różnice między uczniami.
Kluczowy wniosek

Rozstęp to różnica między maksimum a minimum - prosty, ale wrażliwy na skrajności. Wariancja mierzy przeciętne odchylenie od średniej (podniesione do kwadratu) i uwzględnia każdą wartość. Obie miary pomagają zrozumieć, jak bardzo dane są rozproszone wokół środka. Sam środek bez informacji o rozrzucie daje niepełny obraz.