Przedziały ufności

Poziom trudności: Średniozaawansowany Czas czytania: 12 minut

Pojedyncza liczba to za mało

Kiedy sondaż mówi, że poparcie dla partii wynosi 32%, to jest szacunek oparty na próbie. Prawdziwa wartość dla całej populacji może być trochę większa lub mniejsza. Przedział ufności mówi: "jesteśmy pewni, że prawdziwa wartość leży gdzieś w tym zakresie."

95% PU 48 52 56 50
Przykład

Sondaż wyborczy: "Poparcie dla partii X wynosi 32% ± 3%." To znaczy, że przedział ufności to 29% do 35%. Jesteśmy (zwykle w 95%) pewni, że prawdziwe poparcie w całej populacji leży w tym zakresie.

Co oznacza "95% ufności"?

To jedno z najczęściej błędnie rozumianych pojęć. "95% przedział ufności" NIE oznacza, że jest 95% szans, że prawdziwa wartość leży w tym konkretnym przedziale. Oznacza: gdybyśmy powtórzyli badanie 100 razy (za każdym razem z nową próbą), to 95 z tych 100 przedziałów zawierałoby prawdziwą wartość.

To subtelna, ale ważna różnica. Pojedynczy przedział albo zawiera prawdziwą wartość, albo nie - nie ma w nim 95% "może".

Przykład

Wyobraź sobie, że 100 różnych pracowni sondażowych przeprowadza sondaż o popularności prezydenta. Każda używa innej próby 1000 osób i oblicza 95% przedział ufności. Około 95 z tych 100 przedziałów będzie zawierać prawdziwe poparcie. 5 przedziałów "pudłuje" - ich zakres nie będzie obejmował prawdziwej wartości.

Co wpływa na szerokość przedziału?

Wąski przedział = dokładniejsze oszacowanie. Szeroki przedział = większa niepewność. Oto co wpływa na szerokość:

  • Wielkość próby: im większa próba, tym węższy przedział. 100 osób da szerszy przedział niż 10 000 osób.
  • Zmienność danych: im bardziej dane się różnią, tym szerszy przedział.
  • Poziom ufności: 99% przedział jest szerszy niż 95%, który jest szerszy niż 90%. Większa pewność = więcej miejsca na błąd.
Przykład

Badanie średniej pensji. Próba 50 osób: przedział 4 800 - 5 600 zł (szerokość 800 zł). Próba 500 osób: przedział 5 050 - 5 350 zł (szerokość 300 zł). Próba 5 000 osób: przedział 5 150 - 5 250 zł (szerokość 100 zł). Dziesięciokrotne zwiększenie próby nie daje dziesięciokrotnie węższego przedziału - poprawka maleje.

Przedziały ufności w mediach

Kiedy czytasz sondaże w polskich mediach, zwracaj uwagę na margines błędu. "Poparcie 32% ± 3 punkty procentowe" to przedział ufności. Jeśli dwie partie mają poparcie 32% ± 3% i 29% ± 3%, ich przedziały zachodzą na siebie (29-35% i 26-32%) - nie możesz jednoznacznie powiedzieć, która ma więcej.

Przykład

Przed wyborami: Partia A - 28% ± 3%. Partia B - 25% ± 3%. Media tytułują: "Partia A prowadzi!" Ale przedziały ufności (25-31% i 22-28%) zachodzą na siebie. Statystycznie nie można powiedzieć, że A naprawdę prowadzi. Wyścig jest zbyt wyrównany.

Przedział ufności vs. wartość p

Przedział ufności daje więcej informacji niż wartość p. Wartość p mówi tylko "istotne lub nie". Przedział ufności mówi "efekt jest prawdopodobnie między X a Y" - dajesz i kierunek, i wielkość.

99% PU 44 52 60 50

Jeśli 95% przedział ufności dla różnicy między dwiema grupami nie zawiera zera, wynik jest statystycznie istotny na poziomie 0,05.

Kluczowy wniosek

Przedział ufności podaje zakres, w którym prawdopodobnie leży prawdziwa wartość populacji. "95% przedział ufności" oznacza, że metoda daje poprawny zakres w 95 na 100 powtórzeń badania. Szerokość przedziału zależy od wielkości próby, zmienności danych i poziomu ufności. Przedziały ufności dają pełniejszy obraz niż sama wartość p.