What is the difference between a population and a sample?

A population includes every member of a group you want to study, while a sample is a smaller subset selected to represent that population.

Why do we use samples instead of populations?

Studying an entire population is usually too expensive or impractical, so we draw representative samples and use statistics to generalize.

What is a representative sample?

A representative sample accurately reflects the characteristics of the population it was drawn from, minimizing bias in the results.

How big should a sample size be?

It depends on population variability and desired precision. Common minimums are 30 for basic analyses, but larger samples give more reliable results.

What is sampling error?

Sampling error is the natural difference between a sample statistic and the true population value, caused by studying only part of the population.

Populacje i próby

Nie możesz pytać wszystkich

Wyobraź sobie, że chcesz wiedzieć, ile przeciętny Polak wydaje miesięcznie na zakupy w Biedronce. Idealnie byłoby zapytać wszystkich 38 milionów obywateli. Ale to niemożliwe - kosztowałoby miliony złotych i trwało lata. Dlatego pytamy mniejszą grupę i na jej podstawie wyciągamy wnioski o całej populacji.

Populacja - o kim chcesz się dowiedzieć

Populacja to cały zbiór osób, obiektów lub zdarzeń, które cię interesują. Nie musi dotyczyć ludzi - może to być "wszystkie mieszkania w Warszawie", "wszystkie mecze Ekstraklasy w sezonie 2024/25" czy "wszystkie transakcje w sklepie w grudniu".

Przykład

GUS chce poznać średnie zarobki Polaków. Populacja to wszyscy pracujący w Polsce - ponad 16 milionów osób. Przepytanie każdego jest praktycznie niemożliwe, więc GUS korzysta z próby.

Próba - kogo faktycznie badasz

Próba to podzbiór populacji, który faktycznie badasz. Kluczowe jest, żeby próba dobrze odzwierciedlała całość - to znaczy, żeby była reprezentatywna.

Jeśli badasz opinie Polaków, ale pytasz tylko mieszkańców Warszawy, twoja próba nie jest reprezentatywna. Opinie warszawiaków mogą się bardzo różnić od opinii mieszkańców małych miast czy wsi.

Przykład

Pracownia sondażowa chce zbadać poparcie dla partii politycznych. Pytają 1200 osób z całej Polski, dobierając proporcjonalnie ludzi z różnych województw, grup wiekowych i wielkości miast. Ta próba ma szansę być reprezentatywna. Gdyby pytali tylko studentów z Krakowa - nie.

Dlaczego próbkowanie jest konieczne

Są trzy główne powody:

Koszt: Zbadanie całej populacji jest za drogie. Spis powszechny kosztuje setki milionów złotych i odbywa się raz na 10 lat.
Czas: Nie da się szybko dotrzeć do wszystkich. A informacje często są potrzebne natychmiast.
Praktyczność: Niektóre badania niszczą próby. Jeśli testujesz trwałość żarówek, nie możesz spalić wszystkich - nie zostałoby nic do sprzedania.

Metody doboru próby

Próbkowanie losowe proste

Każdy członek populacji ma równą szansę bycia wybranym. To jak losowanie z kapelusza. Jest to najczystsza metoda, ale nie zawsze praktyczna.

Próbkowanie warstwowe

Dzielisz populację na grupy (warstwy) i losujesz z każdej proporcjonalnie. Na przykład, jeśli 60% Polaków mieszka w miastach, a 40% na wsi, to w próbie 1000 osób powinno być około 600 mieszkańców miast i 400 ze wsi.

Próbkowanie wygodne (oportunistyczne)

Pytasz tych, którzy akurat są pod ręką. Ankieta na Facebooku, pytanie znajomych, ankieta w jednym sklepie. Jest to łatwe, ale często daje niewiarygodne wyniki.

Przykład

Restauracja w Gdańsku chce wiedzieć, czy klienci są zadowoleni. Jeśli pyta tylko tych, którzy przychodzą w piątkowy wieczór, pomija klientów lunchowych, rodziny z dziećmi w weekendy i osoby zamawiające na wynos. Próba jest niereprezentatywna - i wnioski mogą być mylące.

Błąd próbkowania

Nawet przy idealnym próbkowaniu próba nigdy nie jest doskonałym odzwierciedleniem populacji. Ta różnica to błąd próbkowania. Im większa próba, tym mniejszy błąd - ale nigdy nie znika całkowicie.

Dlatego sondaże wyborcze zawsze podają margines błędu. Kiedy słyszysz "poparcie wynosi 35% z błędem +/- 3%", oznacza to, że prawdziwa wartość prawdopodobnie leży między 32% a 38%.

Parametr vs. statystyka

To rozróżnienie jest ważne: parametr to wartość opisująca całą populację (np. średni wzrost wszystkich Polaków), a statystyka to wartość obliczona z próby (np. średni wzrost 500 zbadanych osób). Celem statystyki jest oszacowanie parametru.

Przykład

Firma chce poznać średni czas, jaki klienci spędzają w jej sklepie internetowym. Prawdziwy parametr (średnia dla wszystkich 100 000 użytkowników) to nieznana wartość. Firma analizuje próbę 2000 losowo wybranych użytkowników i oblicza średnią 7,3 minuty. To statystyka - oszacowanie prawdziwego parametru.

Kluczowy wniosek

Populacja to cały zbiór, o którym chcesz się dowiedzieć. Próba to mniejsza część, którą faktycznie badasz. Dobra próba jest reprezentatywna - odzwierciedla strukturę populacji. Próbkowanie jest konieczne ze względu na koszty, czas i praktyczność. Pamiętaj, że każda próba wiąże się z błędem próbkowania, który maleje wraz ze wzrostem liczebności próby.

Populacje i próby

Nie możesz pytać wszystkich

Populacja - o kim chcesz się dowiedzieć

Próba - kogo faktycznie badasz

Dlaczego próbkowanie jest konieczne

Metody doboru próby

Próbkowanie losowe proste

Próbkowanie warstwowe

Próbkowanie wygodne (oportunistyczne)

Błąd próbkowania

Parametr vs. statystyka

Powiązane lekcje