Rodzaje danych

Poziom trudności: Początkujący Czas czytania: 10 minut

Nie wszystkie dane są takie same

Kiedy słyszysz słowo "dane", prawdopodobnie myślisz o liczbach. Ale dane to znacznie więcej. Twój ulubiony kolor, miasto, w którym mieszkasz, ocena filmu na pięć gwiazdek - to wszystko dane. Różnice między typami danych mają ogromne znaczenie, bo określają, jakich narzędzi statystycznych możesz użyć.

25 A 40 B 15 C 30 D 10 F

Wyobraź sobie, że prowadzisz sklep Żabka. Niektóre informacje o klientach to liczby (ile wydają, ile produktów kupują), a inne to kategorie (czy płacili kartą czy gotówką, jaki napój wybrali). Każdy z tych typów danych wymaga innego podejścia.

Dane jakościowe (kategoryczne)

Dane jakościowe opisują cechy lub kategorie. Nie da się ich sensownie dodać ani odjąć. Zamiast tego liczymy, ile razy każda kategoria się pojawia.

  • Płeć: mężczyzna, kobieta, inna
  • Województwo zamieszkania: mazowieckie, małopolskie, pomorskie...
  • Ulubiona drużyna Ekstraklasy: Legia Warszawa, Lech Poznań, Wisła Kraków...
  • Sposób płatności: gotówka, karta, BLIK
Przykład

W ankiecie GUS pytamy 500 osób o preferowany środek transportu do pracy. Odpowiedzi to: samochód, autobus, tramwaj, rower, pieszo. To dane jakościowe - możemy policzyć, że 210 osób wybrało samochód, 130 autobus itd. Ale nie ma sensu obliczać "średniej" środka transportu.

Nominalne vs. porządkowe

Dane jakościowe dzielimy na dwa podtypy:

Dane nominalne to kategorie bez naturalnego porządku. Płeć, kolor oczu, województwo - nie ma sensu mówić, że jedno województwo jest "większe w kolejności" niż inne (chyba że mówimy o wielkości, ale to już inna zmienna).

Dane porządkowe to kategorie z naturalnym porządkiem, ale odległości między nimi nie są równe. Ocena w szkole (celujący, bardzo dobry, dobry, dostateczny) ma jasną kolejność, ale różnica między "celującym" a "bardzo dobrym" nie musi być taka sama jak między "dobrym" a "dostatecznym".

Przykład

Na portalu z opiniami o restauracjach oceniasz lokal w skali: świetny, dobry, przeciętny, słaby, fatalny. To dane porządkowe - jest jasna kolejność od najlepszego do najgorszego. Ale czy różnica między "świetnym" a "dobrym" jest taka sama jak między "słabym" a "fatalnym"? Niekoniecznie.

Dane ilościowe (liczbowe)

Dane ilościowe to liczby, które można dodawać, odejmować i na których można wykonywać operacje matematyczne. Możesz obliczyć średnią, odchylenie standardowe i inne miary statystyczne.

  • Wzrost w centymetrach: 170, 182, 165...
  • Wynik matury z matematyki: 45, 72, 88...
  • Cena chleba w Biedronce: 3,49 zł, 4,29 zł...
  • Liczba goli strzelonych w sezonie: 12, 8, 21...

Dyskretne vs. ciągłe

Dane dyskretne przyjmują tylko określone wartości, zwykle całkowite. Nie możesz mieć 2,5 dziecka ani strzelić 3,7 gola.

Dane ciągłe mogą przyjmować dowolną wartość w zakresie. Wzrost może wynosić 175,3 cm, temperatura 36,6°C, a czas biegu na 100 m - 10,58 sekundy.

Przykład

W sklepie internetowym zbierasz dane o zamówieniach. Liczba produktów w koszyku (1, 2, 3...) to dane dyskretne - zawsze całkowite. Ale wartość zamówienia (127,50 zł, 89,99 zł) to dane ciągłe - może przyjąć praktycznie dowolną wartość.

Dlaczego typ danych ma znaczenie?

Typ danych determinuje, jakie narzędzia statystyczne możesz stosować. To jak różnica między śrubokrętem a młotkiem - oba są przydatne, ale do różnych zadań.

  • Dane jakościowe: możesz liczyć częstości, tworzyć wykresy kołowe i słupkowe, używać testu chi-kwadrat.
  • Dane ilościowe: możesz obliczać średnią, medianę, odchylenie standardowe, przeprowadzać testy t i regresje.

Błędne zastosowanie metody do niewłaściwego typu danych prowadzi do bezsensownych wyników. Na przykład obliczenie "średniej" kodu pocztowego (00-001, 30-200, 80-500) dałoby jakąś liczbę, ale nie miałoby żadnego sensu.

Przykład

Firma analizuje ankietę satysfakcji pracowników. Pytanie "W jakim dziale pracujesz?" daje dane nominalne. Pytanie "Jak oceniasz atmosferę w pracy w skali 1-5?" daje dane porządkowe. Pytanie "Ile lat pracujesz w firmie?" daje dane ilościowe ciągłe. Każde pytanie wymaga innego podejścia analitycznego.

Jak rozpoznać typ danych?

Oto prosta metoda: zadaj sobie dwa pytania.

  1. Czy te dane są liczbami, na których sensowne jest wykonywanie działań matematycznych? Jeśli tak - dane ilościowe. Jeśli nie - jakościowe.
  2. Jeśli ilościowe - czy mogą przyjąć dowolną wartość, czy tylko określone? Dowolna = ciągłe. Określone = dyskretne.

Uwaga: czasem liczby wyglądają jak dane ilościowe, ale nimi nie są. Numer PESEL, numer telefonu czy kod pocztowy to liczby, ale nie ma sensu ich dodawać czy uśredniać. To w rzeczywistości dane jakościowe zapisane cyframi.

Przykład z życia: dane GUS

Główny Urząd Statystyczny zbiera różne typy danych o Polakach. Kiedy patrzysz na raport GUS, możesz zobaczyć:

  • Województwo - dane nominalne
  • Poziom wykształcenia (podstawowe, średnie, wyższe) - dane porządkowe
  • Liczba osób w gospodarstwie domowym - dane dyskretne
  • Dochód miesięcznie w złotych - dane ciągłe

Każdy z tych typów danych wymaga innych metod analizy i prezentacji. Dlatego zanim zaczniesz jakiekolwiek obliczenia, zawsze najpierw zastanów się, z jakim typem danych masz do czynienia.

Kluczowy wniosek

Dane dzielą się na jakościowe (kategorie) i ilościowe (liczby). Dane jakościowe mogą być nominalne (bez kolejności) lub porządkowe (z kolejnością). Dane ilościowe mogą być dyskretne (tylko określone wartości) lub ciągłe (dowolne wartości). Rozpoznanie typu danych to pierwszy krok każdej analizy statystycznej - od tego zależy, jakich narzędzi możesz użyć.