Od surowych danych do uporządkowanych zliczań
Gdy zbierasz dane, często zaczynają się one jako nieporządna lista. Wyobraź sobie ankietowanie 200 klientów o preferowaną metodę płatności i otrzymanie długiej kolumny odpowiedzi: karta kredytowa, gotówka, płatność mobilna, karta kredytowa, karta kredytowa, gotówka itd. Tabela częstości zamienia ten chaos w czyste podsumowanie, zliczając, ile razy pojawia się każda wartość.
Podstawowa tabela częstości ma dwie kolumny: kategorię i liczbę (zwaną też częstością). Dla przykładu z płatnościami możesz uzyskać: karta kredytowa: 95, gotówka: 52, płatność mobilna: 38, karta debetowa: 15. Teraz od razu widzisz, która metoda płatności dominuje, a która jest rzadka. Ten prosty akt zliczania jest fundamentem statystyki opisowej.
Częstość względna i skumulowana
Surowe liczby są przydatne, ale mogą być trudne do porównania między zbiorami danych różnej wielkości. Jeśli jeden sklep ankietował 200 osób, a inny 1000, porównywanie surowych liczb jest mylące. Częstość względna rozwiązuje to, wyrażając każdą liczbę jako proporcję lub procent całości. Karta kredytowa z 95 na 200 to częstość względna 47,5%.
Częstość skumulowana idzie o krok dalej. Pokazuje bieżącą sumę w miarę przechodzenia przez kategorie. Dla uporządkowanych danych, takich jak zakresy wyników egzaminów, częstość skumulowana odpowiada na pytania typu "jaki procent studentów uzyskał 70 lub mniej?" Wystarczy zsumować częstości wszystkich kategorii do tego punktu. Jest to szczególnie przydatne, gdy trzeba znaleźć mediany lub percentyle z danych pogrupowanych.
Te trzy widoki tych samych danych (częstość surowa, względna i skumulowana) dają pełny obraz. Surowe liczby pokazują rzeczywiste wartości, częstości względne umożliwiają porównanie między zbiorami danych, a częstości skumulowane pomagają zrozumieć rozkład wartości.
Tabele częstości dla danych liczbowych
Gdy dane są liczbowe i ciągłe -- jak wiek, dochody czy wyniki testów -- nie można wymienić każdej unikalnej wartości, bo mogą ich być setki. Zamiast tego grupujesz wartości w przedziały zwane klasami. Na przykład wiek można pogrupować jako 18-25, 26-35, 36-45 itd.
Wybór odpowiedniej liczby przedziałów ma znaczenie. Zbyt mało i tracisz szczegóły. Zbyt wiele i tabela staje się tak chaotyczna jak surowe dane. Powszechna reguła to używanie od 5 do 15 przedziałów dla większości zbiorów danych. Histogram powyżej pokazuje, jak dane o wieku wyglądają po pogrupowaniu w sześć przedziałów, czyniąc kształt rozkładu wyraźnym na pierwszy rzut oka.
Nauczycielka zapisuje wyniki egzaminu 30 uczniów: od 45 do 98. Tworzy tabelę częstości z przedziałami po 10 punktów (40-49, 50-59, 60-69, 70-79, 80-89, 90-99). Ujawnia to, że większość uczniów uzyskała wynik między 70 a 89, a tylko dwóch poniżej 50. Tabela częstości natychmiast podkreśla, gdzie klasa się skupia i gdzie są wartości odstające, co byłoby trudne do zobaczenia w surowej liście 30 liczb.
Tabulacja krzyżowa: dwie zmienne naraz
Tabela częstości obsługuje jedną zmienną. Ale co, jeśli chcesz zbadać związek między dwiema zmiennymi kategorycznymi? Tu wkracza tabulacja krzyżowa (zwana też tabelą kontyngencji lub tabelą dwukierunkową). Tworzy siatkę, w której jedna zmienna definiuje wiersze, a druga kolumny, z liczbami w każdej komórce.
Na przykład załóżmy, że ankietujesz pracowników o satysfakcję z pracy (zadowolony, neutralny, niezadowolony) i rejestrujesz ich dział (sprzedaż, inżynieria, wsparcie). Tabulacja krzyżowa pokazuje, ilu pracowników w każdym dziale należy do każdej kategorii satysfakcji. Teraz możesz na pierwszy rzut oka zobaczyć, czy inżynieria ma więcej niezadowolonych pracowników niż sprzedaż, czy wsparcie jest szczególnie zadowolone.
Tabulacje krzyżowe są punktem wyjścia dla wielu testów statystycznych, w tym testu chi-kwadrat. Pozwalają wizualnie zbadać, czy dwie zmienne wydają się powiązane, zanim przeprowadzisz jakąkolwiek formalną analizę. Czytając badania, często zobaczysz tabele tabulacji krzyżowej prezentowane z procentami wierszowymi lub kolumnowymi dla łatwiejszego porównania.
Czytanie tabel jak profesjonalista
Tabele częstości i tabulacje krzyżowe pojawiają się wszędzie: w artykułach prasowych, raportach medycznych, panelach biznesowych i pracach naukowych. Oto praktyczne wskazówki, jak je dobrze czytać. Po pierwsze, zawsze sprawdzaj sumy. Jeśli tabela pokazuje procenty bez liczb bazowych, próba może być zbyt mała, by procenty były znaczące (stwierdzenie "50% preferowało opcję A" brzmi imponująco, dopóki nie dowiesz się, że ankietowano tylko 4 osoby).
Po drugie, zwróć uwagę na to, jak zdefiniowane są kategorie. Przedziały o nierównej szerokości w tabeli częstości mogą zniekształcić twoje wrażenie o danych. Przedział "0-10" i "11-50" naturalnie będzie miał więcej zliczeń w szerszym przedziale, nawet jeśli bazowa częstotliwość jest taka sama.
Po trzecie, w tabulacjach krzyżowych zdecyduj, czy procenty wierszowe czy kolumnowe są bardziej odpowiednie dla twojego pytania. Jeśli chcesz wiedzieć, jaka część każdego działu jest zadowolona, użyj procentów wierszowych. Jeśli chcesz wiedzieć, jaka część zadowolonych pracowników pochodzi z każdego działu, użyj procentów kolumnowych. Wybór złego kierunku może prowadzić do błędnych wniosków.
Tabele częstości przekształcają surowe dane w uporządkowane podsumowania, zliczając, jak często pojawia się każda wartość lub kategoria. Częstość względna wyraża liczby jako proporcje do łatwego porównania, a częstość skumulowana śledzi bieżące sumy. Tabulacja krzyżowa rozszerza to na dwie zmienne naraz, ujawniając wzorce w relacjach między kategoriami. Te proste narzędzia są pierwszym krokiem w prawie każdej analizie danych i jedną z najbardziej praktycznych umiejętności czytania statystyk w codziennym życiu.