Czym są percentyle?
Percentyl mówi ci, jaki procent wartości w zbiorze danych znajduje się poniżej danego punktu. Jeśli twój wynik testu jest na 85. percentylu, oznacza to, że uzyskałeś wynik lepszy niż 85% zdających. Nie oznacza to, że odpowiedziałeś poprawnie na 85% pytań -- percentyle opisują twoją pozycję względem wszystkich innych, a nie bezwzględny wynik.
Percentyle są używane wszędzie. Pediatrzy śledzą wzrost i wagę dzieci za pomocą wykresów percentylowych. Standardowe testy, takie jak SAT i GRE, podają wyniki jako percentyle. Raporty płacowe opisują wynagrodzenia w percentylach, aby firmy mogły zobaczyć, jak wypadają na tle rynku.
Najczęściej przywoływane percentyle to kwartyle, które dzielą dane na cztery równe części. 25. percentyl to Q1 (pierwszy kwartyl), 50. percentyl to Q2 (mediana), a 75. percentyl to Q3 (trzeci kwartyl). Razem z minimum i maksimum te pięć wartości tworzy podsumowanie pięcioliczbowe -- zwięzłą migawkę całego zbioru danych.
Na wykresie punktowym powyżej widać, jak większość wartości skupia się w zakresie 20-30, z kilkoma niższymi wartościami i jedną wysoką wartością odstającą na poziomie 55. Percentyle pomagają nam opisać ten rozkład zwięźle, bez konieczności wymieniania każdego punktu danych.
Podsumowanie pięcioliczbowe
Podsumowanie pięcioliczbowe składa się z pięciu wartości: minimum, Q1, mediana, Q3 i maksimum. Te pięć liczb mówi ci, gdzie dane się zaczynają, gdzie leży środkowe 50% i gdzie dane się kończą.
Rozważ dzienne napiwki zarobione przez kelnera w ciągu 20 zmian: 12$, 15$, 17$, 19$, 21$, 22$, 23$, 24$, 25$, 26$, 27$, 28$, 29$, 30$, 31$, 33$, 35$, 38$, 42$, 55$. Podsumowanie pięcioliczbowe wynosiłoby: Minimum = 12$, Q1 = 20$, Mediana = 26,50$, Q3 = 32$, Maksimum = 55$. Na pierwszy rzut oka widać, że środkowe 50% napiwków mieści się między 20$ a 32$, typowy napiwek wynosi około 26-27$, a jeden dzień z niezwykle dużym napiwkiem to 55$.
Rozstęp międzykwartylowy (IQR)
Rozstęp międzykwartylowy to po prostu Q3 minus Q1. Mierzy on rozrzut środkowych 50% danych, ignorując wartości skrajne. W przykładzie z kelnerem IQR = 32$ - 20$ = 12$.
IQR jest bardziej odporną miarą rozrzutu niż rozstęp (maksimum minus minimum), ponieważ nie jest pod wpływem wartości odstających. Rozstęp kelnera wynosi 55$ - 12$ = 43$, co jest silnie zniekształcone przez ten jeden świetny dzień z napiwkami. IQR wynoszący 12$ daje dokładniejszy obraz typowej dziennej zmienności.
IQR jest również używany do identyfikacji wartości odstających. Powszechna reguła mówi, że każda wartość poniżej Q1 - 1,5 * IQR lub powyżej Q3 + 1,5 * IQR jest potencjalną wartością odstającą. W przykładzie z kelnerem górna granica wynosiłaby 32$ + 1,5 * 12$ = 50$. Dzień z napiwkiem 55$ przekracza ten próg, potwierdzając go jako statystyczną wartość odstającą.
Czytanie wykresu pudełkowego
Wykres pudełkowy (znany również jako wykres pudełkowo-wąsowy) to wizualna reprezentacja podsumowania pięcioliczbowego. Pudełko rozciąga się od Q1 do Q3, z linią w środku oznaczającą medianę. "Wąsy" rozciągają się od pudełka do najmniejszej i największej wartości niebędącej wartością odstającą. Wartości odstające pojawiają się jako pojedyncze punkty poza wąsami.
Wykresy pudełkowe są szczególnie przydatne do porównywania wielu grup obok siebie. Gdybyś chciał porównać napiwki w trzech różnych restauracjach, trzy wykresy pudełkowe umieszczone obok siebie natychmiast pokazałyby, która restauracja ma wyższe typowe napiwki, która ma większą zmienność i która ma więcej wartości odstających.
Wykres słupkowy powyżej przedstawia wartości podsumowania pięcioliczbowego jako słupki, dzięki czemu widać ich względne pozycje. Zwróć uwagę na lukę między Q3 a maksimum -- ta asymetria sugeruje, że dane są prawostronnie skośne, z długim ogonem w kierunku wyższych wartości.
Co wykresy pudełkowe mówią o kształcie
Wykresy pudełkowe mogą informować o skośności rozkładu. Jeśli linia mediany jest wyśrodkowana w pudełku, a wąsy mają mniej więcej równą długość, dane są symetryczne. Jeśli mediana jest bliżej Q1, a górny wąs jest dłuższy, dane są prawostronnie skośne (długi ogon wysokich wartości). Jeśli mediana jest bliżej Q3, a dolny wąs jest dłuższy, dane są lewostronnie skośne.
Na przykład dane o dochodach prawie zawsze dają prawostronnie skośny wykres pudełkowy: mediana jest nisko w pudełku, górny wąs jest długi i na wysokim końcu jest wiele wartości odstających. Wyniki egzaminów z dobrze zaprojektowanego kursu często dają lewostronnie skośny wykres pudełkowy: większość studentów radzi sobie dobrze, ale kilku maruderów ciągnie dolny wąs w dół.
Wykresy pudełkowe poświęcają pewne szczegóły w porównaniu z histogramami -- nie widać dokładnego kształtu rozkładu ani wielu szczytów. Ale doskonale sprawdzają się w kompaktowym porównaniu i wykrywaniu wartości odstających, dlatego są podstawą eksploracyjnej analizy danych.
Percentyle porządkują wartości względem reszty danych, przy czym kwartyle (Q1, mediana, Q3) są najważniejszymi punktami odniesienia. Podsumowanie pięcioliczbowe i IQR dają zwięzłą, odporną na wartości odstające migawkę dowolnego zbioru danych. Wykresy pudełkowe zamieniają to podsumowanie w wizualizację, która ujawnia centrum, rozrzut, skośność i wartości odstające na pierwszy rzut oka -- co czyni je idealnymi do szybkiego porównywania wielu grup.