Apa itu persentil?
Persentil menunjukkan persentase nilai dalam kumpulan data yang jatuh di bawah titik tertentu. Jika skor ujian Anda berada di persentil ke-85, itu berarti Anda mendapat skor lebih tinggi dari 85% peserta ujian. Bukan berarti Anda menjawab benar 85% soal -- persentil menggambarkan peringkat Anda relatif terhadap semua orang, bukan kinerja absolut.
Persentil digunakan di mana-mana. Dokter anak melacak tinggi dan berat badan anak menggunakan grafik persentil. Ujian standar seperti SAT dan GRE melaporkan skor sebagai persentil. Survei gaji menggambarkan kompensasi dalam persentil sehingga perusahaan dapat melihat posisi mereka relatif terhadap pasar.
Persentil yang paling sering dirujuk adalah kuartil, yang membagi data menjadi empat bagian sama. Persentil ke-25 disebut Q1 (kuartil pertama), persentil ke-50 adalah Q2 (median), dan persentil ke-75 adalah Q3 (kuartil ketiga). Bersama dengan minimum dan maksimum, kelima nilai ini membentuk ringkasan lima angka -- gambaran ringkas dari seluruh kumpulan data.
Pada diagram titik di atas, Anda dapat melihat bagaimana sebagian besar nilai mengelompok di rentang 20-an dan 30-an, dengan beberapa nilai lebih rendah dan satu outlier tinggi di 55. Persentil membantu kita menggambarkan distribusi ini secara ringkas tanpa perlu mendaftar setiap titik data.
Ringkasan lima angka
Ringkasan lima angka terdiri dari: minimum, Q1, median, Q3, dan maksimum. Kelima angka ini menunjukkan di mana data dimulai, di mana 50% tengah berada, dan di mana data berakhir.
Pertimbangkan tip harian seorang pelayan selama 20 shift: $12, $15, $17, $19, $21, $22, $23, $24, $25, $26, $27, $28, $29, $30, $31, $33, $35, $38, $42, $55. Ringkasan lima angkanya: Minimum = $12, Q1 = $20, Median = $26.50, Q3 = $32, Maksimum = $55. Sekilas, Anda bisa melihat bahwa 50% tengah tip jatuh antara $20 dan $32, tip tipikal sekitar $26-$27, dan ada satu hari tip yang luar biasa besar di $55.
Rentang Interkuartil (IQR)
Rentang interkuartil sederhananya adalah Q3 dikurangi Q1. Ini mengukur sebaran 50% tengah data Anda, mengabaikan nilai ekstrem. Dalam contoh pelayan, IQR = $32 - $20 = $12.
IQR adalah ukuran sebaran yang lebih kokoh daripada rentang (maksimum dikurangi minimum) karena tidak dipengaruhi oleh outlier. Rentang pelayan adalah $55 - $12 = $43, yang sangat dipengaruhi oleh satu hari tip besar. IQR $12 memberi gambaran lebih akurat tentang variasi tipikal hari ke hari.
IQR juga digunakan untuk mengidentifikasi outlier. Aturan umum mengatakan bahwa nilai di bawah Q1 - 1.5 * IQR atau di atas Q3 + 1.5 * IQR adalah potensial outlier. Dalam contoh pelayan, batas atas adalah $32 + 1.5 * $12 = $50. Hari tip $55 melebihi ambang ini, mengkonfirmasinya sebagai outlier statistik.
Membaca diagram kotak
Diagram kotak (juga disebut diagram kotak dan kumis) adalah representasi visual dari ringkasan lima angka. Kotak membentang dari Q1 ke Q3, dengan garis di dalamnya menandai median. "Kumis" membentang dari kotak ke nilai non-outlier terkecil dan terbesar. Outlier muncul sebagai titik individual di luar kumis.
Diagram kotak sangat berguna untuk membandingkan beberapa kelompok secara berdampingan. Jika Anda ingin membandingkan tip di tiga restoran berbeda, tiga diagram kotak yang ditempatkan berdampingan akan langsung menunjukkan restoran mana yang memiliki tip tipikal lebih tinggi, mana yang memiliki variasi lebih banyak, dan mana yang memiliki lebih banyak outlier.
Grafik batang di atas menampilkan nilai ringkasan lima angka sebagai batang sehingga Anda bisa melihat posisi relatifnya. Perhatikan jarak antara Q3 dan maksimum -- asimetri ini menunjukkan data miring ke kanan, dengan ekor panjang menuju nilai yang lebih tinggi.
Apa yang diagram kotak ungkapkan tentang bentuk
Diagram kotak dapat menunjukkan kemiringan distribusi. Jika garis median berada di tengah kotak dan kumis kira-kira sama panjangnya, data simetris. Jika median lebih dekat ke Q1 dan kumis atas lebih panjang, data miring ke kanan (ekor panjang nilai tinggi). Jika median lebih dekat ke Q3 dan kumis bawah lebih panjang, data miring ke kiri.
Misalnya, data pendapatan hampir selalu menghasilkan diagram kotak miring ke kanan: median berada rendah dalam kotak, kumis atas panjang, dan ada banyak outlier di ujung tinggi. Skor ujian dalam kursus yang dirancang dengan baik sering menghasilkan diagram kotak miring ke kiri: sebagian besar siswa berhasil baik, tapi beberapa yang tertinggal menarik kumis bawah ke bawah.
Diagram kotak mengorbankan beberapa detail dibandingkan histogram -- Anda tidak bisa melihat bentuk distribusi yang tepat atau mengidentifikasi beberapa puncak. Tapi mereka unggul dalam perbandingan ringkas dan deteksi outlier, itulah mengapa mereka menjadi andalan dalam analisis data eksploratif.
Persentil merangking nilai relatif terhadap sisa data, dengan kuartil (Q1, median, Q3) sebagai penanda paling penting. Ringkasan lima angka dan IQR memberikan gambaran ringkas dan tahan outlier dari kumpulan data apa pun. Diagram kotak mengubah ringkasan ini menjadi visual yang mengungkapkan pusat, sebaran, kemiringan, dan outlier sekilas -- menjadikannya ideal untuk perbandingan cepat antar beberapa kelompok.