Kurva lonceng ada di mana-mana
Jika Anda mengukur tinggi badan setiap orang dewasa di kota besar dan memplotnya di grafik, Anda akan melihat bentuk yang familiar: bukit halus dan simetris yang memuncak di tengah dan meruncing di kedua sisi. Bentuk ini disebut distribusi normal, dan ini bisa dibilang konsep paling penting dalam seluruh statistika.
Distribusi normal muncul di banyak tempat yang mengejutkan. Nilai ujian, pembacaan tekanan darah, waktu perjalanan ke kantor, toleransi manufaktur di pabrik, bahkan kesalahan dalam pengukuran ilmiah -- semuanya cenderung mengikuti pola berbentuk lonceng. Alasannya matematis: setiap kali suatu pengukuran dipengaruhi oleh banyak faktor kecil dan independen, hasilnya cenderung terdistribusi normal. Prinsip ini berkaitan erat dengan Teorema Limit Pusat.
Pada grafik di atas, puncak mewakili nilai paling umum (rata-rata), dan kurva turun secara simetris di kedua sisi. Sebagian besar nilai mengelompok di dekat pusat, dengan semakin sedikit pengamatan saat bergerak ke arah ekstrem.
Rata-rata, simpangan baku, dan bentuk
Distribusi normal sepenuhnya ditentukan oleh dua angka saja: rata-rata (pusat kurva) dan simpangan baku (seberapa tersebar datanya). Rata-rata menunjukkan di mana puncak berada pada garis bilangan. Simpangan baku menunjukkan seberapa lebar atau sempit lonceng tersebut.
Pertimbangkan skor IQ, yang dirancang mengikuti distribusi normal dengan rata-rata 100 dan simpangan baku 15. Kebanyakan orang mendapat skor antara 85 dan 115. Sedikit yang mendapat di bawah 70 atau di atas 130. Sangat sedikit yang mendapat di bawah 55 atau di atas 145. Ubah simpangan baku menjadi 5, dan lonceng menjadi jauh lebih sempit -- hampir semua orang mengelompok antara 90 dan 110. Ubah menjadi 25, dan lonceng mendatar, dengan skor tersebar jauh lebih luas.
Inilah keindahan distribusi normal: begitu Anda tahu rata-rata dan simpangan baku, Anda tahu seluruh bentuk dan dapat menghitung probabilitas nilai apa pun terjadi.
Aturan 68-95-99.7
Salah satu fitur paling praktis dari distribusi normal adalah aturan empiris, juga disebut aturan 68-95-99.7. Aturan ini menyatakan bahwa untuk data yang terdistribusi normal:
- Sekitar 68% nilai jatuh dalam 1 simpangan baku dari rata-rata.
- Sekitar 95% nilai jatuh dalam 2 simpangan baku.
- Sekitar 99.7% nilai jatuh dalam 3 simpangan baku.
Aturan ini memberi Anda cara cepat untuk menilai seberapa tidak biasa suatu nilai. Jika data Anda terdistribusi normal dan seseorang melaporkan nilai lebih dari 3 simpangan baku dari rata-rata, itu sangat langka -- terjadi kurang dari 0.3% dari waktu. Insinyur kontrol kualitas menggunakan ide ini setiap hari: komponen pabrik yang jatuh di luar tiga simpangan baku dari dimensi target ditandai sebagai cacat.
Misalkan rata-rata waktu perjalanan harian di suatu kota adalah 35 menit dengan simpangan baku 8 menit. Menurut aturan 68-95-99.7, sekitar 68% penglaju membutuhkan waktu antara 27 dan 43 menit. Sekitar 95% membutuhkan antara 19 dan 51 menit. Dan hampir semua (99.7%) membutuhkan antara 11 dan 59 menit. Jika seseorang mengatakan perjalanannya 65 menit, itu lebih dari 3 simpangan baku di atas rata-rata -- perjalanan yang benar-benar tidak biasa untuk kota ini.
Skor Z: penggaris universal
Distribusi normal yang berbeda menggunakan unit dan skala yang berbeda. Bagaimana membandingkan nilai ujian 82 pada ujian dengan rata-rata 75 (simpangan baku 5) dengan skor 720 pada SAT dengan rata-rata 500 (simpangan baku 100)? Anda menggunakan skor Z.
Skor Z menunjukkan berapa simpangan baku suatu nilai di atas atau di bawah rata-rata. Rumusnya sederhana: kurangi rata-rata dari nilai, lalu bagi dengan simpangan baku. Untuk nilai ujian: (82 - 75) / 5 = 1.4. Untuk SAT: (720 - 500) / 100 = 2.2. Skor SAT lebih mengesankan relatif terhadap distribusinya karena lebih jauh di atas rata-rata dalam unit simpangan baku.
Skor Z 0 berarti nilainya tepat rata-rata. Skor Z positif berarti di atas rata-rata. Skor Z negatif berarti di bawah rata-rata. Besarannya menunjukkan seberapa jauh dari rata-rata. Skor Z 2.0 berarti nilainya lebih tinggi dari sekitar 97.7% semua nilai dalam distribusi.
Skor Z sangat berguna karena mengubah distribusi normal apa pun menjadi distribusi normal standar -- kurva lonceng dengan rata-rata 0 dan simpangan baku 1. Ini memungkinkan Anda menggunakan satu tabel referensi (atau kalkulator) untuk menemukan probabilitas variabel terdistribusi normal apa pun, terlepas dari skala aslinya.
Aplikasi dunia nyata
Distribusi normal dan skor Z bukan sekadar konsep buku teks. Penilaian berdasarkan kurva berarti menyesuaikan skor siswa ke distribusi normal. Hasil laboratorium medis sering ditandai abnormal jika jatuh di luar 2 simpangan baku dari rata-rata populasi. Analis keuangan memodelkan imbal hasil saham menggunakan distribusi normal (meskipun ekor distribusi sering lebih tebal dalam kenyataan, yang merupakan keterbatasan kritis). Perusahaan asuransi menggunakan model normal untuk memperkirakan klaim.
Penting juga untuk mengetahui kapan distribusi normal tidak berlaku. Distribusi pendapatan sangat miring ke kanan -- beberapa pendapatan sangat tinggi menarik rata-rata jauh di atas median. Waktu tunggu dan data kelangsungan hidup sering juga miring. Data hitungan (seperti jumlah kecelakaan per hari) mengikuti distribusi yang sama sekali berbeda. Selalu periksa apakah asumsi kurva lonceng masuk akal sebelum menerapkan alat-alat ini.
Distribusi normal adalah kurva simetris berbentuk lonceng yang sepenuhnya ditentukan oleh rata-rata dan simpangan bakunya. Aturan 68-95-99.7 memberi gambaran cepat tentang bagaimana data tersebar di sekitar rata-rata. Skor Z memungkinkan Anda menerjemahkan nilai apa pun ke skala universal yang diukur dalam simpangan baku, memungkinkan perbandingan skor di konteks yang sama sekali berbeda. Selalu verifikasi bahwa data Anda kira-kira normal sebelum mengandalkan alat-alat ini -- tidak semua data dunia nyata mengikuti kurva lonceng.