Kesalahan Statistik Umum

Tingkat Kesulitan: Pemula Waktu Baca: 10 menit

Semua Orang Membuat Kesalahan Ini

Kesalahan statistik tidak terbatas pada mahasiswa atau pemula. Jurnalis, politisi, eksekutif bisnis, dan bahkan beberapa ilmuwan melakukannya secara teratur. Kesalahan-kesalahan ini sering tidak disengaja. Mereka berasal dari jalan pintas dalam berpikir yang terasa logis tapi membawa kita ke arah yang salah.

-3 -2 -1 0 1 2 3

Belajar mengenali kesalahan-kesalahan ini melindungi Anda dalam dua cara: Anda akan menangkap kesalahan ketika orang lain membuatnya, dan Anda akan menghindari membuatnya sendiri ketika mengevaluasi informasi.

Kesalahan 1: Mengacaukan Korelasi dengan Sebab-Akibat

Ini adalah kesalahan statistik tunggal yang paling umum, dan ada di mana-mana. Ketika dua hal cenderung terjadi bersamaan, sangat menggoda untuk mengasumsikan satu menyebabkan yang lain. Tapi korelasi (dua hal bergerak bersama) tidak sama dengan sebab-akibat (satu hal membuat yang lain terjadi).

Contoh

Ada korelasi statistik yang kuat antara penjualan es krim dan kasus demam berdarah di Indonesia. Ketika penjualan es krim naik, kasus demam berdarah juga naik. Apakah es krim menarik nyamuk? Tentu saja tidak. Keduanya meningkat selama musim panas yang panas dan lembap karena lebih banyak orang membeli es krim dan nyamuk berkembang biak lebih cepat. Cuaca panas dan lembap adalah faktor tersembunyi yang mendorong keduanya.

Konsekuensi dunia nyata dari kesalahan ini serius. Selama bertahun-tahun, studi menunjukkan bahwa orang yang mengonsumsi suplemen vitamin cenderung lebih sehat. Banyak orang menyimpulkan bahwa suplemen menyebabkan kesehatan yang lebih baik. Tapi kemudian, eksperimen yang dirancang lebih hati-hati menemukan bahwa suplemen itu sendiri memberikan sedikit manfaat. Orang yang mengonsumsinya hanya lebih sadar kesehatan secara keseluruhan: mereka juga lebih rajin olahraga, makan lebih baik, dan rutin periksa ke dokter.

Kesalahan 2: Memilih-Milih Data (Cherry-Picking)

Memilih-milih data berarti memilih hanya titik data yang mendukung argumen Anda dan mengabaikan yang tidak. Ini seperti siswa yang menunjukkan orangtuanya hanya ujian yang nilainya bagus.

Ini sering terjadi dalam bisnis dan politik. Sebuah perusahaan mungkin melaporkan "pendapatan tumbuh setiap kuartal tahun ini" sambil menghilangkan fakta bahwa laba turun. Seorang politisi mungkin mengatakan "kejahatan turun 15% sejak saya menjabat" dengan memilih tanggal awal yang merupakan lonjakan tidak biasa.

Penangkal cherry-picking adalah meminta gambaran lengkap. Seperti apa dataset lengkapnya? Jangka waktu apa yang mencakup keseluruhan cerita? Apakah ada titik data yang sengaja ditinggalkan?

Kesalahan 3: Ukuran Sampel Kecil

Kelompok kecil menghasilkan hasil yang tidak andal. Jika Anda melempar koin sepuluh kali dan mendapat tujuh gambar, Anda mungkin berpikir koinnya curang. Tapi jika Anda melemparnya 10.000 kali, Anda hampir pasti mendapat mendekati 50% gambar. Sampel kecil itu berisik. Mereka naik turun dan bisa memberikan hasil ekstrem hanya karena kebetulan.

Contoh

Sebuah artikel berita melaporkan: "Studi menemukan bahwa orang yang minum jamu setiap pagi memiliki daya ingat yang lebih baik." Anda memeriksa studinya dan menemukan hanya melibatkan 18 peserta selama dua minggu. Dengan kelompok sekecil itu, beberapa orang yang secara alami berpengetahuan tajam kebetulan masuk ke kelompok jamu bisa menjelaskan seluruh hasilnya. Bandingkan dengan studi dengan 2.000 orang selama dua tahun, dan temuannya memiliki bobot yang jauh lebih besar.

Berhati-hatilah terutama dengan statistik tentang kelompok kecil. "Sekolah berkinerja terbaik di kabupaten" mungkin adalah sekolah kecil di mana beberapa siswa berbakat menarik rata-rata ke atas. Dari tahun ke tahun, sekolah kecil sering berayun antara peringkat atas dan bawah hanya karena variasi alami.

Kesalahan 4: Mengabaikan Tingkat Dasar (Base Rate)

Tingkat dasar adalah seberapa umum sesuatu dalam populasi umum. Mengabaikannya mengarah pada kesimpulan yang sangat salah, terutama ketika berurusan dengan kejadian langka.

Bayangkan tes medis yang 99% akurat untuk mendeteksi penyakit langka yang mempengaruhi 1 dari 10.000 orang. Jika Anda tes positif, berapa peluang Anda benar-benar mengidap penyakit tersebut? Kebanyakan orang menebak 99%. Jawaban sebenarnya sekitar 1%. Begini caranya: dari 10.000 orang yang dites, tes dengan benar mengidentifikasi 1 orang yang memiliki penyakit. Tapi tes juga memberikan positif palsu kepada sekitar 100 orang sehat (1% dari 9.999). Jadi dari 101 hasil positif, hanya 1 orang yang benar-benar mengidap penyakit.

Ini bukan hanya teka-teki matematika. Ini memiliki implikasi nyata untuk skrining medis, sistem peradilan pidana, dan sistem keamanan. Setiap kali tes atau klaim melibatkan sesuatu yang langka, selalu pertimbangkan tingkat dasarnya.

Kesalahan 5: Poin Persentase vs. Persentase

Ini adalah perbedaan halus tapi penting yang sering menjebak bahkan profesional berpengalaman. Perubahan "poin persentase" dan perubahan "persen" adalah hal yang sangat berbeda.

Contoh

Misalkan suku bunga naik dari 2% menjadi 3%. Anda bisa mendeskripsikan ini dua cara. "Suku bunga naik 1 poin persentase" (dari 2% ke 3%). Atau "Suku bunga naik 50%" (karena 1 adalah 50% dari 2). Kedua pernyataan benar, tapi memberikan kesan yang sangat berbeda. Politisi yang ingin meremehkan perubahan mengatakan "hanya satu poin persentase." Lawannya yang ingin mendramatisir mengatakan "kenaikan 50%." Data yang sama, pembingkaian berbeda.

Ketika Anda mendengar klaim menggunakan persentase, berhenti sejenak dan tanyakan: persentase dari apa? Apakah itu poin persentase (perbedaan absolut) atau perubahan persentase (perbedaan relatif)?

Kesalahan 6: Rata-Rata yang Menyembunyikan Cerita

Sebuah rata-rata bisa melukis gambaran yang menyesatkan ketika data yang mendasarinya tersebar tidak merata. Jika sembilan orang di ruangan menghasilkan Rp 5.000.000 per bulan dan satu orang menghasilkan Rp 500.000.000, rata-rata penghasilan adalah Rp 54.500.000. Angka itu tidak menggambarkan siapa pun di ruangan dengan akurat.

Ketika seseorang melaporkan "rata-rata," tanyakan rata-rata yang mana yang mereka maksud (mean, median, atau modus), dan apakah datanya mungkin terdistorsi oleh nilai-nilai ekstrem. Untuk penghasilan, harga rumah, dan banyak pengukuran dunia nyata lainnya, median (nilai tengah) biasanya lebih informatif daripada mean (rata-rata aritmatika).

Mengenali Kesalahan Ini di Dunia Nyata

Anda sekarang memiliki perangkat mental untuk menangkap kesalahan statistik yang paling umum. Berikut referensi cepatnya:

  • Dua hal yang terjadi bersamaan bukan berarti satu menyebabkan yang lain.
  • Cari data yang hilang, bukan hanya data yang ditampilkan.
  • Skeptis terhadap temuan dari studi yang sangat kecil.
  • Ketika sesuatu langka, hasil positif sering kali salah.
  • Periksa apakah "persen" berarti poin persentase atau perubahan relatif.
  • Tanyakan rata-rata jenis apa yang digunakan dan apakah nilai ekstrem mungkin mendistorsinya.
Poin Penting

Kesalahan statistik mudah dibuat dan mudah terlewatkan. Yang paling penting untuk diwaspadai adalah mengacaukan korelasi dengan sebab-akibat, memilih-milih data yang mendukung kesimpulan, menarik kesimpulan besar dari sampel kecil, mengabaikan seberapa langka sesuatu, dan mencampur-adukkan poin persentase dengan persentase. Anda tidak perlu menjadi ahli matematika untuk menangkap ini. Cukup pelan-pelan dan ajukan beberapa pertanyaan kritis sebelum menerima sebuah klaim.