Paradoks Simpson

Tingkat Kesulitan: Menengah Waktu Baca: 12 menit

Tren yang berbalik

Bayangkan Anda membandingkan dua rumah sakit. Rumah Sakit A memiliki tingkat kelangsungan hidup lebih tinggi daripada Rumah Sakit B untuk pasien bedah jantung. Rumah Sakit A juga memiliki tingkat kelangsungan hidup lebih tinggi untuk pasien bedah umum. Jadi Rumah Sakit A pasti lebih baik secara keseluruhan, kan? Belum tentu. Ketika Anda menggabungkan data, Rumah Sakit B bisa saja memiliki tingkat kelangsungan hidup keseluruhan yang lebih tinggi. Inilah Paradoks Simpson: tren yang muncul di kelompok terpisah berbalik atau menghilang ketika kelompok-kelompok digabungkan.

Kedengarannya mustahil, tapi ini terjadi sepanjang waktu dalam data nyata. Paradoks ini muncul karena ketidakseimbangan dalam bagaimana kasus didistribusikan antar kelompok. Memahaminya sangat penting bagi siapa pun yang bekerja dengan data atau membaca penelitian, karena angka agregat bisa menceritakan kisah yang benar-benar menyesatkan.

Kasus penerimaan Berkeley

Contoh paling terkenal dari Paradoks Simpson berasal dari Universitas California, Berkeley. Pada 1973, data penerimaan pascasarjana keseluruhan menunjukkan bahwa 44% pelamar pria diterima dibandingkan hanya 35% pelamar wanita. Ini tampak seperti bukti jelas diskriminasi gender terhadap wanita.

44 Pria (Keseluruhan) 35 Wanita (Keseluruhan)

Tapi ketika peneliti memeriksa setiap departemen secara individual, mereka menemukan sesuatu yang mengejutkan. Di sebagian besar departemen, wanita diterima pada tingkat yang sama atau bahkan lebih tinggi daripada pria. Tidak ada bias tingkat departemen terhadap wanita. Jadi bagaimana angka keseluruhan bisa menunjukkan kesenjangan seperti itu?

Jawabannya adalah wanita secara tidak proporsional melamar ke departemen paling kompetitif, yang memiliki tingkat penerimaan rendah untuk semua orang. Pria cenderung melamar ke departemen yang kurang kompetitif dengan tingkat penerimaan lebih tinggi. Ketika semua departemen digabungkan, perbedaan ke mana pria dan wanita melamar menciptakan ilusi bias yang tidak ada di tingkat departemen.

62 Dept A - Pria 82 Dept A - Wanita 63 Dept B - Pria 68 Dept B - Wanita 6 Dept F - Pria 7 Dept F - Wanita

Seperti yang bisa dilihat dalam data tingkat departemen di atas, wanita sebenarnya memiliki tingkat penerimaan yang sebanding atau lebih baik di dalam departemen individual. Kesenjangan keseluruhan sepenuhnya didorong oleh komposisi siapa yang melamar ke mana.

Mengapa ini terjadi: variabel tersembunyi

Paradoks Simpson terjadi karena variabel tersembunyi, juga disebut variabel perancu, yang mengubah campuran data antar kelompok. Dalam contoh Berkeley, variabel tersembunyi adalah pilihan departemen. Ini terkait dengan gender (wanita memilih departemen berbeda) dan hasil (beberapa departemen lebih sulit untuk masuk).

Pikirkan seperti ini: jika Anda mencampur data dari situasi yang sangat berbeda, proporsi setiap situasi di setiap kelompok bisa mendominasi hasil. Kelompok kecil dengan tingkat tinggi dan kelompok besar dengan tingkat rendah akan menghasilkan tingkat gabungan yang tertarik ke kelompok yang lebih besar. Jika dua kelompok memiliki proporsi kasus "mudah" dan "sulit" yang berbeda, tingkat gabungan mereka bisa berbalik.

Contoh

Sebuah perusahaan memiliki dua divisi. Di Divisi X, program pelatihan baru meningkatkan kinerja 80% peserta (40 dari 50). Di Divisi Y, meningkatkan kinerja 90% peserta (9 dari 10). Tingkat peningkatan keseluruhan adalah 49 dari 60, atau sekitar 82%. Sementara itu, program perusahaan lain meningkatkan 85% di Divisi X (17 dari 20) dan 95% di Divisi Y (38 dari 40). Tingkat keseluruhan mereka 55 dari 60, atau sekitar 92%. Perusahaan kedua terlihat lebih baik secara keseluruhan, tapi program perusahaan pertama memiliki tingkat lebih tinggi di kedua divisi. Paradoks muncul karena perusahaan pertama menempatkan lebih banyak orang melalui divisi yang lebih sulit.

Paradoks Simpson dalam kedokteran dan bisnis

Dalam kedokteran, Paradoks Simpson bisa mempengaruhi perbandingan pengobatan. Studi mungkin menunjukkan Pengobatan A memiliki hasil lebih baik daripada Pengobatan B secara keseluruhan, tapi ketika memisahkan pasien berdasarkan keparahan, Pengobatan B sebenarnya lebih baik untuk kasus ringan maupun berat. Ini bisa terjadi jika Pengobatan B secara tidak proporsional diberikan kepada pasien paling parah, menurunkan rata-rata keseluruhannya.

Dalam bisnis, Anda bisa melihatnya di tingkat konversi. Saluran pemasaran mungkin memiliki tingkat konversi keseluruhan lebih rendah tapi mengungguli di setiap segmen pelanggan. Perbedaan muncul karena saluran itu membawa lebih banyak pelanggan dari segmen yang sulit dikonversi. Membuat keputusan berdasarkan angka agregat bisa membuat Anda memotong saluran berkinerja terbaik.

Rata-rata pukulan dalam bisbol juga secara terkenal mendemonstrasikan paradoks. Seorang pemain bisa memiliki rata-rata pukulan lebih tinggi daripada pemain lain di setiap tahun individual tapi rata-rata lebih rendah ketika tahun-tahun digabungkan, karena jumlah giliran memukul di setiap tahun berbeda secara dramatis.

Cara menghindari tertipu

Pertahanan kunci terhadap Paradoks Simpson adalah selalu mempertimbangkan apakah ada subkelompok yang mungkin menceritakan kisah berbeda. Ketika melihat data agregat, tanyakan: adakah kategori bermakna dalam data ini? Bisakah campuran kategori itu berbeda antara kelompok yang dibandingkan?

Ini tidak berarti Anda harus selalu memilih hasil subkelompok. Kadang pandangan agregat yang benar. Pendekatan yang tepat tergantung pada pertanyaan spesifik Anda dan apa yang menyebabkan perbedaan. Jika variabel tersembunyi adalah perancu yang perlu dikontrol, analisis subkelompok lebih terpercaya. Jika variabel tersembunyi mencerminkan aspek asli dari perbandingan, agregat mungkin tepat.

Bila memungkinkan, lihat data dari kedua cara. Jika analisis agregat dan subkelompok setuju, Anda bisa lebih yakin. Jika tidak setuju, gali lebih dalam sebelum menarik kesimpulan. Paradoks ini adalah pengingat yang kuat bahwa ringkasan data bisa menyembunyikan sama banyaknya dengan yang diungkapkan.

Poin penting

Paradoks Simpson terjadi ketika tren yang berlaku di setiap subkelompok berbalik ketika kelompok-kelompok digabungkan. Ini terjadi karena variabel tersembunyi mengubah komposisi data antar kelompok. Penangkalnya adalah melihat data di beberapa tingkat dan selalu bertanya apakah subkelompok tersembunyi bisa mendorong pola keseluruhan. Data agregat bisa menceritakan kisah yang sama sekali berbeda dari pandangan terperinci.