Masalah dengan nilai p saja
Anda menjalankan studi, mendapat nilai p 0.03, dan menyatakan hasilnya "signifikan secara statistik." Tapi apa yang sebenarnya itu katakan? Nilai p menunjukkan seberapa mengejutkan hasil Anda jika benar-benar tidak ada efek. Nilai p tidak menunjukkan seberapa besar atau penting efeknya.
Inilah masalahnya: dengan sampel yang cukup besar, hampir semua perbedaan -- sekecil apa pun -- akan menjadi signifikan secara statistik. Jika Anda membandingkan tinggi rata-rata 100.000 orang yang minum kopi dengan 100.000 orang yang tidak, Anda mungkin menemukan perbedaan signifikan secara statistik sebesar 0.2 sentimeter. Nilai p mungkin sangat kecil (p = 0.001), tapi perbedaannya tidak bermakna secara praktis. Tidak ada yang peduli tentang seperlima sentimeter.
Di sinilah ukuran efek berperan. Ukuran efek mengukur besarnya perbedaan atau hubungan, independen dari ukuran sampel. Ini menjawab pertanyaan yang benar-benar penting: seberapa besar efek ini, dan apakah itu penting di dunia nyata?
Cohen's d: mengukur perbedaan
Ukuran efek paling banyak digunakan untuk membandingkan dua kelompok adalah Cohen's d. Ini mengekspresikan perbedaan antara rata-rata dua kelompok dalam unit simpangan baku. Rumusnya sederhana: ambil selisih dua rata-rata dan bagi dengan simpangan baku gabungan.
Misalnya, jika Kelompok A memiliki rata-rata 75 dan Kelompok B memiliki rata-rata 80, dan simpangan baku gabungan 10, maka Cohen's d = (80 - 75) / 10 = 0.5. Ini berarti dua kelompok terpisah setengah simpangan baku.
Visualisasi di atas menunjukkan kurva normal standar. Area yang diarsir di tengah mewakili zona tumpang tindih antara dua kelompok yang dipisahkan oleh efek kecil-ke-sedang. Semakin besar kurva tumpang tindih, semakin kecil perbedaan praktis antar kelompok.
Efek kecil, sedang, dan besar
Jacob Cohen, psikolog yang mempopulerkan ukuran ini, mengusulkan patokan kasar untuk menginterpretasikan ukuran efek:
- Efek kecil (d = 0.2): Perbedaan nyata tapi sulit dilihat dengan mata telanjang. Dua kelompok tumpang tindih hampir sepenuhnya. Contoh: perbedaan tinggi antara gadis 15 dan 16 tahun.
- Efek sedang (d = 0.5): Perbedaan terlihat oleh pengamat yang cermat. Ada pemisahan bermakna antar kelompok, meskipun tumpang tindih substansial tetap ada. Contoh: perbedaan tinggi antara gadis 14 dan 18 tahun.
- Efek besar (d = 0.8): Perbedaan jelas dan signifikan secara praktis. Kelompok-kelompok jelas berbeda, meskipun ada beberapa tumpang tindih. Contoh: perbedaan tinggi antara gadis 13 dan 18 tahun.
Patokan ini adalah panduan, bukan aturan kaku. Di beberapa bidang, ukuran efek "kecil" sangat penting. Obat yang mengurangi risiko serangan jantung dalam jumlah kecil (d = 0.2) bisa menyelamatkan ribuan nyawa ketika diterapkan pada jutaan orang. Konteks menentukan apakah efek bermakna secara praktis.
Mengapa ukuran efek penting untuk pengambilan keputusan
Pertimbangkan dua skenario. Studi A menguji program pelatihan karyawan baru pada 20 orang dan menemukan peningkatan 10 poin dalam skor kinerja (p = 0.08, d = 0.9). Studi B menguji program yang sama pada 5.000 orang dan menemukan peningkatan 1 poin (p = 0.001, d = 0.05). Studi mana yang memberikan bukti lebih kuat bahwa program layak diadopsi?
Jika hanya melihat nilai p, Studi B "menang" -- hasilnya sangat signifikan. Tapi ukuran efek menceritakan kisah berbeda. Studi A menemukan peningkatan besar dan bermakna. Studi B menemukan peningkatan sangat kecil yang kebetulan mencapai signifikansi karena ukuran sampel yang masif. Pengambil keputusan yang bijaksana akan lebih serius mempertimbangkan hasil Studi A, sambil mengakui bahwa ia perlu direplikasi dengan sampel lebih besar.
Inilah mengapa banyak jurnal ilmiah sekarang mengharuskan ukuran efek dilaporkan bersama nilai p. Asosiasi Psikologi Amerika telah merekomendasikan pelaporan ukuran efek sejak 1994. Gambaran lengkap suatu temuan memerlukan keduanya: nilai p menunjukkan apakah efek kemungkinan nyata, dan ukuran efek menunjukkan apakah layak diperhatikan.
Ukuran efek lainnya
Cohen's d bukan satu-satunya metrik ukuran efek. Situasi berbeda memerlukan ukuran berbeda. r Pearson (koefisien korelasi) sendiri merupakan ukuran efek untuk kekuatan hubungan antara dua variabel, dengan patokan 0.1 (kecil), 0.3 (sedang), dan 0.5 (besar). Eta-kuadrat dan eta-kuadrat parsial digunakan dengan ANOVA untuk menyatakan berapa banyak varians total yang dijelaskan oleh keanggotaan kelompok. Rasio peluang umum dalam penelitian medis untuk membandingkan kemungkinan hasil antar kelompok.
Pilihan ukuran tergantung pada jenis analisis Anda. Untuk membandingkan dua rata-rata, gunakan Cohen's d. Untuk korelasi, gunakan r. Untuk ANOVA, gunakan eta-kuadrat. Untuk hasil biner, gunakan rasio peluang. Yang penting adalah Anda selalu melaporkan beberapa ukuran besaran efek, bukan hanya nilai p.
Aplikasi praktis
Ukuran efek penting untuk analisis daya -- menentukan berapa banyak peserta yang Anda butuhkan sebelum menjalankan studi. Jika mengharapkan efek kecil, Anda memerlukan sampel jauh lebih besar untuk mendeteksinya secara andal daripada jika mengharapkan efek besar. Merencanakan ukuran sampel tanpa mempertimbangkan ukuran efek seperti mengemas koper tanpa tahu tujuannya.
Ukuran efek juga memungkinkan meta-analisis. Ketika peneliti menggabungkan hasil dari banyak studi tentang topik yang sama, mereka mengkonversi hasil setiap studi ke metrik ukuran efek umum. Ini memungkinkan sintesis bukti lintas studi yang menggunakan ukuran sampel, skala, dan populasi berbeda. Satu studi mungkin tidak konklusif, tapi ukuran efek gabungan dari 50 studi bisa sangat informatif.
Grafik di atas membandingkan ukuran efek hipotetis untuk tiga obat yang mengobati kondisi yang sama. Ketiganya mungkin memiliki nilai p yang signifikan secara statistik, tapi perbedaan praktisnya dramatis. Obat B memiliki dua kali efek Obat A dan enam kali efek Obat C. Dokter yang memilih di antara ketiganya harus fokus pada ukuran efek, bukan hanya signifikansi.
Signifikansi statistik menunjukkan apakah efek kemungkinan nyata, tapi ukuran efek menunjukkan apakah itu penting. Cohen's d adalah metrik standar untuk membandingkan dua kelompok, dengan patokan 0.2 (kecil), 0.5 (sedang), dan 0.8 (besar). Selalu laporkan ukuran efek bersama nilai p. Dengan sampel besar, bahkan perbedaan sepele menjadi "signifikan," sehingga ukuran efek penting untuk pengambilan keputusan yang baik, analisis daya, dan perbandingan hasil lintas studi.