Signifikansi Statistik vs Praktis

Tingkat Kesulitan: Pemula Waktu Baca: 10 menit

Apa arti sebenarnya dari "signifikan"?

Ketika peneliti mengatakan hasil "signifikan secara statistik," mereka bermaksud efek yang diamati tidak mungkin terjadi murni karena kebetulan. Secara spesifik, probabilitas melihat hasil seperti itu jika benar-benar tidak ada efek sangat kecil, biasanya kurang dari 5%. Inilah yang diukur nilai p.

Tapi inilah tangkapannya: signifikan secara statistik tidak berarti penting, bermakna, atau berguna. Hasil bisa signifikan secara statistik tapi terlalu kecil sehingga tidak ada yang peduli secara praktis. Memahami perbedaan ini adalah salah satu keterampilan paling berharga yang bisa Anda kembangkan sebagai konsumen penelitian.

Ketika efek kecil terlihat mengesankan

Bayangkan perusahaan menguji tata letak situs web baru dan menemukan waktu rata-rata pengguna di situs meningkat 0.8 detik. Dengan sampel 500.000 pengunjung, perbedaan ini menghasilkan nilai p 0.001, yang sangat signifikan secara statistik. Tapi apakah tambahan 0.8 detik browsing benar-benar penting untuk bisnis? Mungkin tidak. Efeknya nyata secara statistik, tapi tidak memiliki nilai praktis.

47.2 Tata Letak Lama 48 Tata Letak Baru

Ini terjadi karena signifikansi statistik sangat bergantung pada ukuran sampel. Dengan sampel yang cukup besar, bahkan perbedaan terkecil antara dua kelompok akan menghasilkan nilai p kecil. Uji menjadi sangat sensitif sehingga menangkap efek setingkat noise yang tidak terlihat dan tidak relevan di dunia nyata.

Contoh

Perusahaan farmasi menguji obat tekanan darah baru pada 50.000 pasien. Obat menurunkan tekanan darah sistolik 1.2 mmHg dibandingkan plasebo, dan hasilnya signifikan secara statistik (p = 0.003). Namun, dokter menganggap penurunan minimal 5-10 mmHg bermakna secara klinis. Penurunan 1.2 mmHg tidak akan mengubah keputusan pengobatan apa pun. Obat "bekerja" secara statistik, tapi praktis tidak berguna.

Signifikansi praktis: apakah benar-benar penting?

Signifikansi praktis mengajukan pertanyaan berbeda: apakah efeknya cukup besar untuk penting di dunia nyata? Ini tergantung konteks, bukan hanya matematika. Peningkatan 2% efisiensi bahan bakar mungkin signifikan secara praktis untuk maskapai yang membakar jutaan liter per tahun, tapi tidak berarti untuk seseorang yang berkendara ke supermarket seminggu sekali.

Peneliti menggunakan konsep "ukuran efek" untuk mengukur seberapa besar perbedaan sebenarnya, independen dari ukuran sampel. Ukuran efek umum termasuk Cohen's d (untuk membandingkan rata-rata dua kelompok) dan koefisien korelasi. Ukuran efek kecil dikombinasikan dengan nilai p kecil harus membuat Anda berhati-hati. Hasilnya nyata tapi mungkin tidak layak ditindaklanjuti.

Efek Obat (mmHg) 0.4 2
Bermakna Secara Klinis 6.1 10.9

Perhatikan interval kepercayaan di atas bagaimana efek obat dan seluruh rentang nilai yang masuk akalnya jatuh jauh di bawah apa yang dokter anggap sebagai perubahan bermakna. Meskipun kita yakin efeknya bukan nol, tetap terlalu kecil untuk penting.

Bagaimana ukuran sampel menciptakan kebingungan

Sampel kecil memiliki masalah sebaliknya. Dengan terlalu sedikit peserta, studi mungkin gagal mendeteksi efek nyata dan penting hanya karena sampel tidak cukup besar untuk menghasilkan nilai p yang signifikan. Ini disebut daya statistik rendah. Studi dengan 20 orang mungkin menemukan perbedaan besar dan bermakna secara praktis tapi melaporkannya sebagai "tidak signifikan secara statistik" karena sampel terlalu kecil.

Ini berarti Anda bisa disesatkan ke dua arah. Sampel besar bisa membuat efek sepele terlihat signifikan, dan sampel kecil bisa membuat efek penting terlihat tidak signifikan. Nilai p maupun ukuran sampel saja tidak memberitahu apakah hasil penting. Anda perlu melihat ukuran efek aktual dan menilainya dalam konteks.

Ketika statistik menyesatkan: jebakan dunia nyata

Judul berita senang melaporkan temuan signifikan secara statistik tanpa menyebut ukuran efek. "Studi menemukan makan cokelat terkait dengan stres lebih rendah!" mungkin berdasarkan studi di mana pemakan cokelat mendapat skor 0.3 poin lebih rendah pada skala stres 100 poin. Secara teknis benar, secara praktis tidak bermakna.

Tim pemasaran juga mengeksploitasi ini. "Terbukti klinis meningkatkan kelembaban kulit" mungkin berarti pelembab meningkatkan kelembaban 2% dibandingkan tidak memakai apa-apa, diuji pada ribuan orang. Klaim ini secara teknis didukung nilai p yang signifikan, tapi efeknya tidak terlihat oleh siapa pun yang menggunakan produk.

Untuk melindungi diri, selalu tanyakan: seberapa besar efeknya? Apakah diekspresikan dalam unit yang Anda pahami? Apakah perbedaan ini akan mengubah perilaku atau keputusan Anda? Jika studi hanya melaporkan nilai p tanpa menunjukkan ukuran efek, itu tanda bahaya.

Poin penting

Signifikansi statistik menunjukkan apakah efek kemungkinan nyata. Signifikansi praktis menunjukkan apakah benar-benar penting. Hasil bisa signifikan secara statistik tapi terlalu kecil untuk dipedulikan, terutama dengan sampel besar. Selalu lihat ukuran efek, bukan hanya nilai p, dan tanyakan pada diri sendiri apakah perbedaan itu akan mengubah keputusan dunia nyata apa pun.