ANOVA: Membandingkan Beberapa Kelompok

Tingkat Kesulitan: Menengah Waktu Baca: 15 menit

Melampaui dua kelompok

Uji t adalah alat andalan untuk membandingkan dua kelompok. Tapi apa yang terjadi ketika Anda memiliki tiga, empat, atau sepuluh kelompok? Misalkan sebuah perusahaan menguji tiga desain situs web berbeda dan mengukur tingkat konversi masing-masing. Atau seorang petani mencoba empat jenis pupuk dan mengukur hasil panen. Anda tidak bisa begitu saja menjalankan uji t pada setiap pasangan kelompok yang mungkin -- pendekatan itu menciptakan masalah serius.

Ketika Anda menjalankan banyak uji t, masing-masing memiliki peluang kecil menghasilkan positif palsu (biasanya 5%). Jalankan cukup banyak, dan probabilitas bahwa setidaknya satu uji memberikan hasil yang menyesatkan tumbuh dengan cepat. Dengan tiga kelompok, Anda memerlukan tiga perbandingan berpasangan. Dengan lima kelompok, sepuluh. Dengan sepuluh kelompok, empat puluh lima. Semakin banyak uji yang Anda jalankan, semakin besar kemungkinan "menemukan" perbedaan yang sebenarnya tidak ada. Masalah ini disebut inflasi perbandingan berganda.

4.2 Desain A 5.8 Desain B 5.1 Desain C

ANOVA -- singkatan dari Analisis Varians -- menyelesaikan ini dengan menguji semua kelompok sekaligus dalam satu uji. Alih-alih bertanya "apakah kelompok A berbeda dari kelompok B?", ANOVA mengajukan pertanyaan lebih luas: "apakah ada perbedaan signifikan di antara semua kelompok ini?" Jika jawabannya ya, Anda bisa menggali lebih dalam untuk mengetahui kelompok mana yang berbeda.

Ide inti: dua jenis varians

Meskipun namanya mengandung kata varians, ANOVA pada dasarnya membandingkan rata-rata, bukan varians. Tapi ia menggunakan varians sebagai alatnya. Logikanya begini: jika Anda membagi data menjadi kelompok-kelompok, variabilitas total data berasal dari dua sumber.

Varians antar-kelompok mengukur seberapa besar rata-rata kelompok berbeda satu sama lain. Jika tiga desain situs web memiliki tingkat konversi yang sangat berbeda, varians antar-kelompok akan besar. Varians dalam-kelompok mengukur seberapa besar nilai individual bervariasi di dalam setiap kelompok. Bahkan dalam satu desain, pengguna yang berbeda akan mengkonversi pada tingkat yang berbeda -- sebaran alami itu adalah varians dalam-kelompok.

Jika varians antar-kelompok besar relatif terhadap varians dalam-kelompok, ini menunjukkan bahwa kelompok-kelompok benar-benar berbeda. Jika varians antar-kelompok kecil dibandingkan dengan noise dalam kelompok, perbedaan rata-rata bisa dengan mudah disebabkan oleh kebetulan.

Statistik F

ANOVA menghasilkan angka yang disebut statistik F (dinamai dari ahli statistik Ronald Fisher). Ini sederhananya adalah rasio varians antar-kelompok terhadap varians dalam-kelompok.

Statistik F mendekati 1 berarti kelompok-kelompok terlihat mirip -- variasi antara mereka kira-kira sama dengan variasi di dalam mereka. Statistik F jauh lebih besar dari 1 menunjukkan bahwa setidaknya satu kelompok benar-benar berbeda. Semakin jauh statistik F dari 1, semakin kuat buktinya.

42 Antar Kelompok 18 Dalam Kelompok

Pada grafik di atas, varians antar-kelompok lebih dari dua kali varians dalam-kelompok, menghasilkan statistik F jauh di atas 1. Ini kemungkinan akan menghasilkan nilai p yang kecil, menunjukkan perbedaan nyata di antara kelompok-kelompok.

Contoh

Sebuah distrik sekolah menguji tiga program membaca pada 90 siswa (30 per program). Skor rata-rata adalah 72, 78, dan 81. ANOVA menghitung bahwa varians antar-kelompok (didorong oleh perbedaan antara 72, 78, dan 81) adalah 4.6 kali varians dalam-kelompok (didorong oleh perbedaan individual siswa dalam setiap program). Statistik F sebesar 4.6 ini menghasilkan nilai p 0.013 -- di bawah ambang 0.05 -- sehingga distrik menyimpulkan bahwa setidaknya satu program menghasilkan hasil yang berbeda secara bermakna.

Asumsi ANOVA

Seperti uji t, ANOVA memiliki asumsi yang harus Anda periksa sebelum mempercayai hasilnya:

  • Independensi: Pengamatan dalam dan antar kelompok harus independen. Hasil seseorang tidak boleh mempengaruhi hasil orang lain.
  • Normalitas: Data dalam setiap kelompok harus kira-kira terdistribusi normal. Dengan 30 atau lebih pengamatan per kelompok, ini menjadi kurang kritis.
  • Varians yang sama (homogenitas): Sebaran data dalam setiap kelompok harus kira-kira serupa. Jika satu kelompok memiliki simpangan baku 5 dan yang lain 20, ANOVA standar bisa menyesatkan. Uji Levene dapat memeriksa asumsi ini, dan ANOVA Welch adalah alternatif yang kokoh ketika varians tidak sama.

Melanggar asumsi ini tidak secara otomatis membatalkan hasil Anda, terutama dengan sampel yang lebih besar, tapi merupakan praktik yang baik untuk memverifikasinya.

Setelah ANOVA: uji post-hoc

ANOVA memberitahu Anda bahwa setidaknya satu kelompok berbeda, tapi tidak memberitahu kelompok mana yang berbeda dari yang mana. Untuk mengetahuinya, Anda menjalankan uji post-hoc -- perbandingan lanjutan yang mengontrol masalah perbandingan berganda.

Uji post-hoc paling umum adalah HSD Tukey (Honestly Significant Difference). Ini membandingkan setiap pasangan kelompok sambil menyesuaikan ambang signifikansi sehingga tingkat positif palsu keseluruhan tetap di 5%. Opsi lain termasuk koreksi Bonferroni (lebih sederhana tapi lebih konservatif) dan uji Scheffé (lebih fleksibel tapi kurang bertenaga).

Anggap ANOVA sebagai uji penyaringan dan uji post-hoc sebagai tindak lanjut terperinci. Anda hanya menjalankan tindak lanjut jika uji penyaringan signifikan. Pendekatan dua tahap ini menjaga tingkat positif palsu tetap terkendali sambil tetap memungkinkan Anda mengidentifikasi perbedaan spesifik.

34 Pupuk A 41 Pupuk B 38 Pupuk C 45 Pupuk D

Variasi ANOVA

Versi yang dijelaskan di atas adalah ANOVA satu arah, yang memeriksa efek satu faktor tunggal (seperti metode pengajaran atau jenis pupuk). Ada versi lebih lanjut untuk desain yang lebih kompleks. ANOVA dua arah memeriksa dua faktor secara bersamaan -- misalnya, baik jenis pupuk maupun frekuensi penyiraman -- dan dapat mendeteksi apakah kedua faktor berinteraksi. ANOVA pengukuran berulang digunakan ketika subjek yang sama diukur beberapa kali, seperti menguji pasien sebelum pengobatan, selama pengobatan, dan setelah pengobatan.

Terlepas dari variasinya, logika fundamentalnya tetap sama: membandingkan varians yang dijelaskan oleh keanggotaan kelompok dengan varians yang tidak dijelaskan dalam kelompok, dan memutuskan apakah perbedaan kelompok terlalu besar untuk dikaitkan dengan kebetulan.

Poin penting

ANOVA memungkinkan Anda membandingkan rata-rata tiga atau lebih kelompok dalam satu uji, menghindari risiko positif palsu yang meningkat akibat menjalankan beberapa uji t. Ia bekerja dengan membandingkan varians antar-kelompok dengan varians dalam-kelompok melalui statistik F. Statistik F yang besar menunjukkan setidaknya satu kelompok berbeda. Gunakan uji post-hoc seperti HSD Tukey setelahnya untuk mengidentifikasi kelompok spesifik mana yang berbeda. Selalu periksa asumsi independensi, normalitas, dan varians yang sama sebelum menginterpretasikan hasil.