What are non-parametric tests?

Non-parametric tests make fewer assumptions about data distribution and are used when data is skewed, ordinal, or violates normality assumptions.

When should you use non-parametric tests?

Use them when your data is not normally distributed, has outliers, is ordinal, or when sample sizes are very small.

What is the Mann-Whitney U test?

The Mann-Whitney U test is a non-parametric alternative to the independent t-test that compares two groups using ranked data instead of means.

What is the difference between parametric and non-parametric tests?

Parametric tests assume specific distributions (usually normal) and use means. Non-parametric tests use ranks and make fewer assumptions.

Uji Non-Parametrik

Ketika asumsi normal gagal

Banyak uji statistik populer, seperti uji t dan ANOVA, mengasumsikan data berasal dari distribusi normal (berbentuk lonceng). Mereka juga mengasumsikan data diukur pada skala interval atau rasio dan varians kira-kira sama antar kelompok. Asumsi ini bekerja baik sebagian besar waktu, tapi apa yang terjadi ketika tidak?

Data dunia nyata sering miring, memiliki outlier, atau berbentuk peringkat atau kategori ordinal. Peringkat kepuasan pada skala 1-5, data pendapatan dengan pencilan sangat tinggi, atau waktu respons dengan ekor kanan yang panjang semuanya melanggar asumsi normalitas. Menerapkan uji t pada data yang sangat miring bisa memberi nilai p yang menyesatkan dan kesimpulan yang tidak andal. Uji non-parametrik menyediakan alternatif yang kokoh.

Lihat diagram titik di atas. Data ini memiliki kemiringan kanan yang jelas dengan beberapa nilai ekstrem yang menarik ekor. Uji t pada data seperti ini bisa tidak andal. Metode non-parametrik menangani ini dengan anggun karena bekerja dengan peringkat daripada nilai mentah, membuatnya tahan terhadap outlier dan kemiringan.

Pendekatan berbasis peringkat

Ide sentral di balik sebagian besar uji non-parametrik sederhana: alih-alih menganalisis nilai data aktual, Anda mengkonversinya ke peringkat. Nilai terkecil mendapat peringkat 1, terkecil berikutnya peringkat 2, dan seterusnya. Lalu analisis dilakukan pada peringkat.

Mengapa ini berhasil? Peringkat mempertahankan urutan data tanpa dipengaruhi jarak antar nilai. Entah nilai tertinggi Anda 50 atau 5.000, tetap mendapat peringkat tertinggi. Ini membuat uji berbasis peringkat tidak sensitif terhadap outlier dan asumsi distribusi. Trade-off-nya adalah kehilangan informasi tentang jarak aktual antar nilai, itulah mengapa uji non-parametrik umumnya kurang bertenaga dibanding parametrik ketika asumsi uji parametrik benar-benar terpenuhi.

Uji Mann-Whitney U

Uji Mann-Whitney U (juga disebut uji jumlah peringkat Wilcoxon) adalah alternatif non-parametrik untuk uji t sampel independen. Gunakan ketika ingin membandingkan dua kelompok independen tapi data tidak terdistribusi normal, sampel kecil, atau data ordinal.

Contoh

Sebuah restoran ingin membandingkan peringkat kepuasan pelanggan (skala 1-10) antara layanan makan siang dan makan malam. Peringkat tidak terdistribusi normal dan skalanya bisa diperdebatkan sebagai ordinal. Uji Mann-Whitney U merangking semua peringkat bersama tanpa memandang kelompok, lalu memeriksa apakah peringkat satu kelompok cenderung lebih tinggi. Jika pelanggan makan siang secara konsisten mendapat peringkat lebih tinggi, uji akan menunjukkan perbedaan signifikan.

Uji Mann-Whitney sebenarnya menguji apakah satu kelompok cenderung menghasilkan nilai lebih besar. Sering digambarkan sebagai perbandingan median, yang merupakan penyederhanaan berguna, meskipun secara teknis membandingkan seluruh distribusi. Ini salah satu uji non-parametrik paling umum digunakan dalam penelitian medis dan ilmu sosial.

Uji peringkat bertanda Wilcoxon

Uji peringkat bertanda Wilcoxon adalah alternatif non-parametrik untuk uji t sampel berpasangan. Gunakan ketika memiliki dua pengukuran terkait dari subjek yang sama, seperti skor sebelum dan sesudah, tapi perbedaannya tidak terdistribusi normal.

Uji ini bekerja dengan menghitung selisih setiap pasangan, merangking selisih absolut, lalu membandingkan jumlah peringkat selisih positif terhadap jumlah untuk selisih negatif. Jika pengobatan benar-benar memiliki efek, Anda mengharapkan selisih positif (atau negatif) memiliki peringkat yang sistematis lebih tinggi.

Misalnya, jika mengukur tingkat nyeri pada 20 pasien sebelum dan sesudah terapi baru, dan perbaikan tidak terdistribusi simetris, uji peringkat bertanda Wilcoxon akan memberi jawaban lebih andal daripada uji t berpasangan. Ini sangat umum dalam studi klinis dengan sampel kecil di mana normalitas tidak dapat diverifikasi.

Uji Kruskal-Wallis

Uji Kruskal-Wallis memperluas pendekatan Mann-Whitney ke tiga atau lebih kelompok independen. Ini adalah alternatif non-parametrik untuk ANOVA satu arah. Semua pengamatan dari semua kelompok dirangking bersama, dan uji memeriksa apakah peringkat rata-rata berbeda secara signifikan antar kelompok.

Seperti ANOVA, hasil Kruskal-Wallis yang signifikan menunjukkan setidaknya satu kelompok berbeda, tapi tidak menunjukkan yang mana. Anda kemudian menggunakan uji post-hoc (seperti uji Dunn) untuk perbandingan berpasangan.

Contoh

Sebuah perusahaan menguji tiga desain situs web berbeda dan mengumpulkan skor keterlibatan pengguna. Skor sangat miring karena beberapa pengguna menghabiskan waktu jauh lebih banyak. Uji Kruskal-Wallis membandingkan tiga desain tanpa memerlukan skor keterlibatan mengikuti distribusi normal. Jika hasilnya signifikan, perusahaan menindaklanjuti dengan perbandingan berpasangan untuk mengidentifikasi desain mana yang mengungguli.

Kapan menggunakan non-parametrik

Gunakan uji non-parametrik ketika data ordinal (seperti peringkat skala Likert), ketika ukuran sampel sangat kecil (di bawah 20-30 per kelompok), ketika data jelas miring atau mengandung outlier berpengaruh, atau ketika asumsi equivalen parametrik tidak terpenuhi. Mereka juga pilihan yang tepat ketika menganalisis peringkat langsung, seperti preferensi atau peringkat dari juri.

Jangan gunakan uji non-parametrik hanya karena tampak lebih aman. Ketika data cukup memenuhi asumsi parametrik, uji parametrik lebih bertenaga, artinya lebih baik mendeteksi efek nyata. Pendekatan ideal adalah memeriksa asumsi dulu (menggunakan histogram, uji normalitas, atau plot Q-Q) lalu memilih uji yang sesuai.

Dalam praktiknya, banyak peneliti melaporkan hasil parametrik dan non-parametrik ketika asumsi meragukan. Jika kedua uji mengarah ke kesimpulan yang sama, Anda bisa lebih yakin. Jika tidak setuju, hasil non-parametrik umumnya dianggap lebih terpercaya karena membuat lebih sedikit asumsi.

Poin penting

Uji non-parametrik adalah jaring pengaman Anda ketika data tidak mengikuti distribusi normal, mengandung outlier, atau diukur pada skala ordinal. Mann-Whitney U membandingkan dua kelompok independen, peringkat bertanda Wilcoxon membandingkan pengukuran berpasangan, dan Kruskal-Wallis membandingkan tiga atau lebih kelompok. Mereka bekerja dengan menganalisis peringkat daripada nilai mentah, membuatnya kokoh tapi sedikit kurang bertenaga dibanding uji parametrik ketika normalitas terpenuhi.