Normal Varsayımlar Başarısız Olduğunda
T-testi ve ANOVA gibi en popüler istatistiksel testlerin çoğu, verilerinizin normal (çan şeklinde) bir dağılımdan geldiğini varsayar. Ayrıca verinin aralıklı veya oransal bir ölçekte ölçüldüğünü ve varyansların gruplar arasında kabaca eşit olduğunu varsayarlar. Bu varsayımlar çoğu zaman işe yarar, ama tutmadığında ne olur?
Gerçek dünya verileri genellikle çarpıktır, aykırı değerlere sahiptir veya sıralama ya da sıralı kategoriler biçimindedir. 1-5 ölçeğinde memnuniyet derecelendirmeleri, aşırı yüksek gelirlilerin olduğu gelir verileri veya uzun sağ kuyruğa sahip tepki süreleri hepsi normallik varsayımlarını ihlal eder. Şiddetle çarpık veriye t-testi uygulamak yanıltıcı p-değerleri ve güvenilmez sonuçlar verebilir. Parametrik olmayan testler sağlam bir alternatif sunar.
Yukarıdaki nokta grafiğine bakın. Bu veri, birkaç aşırı değerin kuyruğu dışarı çeken belirgin bir sağa çarpıklığa sahiptir. Bu tür veriler üzerinde t-testi güvenilmez olabilir. Parametrik olmayan yöntemler bunu zarif bir şekilde ele alır çünkü ham değerler yerine sıralamalarla çalışırlar, bu da onları aykırı değerlere ve çarpıklığa karşı dirençli kılar.
Sıralama Temelli Yaklaşım
Çoğu parametrik olmayan testin arkasındaki temel fikir basittir: gerçek veri değerlerini analiz etmek yerine bunları sıralamalara dönüştürürsünüz. En küçük değer 1. sırayı, sonraki en küçük 2. sırayı alır, böyle devam eder. Sonra sıralamalar üzerinde analizinizi yaparsınız.
Bu neden işe yarar? Sıralamalar, değerlerin birbirinden ne kadar uzak olduğundan etkilenmeden verilerinizin sırasını korur. En yüksek değeriniz ister 50 ister 5.000 olsun, yine en yüksek sırayı alır. Bu, sıralama temelli testleri aykırı değerlere ve dağılım varsayımlarına karşı duyarsız kılar. Karşılığı, değerler arasındaki gerçek mesafeleri atarak bir miktar bilgi kaybetmenizdir, bu yüzden parametrik olmayan testler, parametrik testin varsayımları gerçekten karşılandığında genellikle parametrik muadillerinden daha az güçlüdür.
Mann-Whitney U Testi
Mann-Whitney U testi (Wilcoxon sıra toplamı testi olarak da bilinir), bağımsız örneklemler t-testinin parametrik olmayan alternatifidir. İki bağımsız grubu karşılaştırmak istediğinizde ancak verileriniz normal dağılmadığında, örneklem küçük olduğunda veya verileriniz sıralı olduğunda kullanın.
Bir restoran, öğle ve akşam servisi arasındaki müşteri memnuniyet puanlarını (1-10 ölçeğinde) karşılaştırmak istiyor. Puanlar normal dağılıma sahip değildir ve ölçek muhtemelen sıralıdır. Mann-Whitney U testi, gruptan bağımsız olarak tüm puanları birlikte sıralar, ardından bir grubun sıralarının daha yüksek olma eğiliminde olup olmadığını kontrol eder. Öğle müşterileri sürekli olarak akşam müşterilerinden daha yüksek sıralama alıyorsa, test anlamlı bir fark gösterecektir.
Mann-Whitney testi aslında bir grubun diğerinden daha büyük değerler üretme eğiliminde olup olmadığını test eder. Genellikle medyanları karşılaştırma olarak tanımlanır ki bu yararlı bir sadeleştirmedir, ancak teknik olarak tüm dağılımları karşılaştırır. Tıp ve sosyal bilim araştırmalarında en yaygın kullanılan parametrik olmayan testlerden biridir.
Wilcoxon İşaretli Sıra Testi
Wilcoxon işaretli sıra testi, eşleştirilmiş örneklemler t-testinin parametrik olmayan alternatifidir. Aynı deneklerden iki ilişkili ölçümünüz olduğunda -- öncesi-sonrası puanları gibi -- ancak farklar normal dağılmadığında kullanın.
Test, her çift için farkı hesaplayarak, mutlak farkları sıralayarak ve ardından pozitif farklar için sıra toplamını negatif farklar için sıra toplamıyla karşılaştırarak çalışır. Bir tedavinin gerçekten etkisi varsa, pozitif (veya negatif) farkların sistematik olarak daha yüksek sıralamalara sahip olmasını beklersiniz.
Örneğin, yeni bir terapiden önce ve sonra 20 hastanın ağrı düzeylerini ölçerseniz ve iyileşmeler simetrik dağılmıyorsa, Wilcoxon işaretli sıra testi eşleştirilmiş t-testinden daha güvenilir bir yanıt verecektir. Normalliğin doğrulanamadığı küçük örnekli klinik çalışmalarda özellikle yaygındır.
Kruskal-Wallis Testi
Kruskal-Wallis testi, Mann-Whitney yaklaşımını üç veya daha fazla bağımsız gruba genişletir. Tek yönlü ANOVA'nın parametrik olmayan alternatifidir. Tüm gruplardan tüm gözlemler birlikte sıralanır ve test, ortalama sıraların gruplar arasında anlamlı biçimde farklılaşıp farklılaşmadığını kontrol eder.
ANOVA gibi, anlamlı bir Kruskal-Wallis sonucu size en az bir grubun diğerlerinden farklılaştığını söyler, ancak hangisi olduğunu söylemez. Ardından ikili karşılaştırmalar yapmak için bir post-hoc test (Dunn testi gibi) kullanırsınız.
Bir şirket üç farklı web sitesi tasarımını test eder ve kullanıcı etkileşim puanları toplar. Puanlar şiddetle çarpıktır çünkü birkaç kullanıcı diğerlerinden çok daha fazla zaman harcamıştır. Kruskal-Wallis testi, etkileşim puanlarının normal dağılıma uymasını gerektirmeden üç tasarımı karşılaştırır. Sonuç anlamlıysa, şirket hangi tasarımın üstün performans gösterdiğini belirlemek için ikili karşılaştırmalarla devam eder.
Ne Zaman Parametrik Olmayan Teste Geçmeli
Parametrik olmayan testleri verileriniz sıralı olduğunda (Likert ölçeği derecelendirmeleri gibi), örneklem büyüklüğünüz çok küçük olduğunda (grup başına 20-30'un altında), verileriniz açıkça çarpık olduğunda veya etkili aykırı değerler içerdiğinde ya da parametrik eşdeğerinin varsayımları sağlanamadığında kullanın. Doğrudan sıralamaları analiz ederken de doğru seçimdir, örneğin jürilerin verdiği tercihler veya sıralamalar.
Parametrik olmayan testleri sadece daha güvenli göründükleri için kullanmayın. Verileriniz makul ölçüde parametrik varsayımlara uyduğunda, parametrik testler daha güçlüdür, yani gerçek etkileri tespit etmede daha iyidirler. İdeal yaklaşım, önce varsayımlarınızı kontrol etmek (histogramlar, normallik testleri veya Q-Q grafikleri kullanarak) ve ardından uygun testi seçmektir.
Pratikte, varsayımlar sınırda olduğunda birçok araştırmacı hem parametrik hem de parametrik olmayan sonuçları raporlar. Her iki test de aynı sonuca varıyorsa, bulguda daha güvenli olabilirsiniz. Uyuşmuyorsa, parametrik olmayan sonuç daha az varsayım yaptığı için genellikle daha güvenilir kabul edilir.
Parametrik olmayan testler, veriler normal dağılıma uymadığında, aykırı değerler içerdiğinde veya sıralı bir ölçekte ölçüldüğünde güvenlik ağınızdır. Mann-Whitney U iki bağımsız grubu, Wilcoxon işaretli sıra eşleştirilmiş ölçümleri ve Kruskal-Wallis üç veya daha fazla grubu karşılaştırır. Ham değerler yerine sıralamalarla çalışarak sağlam sonuçlar üretirler, ancak normallik sağlandığında parametrik testlerden biraz daha az güçlüdürler.