ANOVA: Çoklu Grup Karşılaştırması

Zorluk: Orta Okuma Süresi: 15 dakika

İki Grubun Ötesinde

T-testi iki grubu karşılaştırmak için güçlü bir araçtır. Peki üç, dört veya on grubunuz olduğunda ne olur? Bir şirketin üç farklı web sitesi tasarımını test edip her biri için dönüşüm oranlarını ölçtüğünü varsayalım. Ya da bir çiftçinin dört tür gübre deneyip mahsul verimini ölçtüğünü. Her olası grup çiftinde t-testi yapamazsınız -- bu yaklaşım ciddi sorunlar yaratır.

Çok sayıda t-testi yaptığınızda, her birinin küçük bir yanlış pozitif üretme şansı vardır (tipik olarak %5). Yeterince test yapın, en az birinin yanıltıcı sonuç verme olasılığı hızla artar. Üç grupla üç ikili karşılaştırmaya ihtiyacınız olur. Beş grupla on. On grupla kırk beş. Ne kadar çok test yaparsanız, gerçek olmayan bir fark "bulma" olasılığınız o kadar artar. Bu soruna çoklu karşılaştırma enflasyonu denir.

4.2 Tasarım A 5.8 Tasarım B 5.1 Tasarım C

ANOVA -- Varyans Analizi'nin kısaltması -- tüm grupları tek bir testle aynı anda test ederek bu sorunu çözer. "A grubu B grubundan farklı mı?" diye sormak yerine daha geniş bir soru sorar: "bu gruplar arasında herhangi bir anlamlı fark var mı?" Cevap evetse, hangi grupların farklılaştığını bulmak için daha derine inebilirsiniz.

Temel Fikir: İki Tür Varyans

Adına rağmen, ANOVA temelde varyansları değil ortalamaları karşılaştırır. Ancak araç olarak varyansı kullanır. Mantık şöyledir: veriyi gruplara ayırırsanız, verideki toplam değişkenlik iki kaynaktan gelir.

Gruplar arası varyans, grup ortalamalarının birbirinden ne kadar farklılaştığını ölçer. Üç web sitesi tasarımının çok farklı dönüşüm oranları varsa, gruplar arası varyans büyük olacaktır. Grup içi varyans, bireysel değerlerin her grup içinde ne kadar değiştiğini ölçer. Tek bir tasarım içinde bile farklı kullanıcılar farklı oranlarda dönüşüm yapacaktır -- bu doğal dağılım grup içi varyanstır.

Gruplar arası varyans, grup içi varyansa göre büyükse, grupların gerçekten farklı olduğunu düşündürür. Gruplar arası varyans, gruplar içindeki gürültüye kıyasla küçükse, ortalamalardaki farklar kolayca şansa bağlı olabilir.

F-İstatistiği

ANOVA, F-istatistiği adı verilen bir sayı üretir (istatistikçi Ronald Fisher'ın adını taşır). Bu basitçe gruplar arası varyansın grup içi varyansa oranıdır.

1'e yakın bir F-istatistiği, grupların benzer göründüğü anlamına gelir -- aralarındaki değişkenlik, içlerindeki değişkenlikle yaklaşık aynıdır. 1'den çok büyük bir F-istatistiği, en az bir grubun gerçekten farklı olduğunu düşündürür. F-istatistiği 1'den ne kadar uzaksa, kanıt o kadar güçlüdür.

42 Gruplar Arası 18 Grup İçi

Yukarıdaki grafikte, gruplar arası varyans grup içi varyansın iki katından fazladır ve 1'in oldukça üzerinde bir F-istatistiği üretir. Bu muhtemelen küçük bir p-değeri ile sonuçlanacak ve gruplar arasında gerçek bir fark olduğunu düşündürecektir.

Örnek

Bir okul bölgesi, 90 öğrenci (her programda 30) üzerinde üç okuma programını test eder. Ortalama puanlar 72, 78 ve 81'dir. ANOVA, gruplar arası varyansın (72, 78 ve 81 arasındaki farklardan kaynaklanan) grup içi varyansın (her program içindeki bireysel öğrenci farklarından kaynaklanan) 4,6 katı olduğunu hesaplar. Bu 4,6'lık F-istatistiği, 0,013'lük bir p-değeri verir -- 0,05 eşiğinin altında -- böylece bölge, en az bir programın anlamlı ölçüde farklı sonuçlar ürettiği sonucuna varır.

ANOVA'nın Varsayımları

T-testi gibi, ANOVA da sonuçlara güvenmeden önce kontrol etmeniz gereken varsayımlarla gelir:

  • Bağımsızlık: Gruplar içindeki ve arasındaki gözlemler bağımsız olmalıdır. Bir kişinin sonucu diğerini etkilememelidir.
  • Normallik: Her grup içindeki veriler yaklaşık olarak normal dağılıma sahip olmalıdır. Grup başına 30 veya daha fazla gözlemle bu daha az kritik hale gelir.
  • Eşit varyanslar (homojenlik): Her grup içindeki veri dağılımı kabaca benzer olmalıdır. Bir grubun standart sapması 5 ve diğerinin 20 ise, standart ANOVA yanıltıcı olabilir. Levene testi bu varsayımı kontrol edebilir ve Welch ANOVA'sı varyanslar eşit olmadığında sağlam bir alternatiftir.

Bu varsayımları ihlal etmek, özellikle daha büyük örneklemlerle, sonuçlarınızı otomatik olarak geçersiz kılmaz, ancak doğrulamak iyi bir uygulamadır.

ANOVA'dan Sonra: Post-Hoc Testler

ANOVA size en az bir grubun farklılaştığını söyler, ancak hangi grupların hangilerinden farklı olduğunu söylemez. Bunu öğrenmek için post-hoc testler -- çoklu karşılaştırma sorununu kontrol eden takip karşılaştırmaları -- yaparsınız.

En yaygın post-hoc testi Tukey'nin HSD'sidir (Dürüstçe Anlamlı Fark). Her grup çiftini karşılaştırırken, genel yanlış pozitif oranının %5'te kalması için anlamlılık eşiğini ayarlar. Diğer seçenekler arasında Bonferroni düzeltmesi (daha basit ama daha muhafazakâr) ve Scheffé testi (daha esnek ama daha az güçlü) bulunur.

ANOVA'yı bir tarama testi, post-hoc testleri ise ayrıntılı takip olarak düşünün. Takibi yalnızca tarama testi anlamlıysa yaparsınız. Bu iki aşamalı yaklaşım, belirli farklılıkları tespit etmenize izin verirken yanlış pozitif oranını kontrol altında tutar.

34 Gübre A 41 Gübre B 38 Gübre C 45 Gübre D

ANOVA Çeşitleri

Yukarıda açıklanan sürüm, tek bir faktörün (öğretim yöntemi veya gübre türü gibi) etkisini inceleyen tek yönlü ANOVA'dır. Daha karmaşık tasarımlar için daha gelişmiş sürümler vardır. İki yönlü ANOVA, iki faktörü aynı anda inceler -- örneğin hem gübre türü hem de sulama sıklığı -- ve iki faktörün etkileşip etkileşmediğini tespit edebilir. Tekrarlanan ölçümler ANOVA'sı, aynı deneklerin birden fazla kez ölçüldüğü durumlarda kullanılır, örneğin hastaların tedavi öncesi, tedavi sırası ve tedavi sonrası test edilmesi.

Çeşidi ne olursa olsun, temel mantık aynı kalır: grup üyeliği tarafından açıklanan varyansı gruplar içindeki açıklanamayan varyansla karşılaştırın ve grup farklılıklarının şansa atfedilemeyecek kadar büyük olup olmadığına karar verin.

Temel Çıkarım

ANOVA, birden fazla t-testi çalıştırmanın getirdiği şişirilmiş yanlış pozitif riskinden kaçınarak, üç veya daha fazla grubun ortalamalarını tek bir testte karşılaştırmanıza olanak tanır. Gruplar arası varyansı F-istatistiği aracılığıyla grup içi varyansla karşılaştırarak çalışır. Büyük bir F-istatistiği, en az bir grubun farklılaştığını gösterir. Hangi grupların farklılaştığını belirlemek için ardından Tukey'nin HSD'si gibi post-hoc testler kullanın. Sonuçları yorumlamadan önce bağımsızlık, normallik ve eşit varyans varsayımlarını her zaman kontrol edin.