Tek Başına P-Değerlerinin Sorunu
Bir çalışma yaparsınız, 0,03'lük bir p-değeri elde edersiniz ve sonucunuzu "istatistiksel olarak anlamlı" ilan edersiniz. Peki bu gerçekte size ne söyler? P-değeri, gerçekten hiçbir etki olmasaydı sonuçlarınızın ne kadar şaşırtıcı olacağını söyler. Etkinin ne kadar büyük veya önemli olduğunu söylemez.
İşte sorun: yeterince büyük bir örneklemle, ne kadar önemsiz derecede küçük olursa olsun, neredeyse her fark istatistiksel olarak anlamlı hale gelecektir. Kahve içen 100.000 kişinin ortalama boyunu kahve içmeyen 100.000 kişiyle karşılaştırırsanız, istatistiksel olarak anlamlı 0,2 santimetrelik bir fark bulabilirsiniz. P-değeri çok küçük olabilir (p = 0,001), ama fark pratik açıdan anlamsızdır. Kimse beşte bir santimetreyi umursamaz.
İşte etki büyüklüğü burada devreye girer. Etki büyüklüğü, örneklem büyüklüğünden bağımsız olarak bir farkın veya ilişkinin büyüklüğünü ölçer. Gerçekten önemli olan soruyu yanıtlar: bu etki ne kadar büyük ve gerçek dünyada önemli mi?
Cohen's d: Farkı Ölçmek
İki grubu karşılaştırmak için en yaygın kullanılan etki büyüklüğü ölçüsü Cohen's d'dir. İki grup ortalaması arasındaki farkı standart sapma cinsinden ifade eder. Formül basittir: iki ortalama arasındaki farkı alın ve havuzlanmış standart sapmaya bölün.
Örneğin, Grup A'nın ortalaması 75 ve Grup B'nin ortalaması 80 ise ve havuzlanmış standart sapma 10 ise, Cohen's d = (80 - 75) / 10 = 0,5 olur. Bu, iki grubun yarım standart sapma ile ayrıldığı anlamına gelir.
Yukarıdaki görselleştirme standart bir normal eğriyi gösterir. Merkezde gölgeli alan, küçükten ortaya bir etki ile ayrılmış iki grup arasındaki örtüşme bölgesini temsil eder. Eğriler ne kadar çok örtüşürse, gruplar arasındaki pratik fark o kadar küçüktür.
Küçük, Orta ve Büyük Etkiler
Bu ölçüyü popülerleştiren psikolog Jacob Cohen, etki büyüklüklerini yorumlamak için kaba ölçütler önerdi:
- Küçük etki (d = 0,2): Fark gerçektir ancak çıplak gözle görülmesi zordur. İki grup neredeyse tamamen örtüşür. Örnek: 15 yaşındaki ve 16 yaşındaki kızların boy farkı.
- Orta etki (d = 0,5): Fark dikkatli gözlemciler için fark edilebilir. Gruplar arasında anlamlı bir ayrım vardır, ancak önemli ölçüde örtüşme devam eder. Örnek: 14 yaşındaki ve 18 yaşındaki kızların boy farkı.
- Büyük etki (d = 0,8): Fark açık ve pratik olarak anlamlıdır. Gruplar belirgin şekilde farklıdır, ancak bir miktar örtüşme vardır. Örnek: 13 yaşındaki ve 18 yaşındaki kızların boy farkı.
Bu ölçütler kılavuzdur, katı kurallar değildir. Bazı alanlarda "küçük" bir etki büyüklüğü son derece önemlidir. Kalp krizi riskini küçük bir miktarda azaltan bir ilaç (d = 0,2), milyonlarca insana uygulandığında binlerce hayat kurtarabilir. Bağlam, bir etkinin pratik olarak anlamlı olup olmadığını belirler.
Etki Büyüklüğü Neden Karar Verme İçin Önemlidir
İki senaryoyu düşünün. A Çalışması, yeni bir çalışan eğitim programını 20 kişi üzerinde test eder ve performans puanlarında 10 puanlık bir iyileşme bulur (p = 0,08, d = 0,9). B Çalışması, aynı programı 5.000 kişi üzerinde test eder ve 1 puanlık bir iyileşme bulur (p = 0,001, d = 0,05). Hangi çalışma programın benimsemeye değer olduğuna dair daha güçlü kanıt sağlar?
Yalnızca p-değerlerine bakarsanız, B Çalışması "kazanır" -- sonucu yüksek derecede anlamlıdır. Ancak etki büyüklüğü farklı bir hikâye anlatır. A Çalışması büyük, anlamlı bir iyileşme bulmuştur. B Çalışması, devasa örneklem büyüklüğü sayesinde anlamlılığa ulaşan önemsiz derecede küçük bir iyileşme bulmuştur. Düşünceli bir karar verici, daha büyük bir örneklemle tekrarlanması gerektiğini kabul ederken A Çalışması'nın sonucunu daha ciddiye alır.
Bu nedenle birçok bilimsel dergi artık p-değerlerinin yanında etki büyüklüklerinin raporlanmasını istemektedir. Amerikan Psikoloji Derneği, 1994'ten beri etki büyüklüklerinin raporlanmasını tavsiye etmektedir. Bir bulgunun tam resmi her ikisini gerektirir: p-değeri etkinin gerçek olup olmadığını, etki büyüklüğü ise önemsemeye değer olup olmadığını söyler.
Diğer Etki Büyüklüğü Ölçüleri
Cohen's d tek etki büyüklüğü metriği değildir. Farklı durumlar farklı ölçüler gerektirir. Pearson'ın r'si (korelasyon katsayısı) iki değişken arasındaki ilişkinin gücü için kendi başına bir etki büyüklüğüdür; 0,1 (küçük), 0,3 (orta) ve 0,5 (büyük) ölçütleriyle. Eta-kare ve kısmi eta-kare, ANOVA ile birlikte toplam varyansın ne kadarının grup üyeliği tarafından açıklandığını ifade etmek için kullanılır. Odds oranları, tıbbi araştırmalarda gruplar arasında sonuçların olasılığını karşılaştırmak için yaygındır.
Ölçü seçimi analiz türünüze bağlıdır. İki ortalamayı karşılaştırmak için Cohen's d kullanın. Korelasyonlar için r kullanın. ANOVA için eta-kare kullanın. İkili sonuçlar için odds oranları kullanın. Önemli olan, her zaman yalnızca bir p-değeri değil, etki büyüklüğünün bir ölçüsünü raporlamanızdır.
Pratik Uygulamalar
Etki büyüklükleri, güç analizi -- bir çalışma yapmadan önce kaç katılımcıya ihtiyacınız olduğunu belirleme -- için vazgeçilmezdir. Küçük bir etki bekliyorsanız, büyük bir etki beklediğinizden çok daha büyük bir örnekleme ihtiyacınız vardır. Etki büyüklüğünü düşünmeden örneklem büyüklüğü planlamak, varış noktasını bilmeden bavul hazırlamak gibidir.
Etki büyüklükleri ayrıca meta-analizi mümkün kılar. Araştırmacılar aynı konu üzerine birçok çalışmanın sonuçlarını birleştirirken, her çalışmanın sonuçlarını ortak bir etki büyüklüğü metriğine dönüştürürler. Bu, farklı örneklem büyüklükleri, farklı ölçekler ve farklı popülasyonlar kullanan çalışmalar arasında kanıtları sentezlemelerine olanak tanır. Tek bir çalışma belirsiz olabilir, ancak 50 çalışmanın havuzlanmış etki büyüklüğü çok bilgilendirici olabilir.
Yukarıdaki grafik, aynı durumu tedavi eden üç ilaç için varsayımsal etki büyüklüklerini karşılaştırır. Üçünün de istatistiksel olarak anlamlı p-değerleri olabilir, ancak pratik farklar çarpıcıdır. İlaç B, İlaç A'nın iki katı ve İlaç C'nin altı katı etkiye sahiptir. Aralarında seçim yapan bir doktor, yalnızca anlamlılığa değil, etki büyüklüğüne odaklanmalıdır.
İstatistiksel anlamlılık, bir etkinin gerçek olup olmadığını söyler, ancak etki büyüklüğü önemli olup olmadığını söyler. Cohen's d, iki grubu karşılaştırmak için standart metriktir; 0,2 (küçük), 0,5 (orta) ve 0,8 (büyük) ölçütleriyle. Her zaman p-değerlerinin yanında etki büyüklüklerini raporlayın. Büyük örneklemlerle, önemsiz farklar bile "anlamlı" hale gelir, bu nedenle etki büyüklüğü sağlam karar verme, güç analizi ve çalışmalar arasında sonuç karşılaştırması için vazgeçilmezdir.