İstatistiksel ve Pratik Anlamlılık

Zorluk: Başlangıç Okuma Süresi: 10 dakika

"Anlamlı" Gerçekten Ne Demek?

Bir araştırmacı bir sonucun "istatistiksel olarak anlamlı" olduğunu söylediğinde, gözlemlenen etkinin saf şansla ortaya çıkma olasılığının düşük olduğunu kasteder. Özellikle, gerçekten hiçbir etki olmasaydı böyle bir sonuç görme olasılığı çok düşüktür, tipik olarak %5'ten az. P-değerinin ölçtüğü budur.

Ancak işin püf noktası şudur: istatistiksel olarak anlamlı, önemli, anlamlı veya yararlı demek değildir. Bir sonuç istatistiksel olarak anlamlı olabilirken, pratikte kimsenin umursamayacağı kadar küçük olabilir. Bu ayrımı anlamak, araştırma tüketicisi olarak geliştirebileceğiniz en değerli becerilerden biridir.

Küçük Etkiler Etkileyici Görüldüğünde

Bir şirketin yeni bir web sitesi düzeni test ettiğini ve kullanıcıların sitede geçirdiği ortalama süreyi 0,8 saniye artırdığını bulduğunu düşünün. 500.000 ziyaretçilik bir örneklemle, bu fark 0,001'lik son derece anlamlı bir p-değeri üretir. Ama 0,8 saniyelik fazladan gezinme iş için gerçekten önemli mi? Muhtemelen hayır. Etki istatistiksel anlamda gerçektir, ancak pratik değeri yoktur.

47.2 Eski Düzen 48 Yeni Düzen

Bu, istatistiksel anlamlılığın büyük ölçüde örneklem büyüklüğüne bağlı olmasından kaynaklanır. Yeterince büyük bir örneklemle, iki grup arasındaki en küçük fark bile küçük bir p-değeri üretecektir. Test o kadar hassas hale gelir ki, gerçek dünyada görünmez ve ilgisiz olacak gürültü düzeyindeki etkileri yakalar.

Örnek

Bir ilaç şirketi, 50.000 hasta üzerinde yeni bir tansiyon ilacı test eder. İlaç, sistolik kan basıncını plaseboya kıyasla 1,2 mmHg düşürür ve sonuç istatistiksel olarak anlamlıdır (p = 0,003). Ancak doktorlar en az 5-10 mmHg'lık bir düşüşü klinik olarak anlamlı kabul eder. 1,2 mmHg'lık bir düşüş hiçbir tedavi kararını değiştirmez. İlaç istatistiksel olarak "işe yarar", ancak pratik olarak işe yaramaz.

Pratik Anlamlılık: Gerçekten Önemli mi?

Pratik anlamlılık farklı bir soru sorar: etki gerçek dünyada önemli olacak kadar büyük mü? Bu, sadece matematiğe değil, bağlama bağlıdır. Yakıt verimliliğinde %2'lik bir iyileşme, yılda milyonlarca galon yakan bir havayolu şirketi için pratik olarak anlamlı olabilir, ancak haftada bir markete giden biri için anlamsız olabilir.

Araştırmacılar, örneklem büyüklüğünden bağımsız olarak bir farkın gerçekte ne kadar büyük olduğunu ölçmek için "etki büyüklüğü" kavramını kullanır. Yaygın etki büyüklüğü ölçüleri arasında Cohen's d (iki grup ortalamasını karşılaştırmak için) ve korelasyon katsayıları bulunur. Küçük bir p-değeriyle birleşen küçük bir etki büyüklüğü sizi temkinli kılmalıdır. Sonuç gerçektir ama üzerinde harekete geçmeye değmeyebilir.

İlaç Etkisi (mmHg) 0.4 2
Klinik Olarak Anlamlı 6.1 10.9

Yukarıdaki güven aralıklarında, ilacın etkisinin ve olası değerler aralığının tamamının, doktorların anlamlı bir değişiklik kabul edeceği düzeyin çok altında kaldığına dikkat edin. Etkinin sıfır olmadığından emin olsak da, önemli olmak için hâlâ çok küçüktür.

Örneklem Büyüklüğü Nasıl Kafa Karıştırır

Küçük örneklemlerde tam tersi sorun vardır. Çok az katılımcıyla, bir çalışma örneklem anlamlı bir p-değeri üretecek kadar büyük olmadığı için gerçek ve önemli bir etkiyi tespit edemeyebilir. Buna düşük istatistiksel güç denir. 20 kişilik bir çalışma büyük, pratik olarak anlamlı bir fark bulabilir ama örneklem güvenilir olmak için çok küçük olduğu için bunu "istatistiksel olarak anlamlı değil" olarak raporlayabilir.

Bu, her iki yönde de yanıltılabileceğiniz anlamına gelir. Büyük örneklemler önemsiz etkileri anlamlı gösterebilir, küçük örneklemler ise önemli etkileri anlamsız gösterebilir. Ne p-değeri ne de örneklem büyüklüğü tek başına bir sonucun önemli olup olmadığını söyler. Etkinin gerçek büyüklüğüne bakmanız ve bağlama göre değerlendirmeniz gerekir.

İstatistikler Yanıltığında: Gerçek Dünya Tuzakları

Başlıklar, etki büyüklüğünden bahsetmeden istatistiksel olarak anlamlı bulguları raporlamayı sever. "Çalışma, çikolata yemenin daha düşük stresle bağlantılı olduğunu buldu!" 100 puanlık bir stres ölçeğinde çikolata yiyenlerin 0,3 puan daha düşük skor aldığı bir çalışmaya dayanıyor olabilir. Teknik olarak doğru, pratik olarak anlamsız.

Pazarlama ekipleri de bunu istismar eder. "Klinik olarak cilt nemini artırdığı kanıtlanmıştır" binlerce kişi üzerinde test edilen bir nemlendirici için, hiç bir şey kullanmamaya kıyasla %2 nem artışı anlamına gelebilir. İddia teknik olarak anlamlı bir p-değeriyle desteklenir, ancak etki ürünü kullanan hiç kimse için görünmezdir.

Kendinizi korumak için her zaman sorun: etki ne kadar büyük? Anlayabileceğiniz birimlerle mi ifade ediliyor? Bu fark davranışınızı veya kararlarınızı değiştirir miydi? Çalışma etkinin büyüklüğünü söylemeden yalnızca bir p-değeri raporluyorsa, bu bir kırmızı bayraktır.

Temel Çıkarım

İstatistiksel anlamlılık, bir etkinin gerçek olup olmadığını söyler. Pratik anlamlılık, gerçekten önemli olup olmadığını söyler. Bir sonuç, özellikle büyük örneklemlerle, istatistiksel olarak anlamlı ama önemsemek için çok küçük olabilir. Her zaman etkinin büyüklüğüne bakın, sadece p-değerine değil, ve kendinize bu farkın herhangi bir gerçek dünya kararını değiştirip değiştirmeyeceğini sorun.