P-Değerleri Açıklandı

Zorluk: Orta Okuma Süresi: 12 dakika

İstatistiğin En Yanlış Anlaşılan Sayısı

Herhangi bir bilim makalesi okuduysanız, "p < 0,05" veya "sonuç istatistiksel olarak anlamlı" gibi ifadeler görmüşsünüzdür. Bu ifadelerin arkasında p-değeri adında tek bir sayı vardır. İstatistikte en çok kullanılan - ve en çok yanlış anlaşılan - kavramlardan biridir.

-3 -2 -1 0 1 2 3

Sade bir dille ve basit bir deneyle konuyu netleştirelim.

Bir Soruyla Başlayalım

Arkadaşınızın yazı tura sonuçlarını tahmin edebildiğini iddia ettiğini hayal edin. Siz şüphecisiniz. Bir test tasarlıyorsunuz: parayı 20 kez atın ve arkadaşınız her birini tahmin etsin. Sadece tahmin ediyorsa, 20'den yaklaşık 10'unu doğru bilmesi gerekir - kabaca %50.

Arkadaşınız 20'den 14'ünü doğru biliyor. Bu etkileyici mi, yoksa şansla kolayca olabilir mi?

İşte tam olarak p-değerinin yanıt verdiği soru türü budur.

P-Değeri Aslında Nedir?

P-değeri şu belirli soruyu yanıtlar: Eğer özel hiçbir şey olmuyorsa, en az bu kadar aşırı sonuçlar görülme olasılığı nedir?

45 p<0.01 30 p<0.05 15 p<0.10 10 p>0.10

Yazı tura örneğinde: arkadaşınızın gerçek bir yeteneği yoksa (sıfır hipotezi), 20'den 14 veya daha fazlasını şansla doğru bilme olasılığı nedir?

Cevap yaklaşık 0,058 - kabaca %6 şans. Bu p-değeridir.

Örnek

Arkadaşınız 20 yazı tura atışının 14'ünü doğru tahmin ediyor.

Sıfır hipotezi: Sadece tahmin ediyor (her seferinde %50 şans).

P-değeri: Yaklaşık 0,058 - saf şansla 14 veya daha fazlasını doğru bilme olasılığının kabaca %6 olduğu anlamına gelir.

%6 sizi ikna etmeye yeter mi? Bu eşik değerinize bağlı. Yaygın %5 sınırında "tam olarak yeterli kanıt değil" dersiniz. 15 doğru bilseydi (p ≈ 0,02), daha ikna olabilirdiniz.

0,05 Eşiği

Çoğu araştırma alanında, 0,05'in (%5) altındaki bir p-değeri "istatistiksel olarak anlamlı" kabul edilir. Bu, sonuçların saf şansla %5'ten az oranda gerçekleşebileceği ve ciddi alınacak kadar olasılık dışı kabul edildiği anlamına gelir.

Neden 0,05? Açıkça söylenmek gerekirse, bir ölçüde keyfidir. İstatistikçi Ronald Fisher 1920'lerde bunu uygun bir referans noktası olarak önerdi. Tuttu ve şimdi hemen her yerde kullanılıyor. Bazı alanlar daha sıkı eşikler kullanır - parçacık fiziği bir keşfi iddia etmek için 0,0000003'ü (yaklaşık 3,5 milyonda 1) kullanır.

Temel fikir: daha küçük p-değeri, sıfır hipotezine karşı daha güçlü kanıt demektir. 0,001'lik bir p-değeri, 0,04'ten çok daha ikna edicidir.

P-Değeri Ne ANLAMA GELMEZ?

Kafakarışıklığının çoğu burada yaşanır. İşte en yaygın hatalar:

-3 -2 -1 0 1 2 3

Hata 1: "P-değeri, sıfır hipotezinin doğru olma olasılığıdır."

Hayır. 0,03'lük bir p-değeri, hiçbir şeyin olmama olasılığının %3 olduğu anlamına GELMEZ. P-değeri, sıfır hipotezinin doğru olduğunu varsayar ve verinin ne kadar şaşırtıcı olacağını sorar. Herhangi bir hipotezin doğru veya yanlış olma olasılığını söylemez.

Hata 2: "Küçük p-değeri etkinin büyük veya önemli olduğu anlamına gelir."

Hayır. Çok küçük, pratik olarak anlamsız bir etki için de küçük bir p-değeri alabilirsiniz - özellikle büyük bir örneklem büyüklüğünde. Bir milyon kişiyle anket yaparsanız, iki grup arasındaki önemsiz bir fark bile 0,0001'lik bir p-değeri üretebilir. Etki gerçek olabilir ama umursamayacağınız kadar küçük.

Hata 3: "0,05'in üzerindeki p-değeri etki olmadığını gösterir."

Hayır. Yeterince güçlü bir etki kanıtı bulunamadığını gösterir. Bu, etki olmadığını kanıtlamaktan farklıdır. Belki yeterli veriniz yoktu. Belki etki gerçek ama küçük. Kanıt yokluğu, yokluk kanıtı değildir.

Günlük Dilde İfade Etmek

P-değerini bir "şaşkınlık ölçeri" olarak düşünün. Sıkıcı açıklamanın doğru olduğunu varsayarak başlarsınız (özel bir şey olmuyor). Sonra verilerinize bakarsınız ve "ne kadar şaşırmam gerekir?" diye sorarsınız.

  • P-değeri 1,0'a yakın: Hiç şaşırmıyorsunuz. Verileriniz sıkıcı açıklamayla tamamen tutarlı.
  • P-değeri 0,5 civarı: Verileriniz sıradan. Şansla kolayca olabilir.
  • P-değeri 0,05 civarı: İlginçleşiyor. Bu şansla yaklaşık 20'de 1 oranında gerçekleşir.
  • P-değeri 0,001 civarı: Çok şaşırtıcı. Şansla yaklaşık 1.000'de 1 oranında. Gerçek bir şeylerin olduğuna dair güçlü kanıt.

0,05 Sınırı Neden Sorun Yaratıyor?

0,05'i kesin bir sınır olarak ele almak tuhaf durumlara yol açar. p = 0,049 olan bir çalışma "anlamlı bulgu" olarak yayınlanır. p = 0,051 olan bir çalışma hiçbir şey bulunamamış gibi değerlendirilir. Ama bu iki sonuç pratik olarak aynıdır - küçük fark çalışmanın bir fazla katılımcısıyla oluşabilir.

Birçok istatistikçi artık 0,05'i sihirli bir eşik olarak ele almayı bırakmamız gerektiğini savunuyor. Bunun yerine, gerçek p-değerinin raporlanmasını ve okuyucuların kanıt gücünü kendilerinin değerlendirmesini öneriyorlar.

Örnek

İki araştırmacı, belirli bir egzersiz rutininin tansiyonu düşürüp düşürmediğini inceler.

Araştırmacı A, p = 0,048 bulur ve "Egzersiz tansiyonu anlamlı ölçüde düşürdü" yazar.

Araştırmacı B, p = 0,052 bulur ve "Egzersizin tansiyon üzerinde anlamlı bir etkisi olmadı" yazar.

Sonuçları neredeyse aynı! Ama biri 0,05 sınırını geçti diğeri geçemedi diye, vardıkları sonuçlar tamamen farklı görünüyor. Gerçek sayılara - sadece "anlamlı mı değil mi"ye değil - bakmanın bu yüzden çok önemli olduğunu gösteriyor.

Gerçek Dünyada P-Değerleri

P-değerleri tıbbi çalışmalarda, iş deneylerinde, sosyal bilim araştırmalarında ve haber başlıklarında karşımıza çıkar. Gördüğünüzde kendinize sorun:

  • P-değeri ne kadar küçük? (Küçükse = daha güçlü kanıt)
  • Gerçek etki ne kadar büyük? (Gerçek ama küçük bir etki önemli olmayabilir)
  • Örneklem ne kadar büyüktü? (Büyük örneklemler küçük etkileri "anlamlı" gösterebilir)
  • Çalışma iyi tasarlanmış mıydı? (Kötü tasarlanmış bir çalışmadan gelen p-değeri pek bir şey ifade etmez)
Önemli Nokta

P-değeri, özel bir şey olmasa verilerinizin ne kadar şaşırtıcı olacağını söyler. Küçük bir p-değeri (genellikle 0,05'in altında) verilerin yalnızca şansla gerçekleşmiş olma ihtimalinin düşük olduğunu gösterir. Ama p-değeri bir hipotezin doğru olma olasılığı DEĞİLDİR ve "anlamlı" bir sonuç bulgunun önemli veya büyük olduğu anlamına otomatik olarak gelmez. Etkinin büyüklüğüne ve çalışmanın kalitesine de her zaman p-değeriyle birlikte bakın.