Yaygın İstatistik Hataları

Zorluk: Başlangıç Okuma Süresi: 10 dakika

Bu Hataları Herkes Yapar

İstatistiksel hatalar öğrenciler veya yeni başlayanlarla sınırlı değildir. Gazeteciler, politikacılar, iş yöneticileri ve hatta bazı bilim insanları bunları düzenli olarak yapar. Bu hatalar genellikle kasıtlı değildir. Mantıklı görünen ama bizi yanlış yola götüren düşünce kısayollarından kaynaklanır.

-3 -2 -1 0 1 2 3

Bu hataları tanımayı öğrenmek sizi iki şekilde korur: başkalarının yaptıklarını yakalarsınız ve bilgiyi değerlendirirken kendiniz yapmaktan kaçınırsınız.

Hata 1: Korelasyonu Nedensellikle Karıştırmak

Bu, en yaygın istatistiksel hatadır ve her yerdedir. İki şey birlikte olma eğiliminde olduğunda, birinin diğerine neden olduğunu varsaymak cazip gelir. Ama korelasyon (iki şeyin birlikte hareket etmesi) ile nedensellik (birinin diğerini oluşturması) aynı şey değildir.

Örnek

Dondurma satışları ile köpekbalığı saldırıları arasında güçlü bir istatistiksel korelasyon vardır. Dondurma satışları arttığında köpekbalığı saldırıları da artar. Dondurma köpekbalığı mı çekiyor? Tabii ki hayır. Her ikisi de yazın artar çünkü sıcak havada daha fazla insan plaja gider. Sıcak hava her ikisini de etkileyen gizli faktördür.

Bu hatanın gerçek hayattaki sonuçları ciddidir. Yıllarca çalışmalar, vitamin takviyesi alan insanların daha sağlıklı olma eğiliminde olduğunu gösterdi. Birçok kişi takviyelerin daha iyi sağlığa neden olduğu sonucuna vardı. Ama sonra daha dikkatli tasarlanmış deneyler, takviyelerin kendisinin az fayda sağladığını buldu. Onları alan kişiler genel olarak daha sağlık bilinçli bireylerdi: aynı zamanda daha fazla egzersiz yapıyor, daha iyi yiyor ve düzenli olarak doktora gidiyorlardı.

Hata 2: Veri Seçiciliği (Kiraz Toplama)

Veri seçiciliği, yalnızca argümanınızı destekleyen veri noktalarını seçip desteklemeyenleri görmezden gelmektir. Bir öğrencinin ailesine yalnızca iyi geçen sınavları göstermesi gibi.

Bu iş dünyasında ve siyasette sık sık olur. Bir şirket "bu yıl her çeyrekte gelir büyüdü" diye raporlarken kârların düştüğünü atlayabilir. Bir siyasetçi "göreve başladığımdan beri suç %15 düştü" derken olağandışı bir sıçrama gösteren bir başlangıç tarihi seçebilir.

Veri seçiciliğinin panzehiri tam resmi istemektir. Tam veri seti nasıl görünüyor? Tüm hikâyeyi kapsayan zaman dilimi ne? Uygun bir şekilde dışarıda bırakılan veri noktaları var mı?

Hata 3: Küçük Örneklem Boyutları

Küçük gruplar güvenilir olmayan sonuçlar üretir. Bir parayı on kez atıp yedi yazı gelirse paranın hileli olduğunu düşünebilirsiniz. Ama 10.000 kez atarsanız neredeyse kesinlikle %50'ye yakın yazı elde edersiniz. Küçük örneklemler gürültülüdür. Dağınık sonuçlar verir ve şansla aşırı sonuçlar üretebilir.

Örnek

Bir haber makalesi "Araştırma ceviz yiyenlerin daha iyi hafızası olduğunu ortaya koydu" diye raporluyor. Çalışmayı kontrol ediyor ve iki hafta boyunca 18 katılımcı içerdiğini keşfediyorsunuz. Bu kadar küçük bir grupla, doğal olarak keskin hafızası olan birkaç kişinin şansla ceviz grubuna düşmesi tüm sonucu açıklayabilir. Bunu iki yıl boyunca 2.000 kişilik bir çalışmayla karşılaştırın - bulgular çok daha fazla ağırlık taşır.

Küçük gruplara ilişkin istatistiklerde özellikle dikkatli olun. "Eyaletteki en başarılı okul" birkaç yetenekli öğrencinin ortalamayı yukarı çektiği küçük bir okul olabilir. Yıldan yıla, küçük okullar doğal değişkenlik yüzünden en iyi ve en kötü sıralamalar arasında sık sık gidip gelir.

Hata 4: Temel Oranları Göz Ardı Etmek

Temel oran, bir şeyin genel popülasyonda ne kadar yaygın olduğudur. Bunu göz ardı etmek, özellikle nadir olaylarla uğraşırken büyük ölçüde yanlış sonuçlara götürür.

10.000'de 1 kişiyi etkileyen nadir bir hastalık için %99 doğruluk oranına sahip bir tıbbi test hayal edin. Pozitif çıkarsanız, gerçekten hasta olma olasılığınız nedir? Çoğu kişi %99 tahmin eder. Gerçek cevap yaklaşık %1'dir. Nedeni şöyle: test edilen 10.000 kişiden test, hastalığı olan 1 kişiyi doğru tespit eder. Ama 9.999 sağlıklı kişinin yaklaşık 100'üne de yanlış pozitif verir (%1'i). Yani 101 pozitif sonuçtan yalnızca 1 kişi gerçekten hastadır.

Bu sadece bir matematik bulmacası değildir. Tıbbi tarama, ceza adaleti ve güvenlik sistemleri için gerçek sonuçları vardır. Bir test veya iddia nadir bir şeyi içerdiğinde, her zaman temel oranı göz önünde bulundurun.

Hata 5: Yüzde Puanı ile Yüzdeyi Karıştırmak

Deneyimli profesyonelleri bile yanıltan ince ama önemli bir ayrımdır. "Yüzde puanı" değişimi ve "yüzde" değişimi çok farklı şeylerdir.

Örnek

Bir faiz oranının %2'den %3'e yükseldiğini varsayın. Bunu iki şekilde tanımlayabilirsiniz. "Oran 1 yüzde puanı arttı" (%2'den %3'e). Veya "Oran %50 arttı" (çünkü 1, 2'nin %50'sidir). Her iki ifade de doğru ama tamamen farklı izlenimler yaratıyor. Değişikliği küçümsemek isteyen politikacı "sadece bir yüzde puanı" der. Dramatize etmek isteyen muhalefet "%50 artış" der. Aynı veri, farklı çerçeveleme.

Yüzde kullanan bir iddia duyduğunuzda durun ve sorun: neyin yüzdesi? Yüzde puanı mı (mutlak fark) yoksa yüzde değişimi mi (göreli fark)?

Hata 6: Hikâyeyi Gizleyen Ortalamalar

Temel veriler eşit dağılmadığında ortalama yanıltıcı bir resim çizebilir. Bir odadaki dokuz kişi yıllık 50.000 TL kazanıyor ve bir kişi 5 milyon TL kazanıyorsa, ortalama gelir 545.000 TL'dir. Bu sayı odadaki kimseyi doğru tarif etmiyor.

Birisi "ortalama" raporladığında, hangi ortalamayı kastettiklerini (aritmetik ortalama, medyan veya mod) ve verilerin aşırı değerler tarafından çarpılıp çarpılmayacağını sorun. Gelir, ev fiyatları ve birçok diğer gerçek hayat ölçümü için medyan (ortanca değer) genellikle aritmetik ortalamadan daha bilgilendiricidir.

Bu Hataları Doğada Fark Etmek

Artık en yaygın istatistiksel hataları yakalamak için zihinsel bir araç setiniz var. İşte hızlı bir referans:

  • İki şeyin birlikte olması birinin diğerine neden olduğu anlamına gelmez.
  • Gösterilen değil, eksik olan veriyi arayın.
  • Çok küçük çalışmalardan gelen bulgulara şüpheyle yaklaşın.
  • Bir şey nadir olduğunda, pozitif sonuçlar genellikle yanlıştır.
  • "Yüzde"nin yüzde puanı mı yoksa göreli değişim mi olduğunu kontrol edin.
  • Hangi tür ortalamanın kullanıldığını ve aşırı uçların onu bozup bozmayacağını sorun.
Önemli Nokta

İstatistiksel hatalar yapması ve kaçırması kolaydır. Dikkat edilmesi gereken en önemliler: korelasyonu nedensellikle karıştırmak, bir sonucu destekleyen verileri seçip gerisini görmezden gelmek, küçük örneklemlerden büyük sonuçlar çıkarmak, bir şeyin ne kadar nadir olduğunu göz ardı etmek ve yüzde puanlarını yüzdeyle karıştırmak. Bunları yakalamak için matematik uzmanı olmanız gerekmez. Sadece yavaşlayın ve bir iddiayı kabul etmeden önce birkaç eleştirel soru sorun.