Çan Eğrisi Her Yerde
Büyük bir şehirdeki tüm yetişkinlerin boylarını ölçüp bir grafik üzerine yerleştirseniz, tanıdık bir şekil göreceksiniz: ortada zirve yapan ve her iki tarafa doğru azalan düzgün, simetrik bir tepe. Bu şekle normal dağılım denir ve istatistikteki tartışmasız en önemli kavramdır.
Normal dağılım dikkat çekici sayıda yerde karşımıza çıkar. Sınav puanları, tansiyon ölçümleri, işe gidip gelme süresi, fabrika üretim toleransları, hatta bilimsel ölçümlerdeki hatalar -- bunların hepsi çan şeklinde bir örüntü izleme eğilimindedir. Bunun nedeni matematikseldir: bir ölçüm birçok küçük, bağımsız faktörden etkilendiğinde, sonuç normal dağılma eğilimindedir. Bu ilke, Merkezi Limit Teoremi ile yakından ilişkilidir.
Yukarıdaki grafikte zirve en yaygın değeri (ortalamayı) temsil eder ve eğri her iki tarafa simetrik olarak düşer. Çoğu değer merkezin yakınında kümelenir, uç noktalara doğru gidildikçe giderek daha az gözlem görülür.
Ortalama, Standart Sapma ve Şekil
Bir normal dağılım yalnızca iki sayıyla tamamen tanımlanır: ortalama (eğrinin merkezi) ve standart sapma (verinin ne kadar yayıldığı). Ortalama, zirvenin sayı doğrusunda nerede oturduğunu söyler. Standart sapma, çanın ne kadar geniş veya dar olduğunu söyler.
Ortalama 100 ve standart sapma 15 olarak normal dağılım izleyecek şekilde tasarlanmış IQ puanlarını düşünün. Çoğu kişi 85 ile 115 arasında puan alır. Birkaçı 70'in altında veya 130'un üzerinde puan alır. Son derece azı 55'in altında veya 145'in üzerinde puan alır. Standart sapmayı 5'e değiştirin, çan çok daha daralır -- neredeyse herkes 90 ile 110 arasında kümelenir. 25'e değiştirin, çan düzleşir ve puanlar çok daha geniş bir alana yayılır.
Normal dağılımın güzelliği budur: ortalama ve standart sapmayı bildiğinizde, tüm şekli bilirsiniz ve herhangi bir değerin gerçekleşme olasılığını hesaplayabilirsiniz.
68-95-99.7 Kuralı
Normal dağılımın en pratik özelliklerinden biri ampirik kural, diğer adıyla 68-95-99.7 kuralıdır. Normal dağılıma sahip herhangi bir veri için şunu belirtir:
- Değerlerin yaklaşık %68'i ortalamanın 1 standart sapma içinde kalır.
- Değerlerin yaklaşık %95'i 2 standart sapma içinde kalır.
- Değerlerin yaklaşık %99,7'si 3 standart sapma içinde kalır.
Bu kural, bir değerin ne kadar olağandışı olduğunu hızlıca değerlendirmenizi sağlar. Verileriniz normal dağılıma sahipse ve birisi ortalamadan 3 standart sapmadan fazla uzakta bir değer bildiriyorsa, bu son derece nadirdir -- zamanın %0,3'ünden az gerçekleşir. Kalite kontrol mühendisleri bu fikri her gün kullanır: hedef boyuttan üç standart sapma dışına düşen bir fabrika parçası kusurlu olarak işaretlenir.
Bir şehirde ortalama günlük işe gidip gelme süresinin 35 dakika ve standart sapmanın 8 dakika olduğunu varsayalım. 68-95-99.7 kuralına göre, yolcuların yaklaşık %68'i 27 ile 43 dakika arasında sürer. Yaklaşık %95'i 19 ile 51 dakika arasında sürer. Ve neredeyse herkes (%99,7) 11 ile 59 dakika arasında sürer. Birisi işe gidip gelme süresinin 65 dakika olduğunu söylerse, bu ortalamadan 3 standart sapmadan fazladır -- bu şehir için gerçekten olağandışı bir yolculuk süresidir.
Z-Skorları: Evrensel Bir Cetvel
Farklı normal dağılımlar farklı birimler ve ölçekler kullanır. Ortalamanın 75, standart sapmanın 5 olduğu bir sınavda 82 puanı ile ortalamanın 500, standart sapmanın 100 olduğu SAT sınavında 720 puanı nasıl karşılaştırırsınız? Z-skoru kullanırsınız.
Bir z-skoru, bir değerin ortalamadan kaç standart sapma yukarıda veya aşağıda olduğunu söyler. Formül basittir: değerden ortalamayı çıkarın, sonra standart sapmaya bölün. Sınav puanı için: (82 - 75) / 5 = 1,4. SAT için: (720 - 500) / 100 = 2,2. SAT puanı, kendi dağılımına göre daha etkileyicidir çünkü standart sapma birimlerinde ortalamadan daha uzaktadır.
0'lık bir z-skoru, değerin tam ortalama olduğu anlamına gelir. Pozitif bir z-skoru ortalamanın üzerinde olduğu anlamına gelir. Negatif bir z-skoru ortalamanın altında olduğu anlamına gelir. Büyüklük, ortalamadan ne kadar uzakta olduğunu söyler. 2,0'lık bir z-skoru, değerin dağılımdaki tüm değerlerin yaklaşık %97,7'sinden yüksek olduğu anlamına gelir.
Z-skorları güçlüdür çünkü herhangi bir normal dağılımı standart normal dağılıma -- ortalaması 0 ve standart sapması 1 olan bir çan eğrisine -- dönüştürürler. Bu, orijinal ölçeğinden bağımsız olarak, normal dağılıma sahip herhangi bir değişken için olasılıkları bulmak üzere tek bir referans tablosu (veya hesap makinesi) kullanmanızı sağlar.
Gerçek Dünya Uygulamaları
Normal dağılım ve z-skorları yalnızca ders kitabı fikirleri değildir. Eğri üzerinde notlandırma, öğrenci puanlarını normal dağılıma oturtmak anlamına gelir. Tıbbi laboratuvar sonuçları, popülasyon ortalamasından 2 standart sapmayı aştığında genellikle anormal olarak işaretlenir. Finansal analistler hisse senedi getirilerini normal dağılımlar kullanarak modeller (gerçekte kuyruklar genellikle daha kalındır, bu kritik bir sınırlamadır). Sigorta şirketleri talepleri tahmin etmek için normal modeller kullanır.
Normal dağılımın ne zaman geçerli olmadığını bilmek de önemlidir. Gelir dağılımları yoğun biçimde sağa çarpıktır -- birkaç çok yüksek gelirli kişi ortalamayı medyanın çok üzerine çeker. Bekleme süreleri ve sağkalım verileri de genellikle çarpıktır. Sayma verileri (günlük kaza sayısı gibi) tamamen farklı dağılımlar izler. Bu araçları uygulamadan önce çan eğrisi varsayımının makul olup olmadığını her zaman kontrol edin.
Normal dağılım, tamamen ortalaması ve standart sapmasıyla tanımlanan simetrik, çan şeklinde bir eğridir. 68-95-99.7 kuralı, verilerin ortalama etrafında nasıl yayıldığına dair hızlı bir fikir verir. Z-skorları, herhangi bir değeri standart sapmalarla ölçülen evrensel bir ölçeğe çevirmenize olanak tanır ve tamamen farklı bağlamlardaki puanları karşılaştırmayı mümkün kılar. Bu araçlara güvenmeden önce verilerinizin yaklaşık olarak normal olduğunu her zaman doğrulayın -- tüm gerçek dünya verileri çan eğrisi izlemez.