Rastgeledeki Kalıplar
Bir parayı bir kez atın, sonuç tamamen rastgele hissedilir. 1.000 kez atın, bir kalıp belirir: kabaca yarısı tura olacaktır. Bir zarı bir kez atın, her şey gelebilir. 10.000 kez atın, her sayı yaklaşık eşit çıkacaktır.
Bir olasılık dağılımı bu kalıpları tanımlar. Size rastgele bir olayın tüm olası sonuçlarını ve her birinin ne kadar muhtemel olduğunu söyler. Bunu şansın tam bir haritası olarak düşünün - tek bir sonucu sormak yerine, tüm resmi aynı anda görebilirsiniz.
Olasılık Dağılımı Nedir?
Bir olasılık dağılımı şu soruyu yanıtlar: "Bu rastgele olayı pek çok kez tekrarlasam, sonuçlar neye benzerdi?"
Tablo, formül veya - en yaygın olarak - grafik şeklinde gösterilebilir. Grafik, altta olası sonuçları, yanda ise olasılıkları gösterir.
İki zar atın ve sayıları toplayın. Olası toplamlar 2'den 12'ye kadardır. Ama hepsi eşit olasılıklı DEĞİLDİR:
- 2 toplamı sadece bir şekilde olabilir: 1+1. Olasılık: 1/36.
- 7 toplamı altı şekilde olabilir: 1+6, 2+5, 3+4, 4+3, 5+2, 6+1. Olasılık: 6/36.
- 12 toplamı sadece bir şekilde olabilir: 6+6. Olasılık: 1/36.
Bunu grafiğe döküşseniz, üçgen bir şekil görürdünüz - kenarlarda (2 ve 12) düşük, ortada (7) en yüksek. O grafik, iki zar toplamının olasılık dağılımıdır.
İki Tür Dağılım
Dağılımlar, veri türüne bağlı olarak iki çeşitte gelir:
Kesikli Dağılımlar
Bunlar sayılabilir sonuçlarla ilgilenir. 10 yazı turuda kaç tura? Bugün markete kaç müşteri gelir? Bir gönderide kaç kusurlu ürün? Sonuçlar belirli sayılardır (0, 1, 2, 3...) aralarında boşluklar vardır.
Sürekli Dağılımlar
Bunlar bir aralıkta herhangi bir değer alabilen ölçülebilir sonuçlarla ilgilenir. Bir kişinin boyu 170,0 cm, 170,1 cm, 170,15 cm olabilir - herhangi bir değer mümkündür. Sıcaklık, süre ve kilo hep süreklidir. "Tam 170,0 cm boyunda olma olasılığı nedir?" diye sormak yerine (sürekli veri için bu esas olarak sıfırdır), aralıklar hakkında sorarız: "165 ile 175 cm arasında olma olasılığı nedir?"
Normal Dağılım: Ünlü Çan Eğrisi
Tüm olasılık dağılımları arasında normal dağılım - çan eğrisi olarak da adlandırılır - açık ara en önemlisidir. Grafiğe döktüğünüzde, pürüzsüz, simetrik, çana benzeyen bir şekil oluşturur: ortada yüksek, her iki yanda eşit şekilde azalmaktadır.
Çan eğrisi sadece iki sayıyla tanımlanır:
- Ortalama (aritmetik ortalama): Bu çanın merkezi - tepe noktasıdır. Değerlerin çoğunun nerede kümelendiğini söyler.
- Standart sapma: Bu, değerlerin ne kadar yayıldığını ölçer. Küçük standart sapma, çanın uzun ve dar olduğu anlamına gelir (değerler sıkıca paketlenmiş). Büyük standart sapma, çanın kısa ve geniş olduğu anlamına gelir (değerler daha yaygın).
Türkiye'de yetişkin erkeklerin ortalama boyu yaklaşık 174 cm, standart sapması yaklaşık 7 cm. Bu şu anlama gelir:
- Erkeklerin çoğu (yaklaşık %68) ortalamanın bir standart sapması içindedir: 167 ile 181 cm arası.
- Neredeyse tümü (yaklaşık %95) iki standart sapma içindedir: 160 ile 188 cm arası.
- 153 cm'den kısa veya 195 cm'den uzun olmak çok nadirdir - nüfusun %0,3'ünden az.
Bu yüzden hazır giyim markaları M ve L bedenlerde en çok stok tutar, aşırı küçük ve büyük bedenlerde daha az. Çan eğrisi müşterilerin çoğunun nereye düştüğünü söyler.
68-95-99,7 Kuralı
Normal dağılım hakkındaki en faydalı bilgilerden biri 68-95-99,7 kuralıdır (bazen "ampirik kural" denir). Herhangi bir çan eğrisi için:
- %68 değer ortalamanın 1 standart sapması içinde kalır.
- %95 değer ortalamanın 2 standart sapması içinde kalır.
- %99,7 değer ortalamanın 3 standart sapması içinde kalır.
Bu kural, bir değerin tipik mi yoksa olağan dışı mı olduğunu hızlıca değerlendirmenizi sağlar. Ortalamadan 2 standart sapmadan fazla uzaksa, dış %5'tedir - oldukça nadir. 3'ten fazla mı? Son derece nadir.
YKS TYT sınavında ortalamanın 300 ve standart sapmanın 60 olduğunu varsayalım. 68-95-99,7 kuralını kullanarak:
- Sınav girenlerin yaklaşık %68'i 240 ile 360 arasında puanlar.
- Yaklaşık %95'i 180 ile 420 arasında puanlar.
- Yaklaşık %99,7'si 120 ile 480 arasında puanlar.
Birisi 440 puan alırsa, ortalamanın 2 standart sapmasından fazla üstündedir - sınava girenlerin en iyi %2-3'ündedir. Çan eğrisi sayesinde tek bir sayı size çok şey söyler.
Çan Eğrisi Neden Her Yerde?
İşte dikkat çekici olan: çan eğrisi şaşırtıcı sayıda gerçek dünya durumunda görülür. Boylar, tansiyon, sınav puanları, ölçüm hataları, günlük sıcaklıklar, bahçeden toplanan elmaların ağırlığı - hepsi çan eğrisini izleme eğilimindedir. Neden?
Cevap, Merkezi Limit Teoremi denilen derin bir matematiksel sonuçtan gelir. Basitçe söylemek gerekirse:
Pek çok küçük, bağımsız, rastgele etkiyi toplarsanız, toplam çan eğrisi oluşturma eğilimindedir - bireysel etkiler nasıl görünürse görünsün.
Bir kişinin boyu, örneğin, yüzlerce genetik ve çevresel faktörün etkisindedir, her biri küçük bir miktar katkı sağlar. Hepsini toplayın ve çan eğrisi elde edersiniz. Sınav puanları bilgi, hazırlık, odaklanma, sınav zorluğu ve şansa bağlıdır - çan şeklinde bir dağılımı birleştiren pek çok küçük faktör.
Bir fabrika tam 10 cm uzunluğunda olması gereken civatalar üretiyor. Gerçekte her civata, metaldeki, makinedeki, sıcaklıktaki ve diğer faktörlerdeki küçük değişiklikler nedeniyle biraz farklıdır. Fabrika 10.000 civatayı ölçerse, uzunluklar 10 cm etrafında merkezlenmiş bir çan eğrisi oluşturacaktır; civatların çoğu hedefe çok yakındır ve her iki tarafta birkaç aykırı değer vardır.
Kalite kontrol ekipleri bunu kullanır: bir civata ortalamadan 3 standart sapmadan fazla uzaktaysa, muhtemelen makinede bir şeyler ters gitmiştir.
Diğer Önemli Dağılımlar
Çan eğrisi en ünlüsüdür ama tek dağılım değildir. İşte karşılaşabileceğiniz birkaçı:
Düzgün Dağılım
Her sonuç eşit olasılıklıdır. Adil bir zarın düzgün dağılımı vardır: her yüzün 1/6 şansı var. Grafiğe dökerseniz, düz bir çizgi görürsünüz - tepeler yok, çukurlar yok.
Çarpık Dağılım
Her şey simetrik değildir. Gelir dağılımı, örneğin, sağa çarpıktır: çoğu insan orta düzeyde kazanır ama az sayıda insan muazzam derecede fazla kazanır. "Kuyruk" sağa doğru uzanır. Bu yüzden medyan gelir genellikle ortalama gelirden daha iyi bir ölçüdür - aşırı yüksek kazançlılar ortalamayı yukarı çeker.
Binom Dağılımı
Bu, sabit sayıda evet/hayır denemesindeki başarı sayısını tanımlar. 20 yazı turuda kaç tura? 100 müşteriden kaçı bir şey satın alacak? Binom dağılımı, her olası sayım için olasılığı verir. İlginç bir şekilde, deneme sayısı yeterince büyük olduğunda, binom dağılımı çan eğrisine benzemeye başlar.
Dağılımlar Pratikte Bize Ne Söyler?
Dağılımları anlamak sadece akademik değildir. Doğrudan pratik değeri vardır:
- Olağan dışı olayları fark etmek. Bir ölçüm beklenen dağılımın çok dışında kalıyorsa, dikkat çekici bir şey oluyor olabilir. Çok uzun bir fabrika civatası, ortalamadan çok uzak bir öğrenci notu, beklenenden çok daha fazla hareket eden bir hisse senedi fiyatı - dağılımlar bunları fark etmenize yardımcı olur.
- Tahmin yapmak. Bir dağılımı biliyorsanız, gelecek sonuçların olasılığını tahmin edebilirsiniz. Sigorta şirketleri primleri koymak için dağılımlardan yararlanır. Meteoroloji servisleri sıcaklıkları tahmin etmek için kullanır.
- Standart belirlemek. Tansiyon, kolesterol ve diğer sağlık ölçümleri için "normal" aralıklar, sağlıklı popülasyonlardaki değer dağılımına dayanır. Ölçümünüz "normal" aralığın dışında kalıyorsa, dağılımların kuyruğunda olduğunuz anlamına gelir.
Bir çocuk doktoru ebeveynlere çocuklarının boy için "yüzde 75'lik dilimde" olduğunu söyler. Bu, çocuğun aynı yaştaki çocukların %75'inden uzun olduğu anlamına gelir. Doktor bunu bilir çünkü çocukların boy dağılımına - bir çan eğrisine - sahiptir ve herhangi bir çocuğun üzerinde tam olarak nereye düştüğünü görebilir.
Dağılımlar ve Günlük Kararlar
Olasılık dağılımlarıyla düşündüğünüzden daha sık etkileşim içindesiniz:
- Bir kargo şirketi "3-5 iş günü içinde teslimat" dediğinde, bir dağılımın ortasını tanımlıyor. Çoğu paket bu aralıkta varır, ama bazıları daha erken, bazıları daha geç gelir.
- Bir yemek tarifi "25-30 dakika pişirin" dediğinde, gerçek süre fırınınıza, tencerenize, yüksekliğe - pek çok küçük faktöre bağlıdır. Aralık, olası pişirme sürelerinin dağılımını yansıtır.
- İstanbul'da "iş yerine genelde 40 dakikada varılır" dendiğinde, bu bir dağılımın tepesidir. Bazı günler 25, bazı günler 90 dakika sürer ve dağılım her yolculuk süresinin ne kadar muhtemel olduğunu gösterir.
Bir olasılık dağılımı, tüm olası sonuçları ve olasılıkları haritalandırır. Normal dağılım (çan eğrisi) en yaygın olanıdır, ortalaması ve standart sapmasıyla tanımlanır. 68-95-99,7 kuralı sayesinde bir değerin tipik mi yoksa olağan dışı mı olduğunu hızlıca anlayabilirsiniz. Çan eğrisi her yerde görünür çünkü pek çok gerçek dünya sonucu, çok sayıda küçük, rastgele faktörün birleşiminden oluşur. Dağılımları anlamak, verileri yorumlamak, aykırı değerleri fark etmek ve günlük hayatta bilinçli tahminler yapmak için güçlü bir lens sunar.