Yüzdelikler ve Kutu Grafikleri

Zorluk: Başlangıç Okuma Süresi: 10 dakika

Yüzdelik Nedir?

Bir yüzdelik, bir veri setindeki değerlerin yüzde kaçının belirli bir noktanın altında kaldığını söyler. Test puanınız 85. yüzdelikteyse, sınava girenlerin %85'inden daha yüksek puan aldığınız anlamına gelir. Soruların %85'ini doğru yanıtladığınız anlamına gelmez -- yüzdelikler herkese göre sıralamadaki yerinizi tanımlar, mutlak performansınızı değil.

Yüzdelikler her yerde kullanılır. Çocuk doktorları, çocukların boy ve kilosunu yüzdelik grafikleri kullanarak takip eder. SAT ve GRE gibi standartlaştırılmış testler puanları yüzdelik olarak bildirir. Maaş anketleri, şirketlerin piyasaya göre konumlarını görebilmeleri için ücretleri yüzdelik cinsinden tanımlar.

En yaygın başvurulan yüzdelikler, veriyi dört eşit parçaya bölen çeyrekliklerdir. 25. yüzdelik Q1 (birinci çeyreklik), 50. yüzdelik Q2 (medyan), 75. yüzdelik ise Q3 (üçüncü çeyreklik) olarak adlandırılır. Minimum ve maksimum ile birlikte bu beş değer, tüm veri setinin kompakt bir anlık görüntüsü olan beş sayılık özeti oluşturur.

12 20 28 36 44 52 55

Yukarıdaki nokta grafiğinde, çoğu değerin 20'ler ve 30'larda kümelendiğini, birkaç düşük değer ve 55'te bir yüksek aykırı değer olduğunu görebilirsiniz. Yüzdelikler, her veri noktasını listelemek zorunda kalmadan bu dağılımı özlü bir şekilde tanımlamamıza yardımcı olur.

Beş Sayılık Özet

Beş sayılık özet beş değerden oluşur: minimum, Q1, medyan, Q3 ve maksimum. Bu beş sayı, verinin nerede başladığını, ortadaki %50'sinin nerede oturduğunu ve verinin nerede bittiğini söyler.

Örnek

Bir garsonun 20 vardiyada kazandığı günlük bahşişleri düşünün: 12$, 15$, 17$, 19$, 21$, 22$, 23$, 24$, 25$, 26$, 27$, 28$, 29$, 30$, 31$, 33$, 35$, 38$, 42$, 55$. Beş sayılık özet şöyle olurdu: Minimum = 12$, Q1 = 20$, Medyan = 26,50$, Q3 = 32$, Maksimum = 55$. İlk bakışta, bahşişlerin ortadaki %50'sinin 20$ ile 32$ arasında olduğunu, tipik bahşişin yaklaşık 26-27$ civarında olduğunu ve 55$'da olağandışı derecede büyük bir bahşiş günü bulunduğunu görebilirsiniz.

Çeyrekler Arası Aralık (IQR)

Çeyrekler arası aralık basitçe Q3 eksi Q1'dir. Uç değerleri göz ardı ederek verilerinizin ortadaki %50'sinin yayılımını ölçer. Garson örneğinde IQR = 32$ - 20$ = 12$.

IQR, aralıktan (maksimum eksi minimum) daha sağlam bir yayılım ölçüsüdür çünkü aykırı değerlerden etkilenmez. Garsonun aralığı 55$ - 12$ = 43$'dır ve bu tek harika bahşiş gününden ağır biçimde etkilenmiştir. 12$'lık IQR, tipik günlük değişkenliğin daha doğru bir resmini verir.

IQR ayrıca aykırı değerleri belirlemek için de kullanılır. Yaygın bir kural, Q1 - 1,5 * IQR'nin altındaki veya Q3 + 1,5 * IQR'nin üzerindeki herhangi bir değerin potansiyel aykırı değer olduğunu söyler. Garson örneğinde üst sınır 32$ + 1,5 * 12$ = 50$ olurdu. 55$'lık bahşiş günü bu eşiği aşar ve istatistiksel bir aykırı değer olduğunu doğrular.

Kutu Grafiği Okuma

Bir kutu grafiği (kutu-bıyık grafiği olarak da bilinir), beş sayılık özetin görsel temsilidir. Kutu Q1'den Q3'e uzanır ve içinde medyanı işaretleyen bir çizgi bulunur. "Bıyıklar" kutudan en küçük ve en büyük aykırı olmayan değerlere uzanır. Aykırı değerler bıyıkların ötesinde bireysel noktalar olarak görünür.

Kutu grafikleri, birden fazla grubu yan yana karşılaştırmak için özellikle yararlıdır. Üç farklı restoran arasında bahşişleri karşılaştırmak isteseydiniz, yan yana yerleştirilen üç kutu grafiği hangi restoranın daha yüksek tipik bahşişlere sahip olduğunu, hangisinin daha fazla değişkenliğe sahip olduğunu ve hangisinde daha fazla aykırı değer bulunduğunu anında gösterirdi.

12 Min 20 Q1 26 Medyan 32 Q3 55 Maks

Yukarıdaki çubuk grafik, beş sayılık özet değerlerini çubuklar olarak temsil eder, böylece göreceli konumlarını görebilirsiniz. Q3 ile maksimum arasındaki boşluğa dikkat edin -- bu asimetri, verinin daha yüksek değerlere doğru uzun bir kuyrukla sağa çarpık olduğunu gösterir.

Kutu Grafiklerinin Şekil Hakkında Söyledikleri

Kutu grafikleri, bir dağılımın çarpıklığı hakkında bilgi verebilir. Medyan çizgisi kutunun ortasındaysa ve bıyıklar yaklaşık eşit uzunluktaysa, veri simetriktir. Medyan Q1'e daha yakınsa ve üst bıyık daha uzunsa, veri sağa çarpıktır (yüksek değerlerin uzun kuyruğu). Medyan Q3'e daha yakınsa ve alt bıyık daha uzunsa, veri sola çarpıktır.

Örneğin, gelir verileri neredeyse her zaman sağa çarpık bir kutu grafiği üretir: medyan kutunun alt kısmındadır, üst bıyık uzundur ve yüksek uçta birçok aykırı değer bulunur. İyi tasarlanmış bir dersin sınav puanları genellikle sola çarpık bir kutu grafiği üretir: çoğu öğrenci iyi yapar, ancak birkaç geri kalan alt bıyığı aşağı çeker.

Kutu grafikleri, histogramlara kıyasla bazı ayrıntılardan fedakârlık eder -- dağılımın tam şeklini veya çoklu zirveleri göremezsiniz. Ancak kompakt karşılaştırma ve aykırı değer tespitinde mükemmeldirler, bu yüzden keşifsel veri analizinin temel unsurlarıdır.

5 10 15 20 25 30
Temel Çıkarım

Yüzdelikler, değerleri verinin geri kalanına göre sıralar ve çeyreklikler (Q1, medyan, Q3) en önemli referans noktalarıdır. Beş sayılık özet ve IQR, herhangi bir veri setinin aykırı değerlere dirençli, özlü bir anlık görüntüsünü sağlar. Kutu grafikleri bu özeti, merkezi, yayılımı, çarpıklığı ve aykırı değerleri bir bakışta ortaya koyan bir görsele dönüştürür -- birden fazla grup arasında hızlı karşılaştırma için idealdir.