Veri Türleri

Zorluk: Başlangıç Okuma Süresi: 10 dakika

Her Veri Aynı Değildir

Herhangi bir şeyi analiz etmeden önce, ne tür verilerle çalıştığınızı anlamanız gerekir. Nasıl ki bir vidayı sıkmak için çekiç kullanamazsınız, farklı veri türleri de farklı araçlar ve yaklaşımlar gerektirir. Bunu yanlış yapmak hatalara yol açar. Doğru yapmak, sonrasında her şeyi çok daha kolaylaştırır.

25 A 40 B 15 C 30 D 10 F

Bu derste, karşılaşacağınız temel veri türlerini inceleyeceğiz. Her detayı hemen ezberleme konusunda endişelenmeyin. Amaç, bu türleri günlük hayatta gördüğünüzde tanımaya başlamanızdır.

Nitel Veri (Kategorik Veri)

Nitel veri, nitelikleri veya özellikleri tanımlar. "Ne tür?" veya "Hangi kategori?" gibi soruları cevaplar. Nitel verilerle anlamlı aritmetik işlem yapamazsınız.

Nitel veriyi etiketler olarak düşünün. Size bir kişi, yer veya şey hakkında bir şeyler söylerler, ama onları toplayamaz veya anlamlı bir şekilde ortalamasını bulamazsınız.

Örnek
  • Desteklenen futbol takımı: Galatasaray, Fenerbahçe, Beşiktaş, Trabzonspor. Kaç kişinin hangi takımı seçtiğini sayabilirsiniz, ama "Galatasaray + Beşiktaş" anlamlı bir şey vermez.
  • Kan grubu: A, B, AB, 0. Bunlar kategorilerdir, sayılar değil.
  • Yaşanılan şehir: İstanbul, Ankara, İzmir, Antalya. Nerede yaşadığınız bir kategoridir.
  • Müşteri yorumları: "Harika hizmet," "uzun bekleme süresi," "güler yüzlü personel." Bunlar tanımlamalar, ölçümler değil.

Nitel verilerle yapacağınız en yaygın şey, her kategorinin ne sıklıkta göründüğünü saymaktır. Örneğin, 30 kişilik bir sınıfta 12'si Galatasaray, 8'i Fenerbahçe, 6'sı Beşiktaş ve 4'ü Trabzonspor tutar. Bu sayım faydalıdır, ama kategorilerin kendileri ortalamasını alabileceğiniz sayılar değildir.

Nicel Veri (Sayısal Veri)

Nicel veri, miktarları veya ölçümleri temsil eden sayılardan oluşur. "Kaç tane?" veya "Ne kadar?" gibi soruları cevaplar. Nicel verileri toplayabilir, çıkarabilir ve ortalamasını alabilirsiniz.

Örnek
  • Boy: 170 cm, 182 cm. Bunlar karşılaştırabileceğiniz ve ortalamasını alabileceğiniz ölçümlerdir.
  • Sıcaklık: 22 derece, 35 derece. Bunlar bir ölçekteki ölçümlerdir.
  • Kardeş sayısı: 0, 1, 2, 3. Bir sınıftaki ortalama öğrencinin 1,5 kardeşi olduğunu hesaplayabilirsiniz.
  • Haftalık market harcaması: 850 TL, 1.200 TL, 670 TL. Bunlar toplayabileceğiniz ve ortalamasını alabileceğiniz tutarlardır.

Nicel veri kendi içinde iki önemli alt türe ayrılır: kesikli ve sürekli.

Kesikli Veri

Kesikli veri yalnızca belirli, ayrı değerler alabilir. Genellikle bunlar sayarak elde ettiğiniz tam sayılardır. Yarım insan veya 2,7 çocuk olamaz.

İyi bir test: teker teker sayabiliyorsanız, muhtemelen kesikli veridir.

Örnek
  • Sınıftaki öğrenci sayısı: 25, 26, 27 olabilir ama asla 25,5 olmaz.
  • Bir futbol maçında atılan gol sayısı: 0, 1, 2, 3. Bir takım 1,3 gol atamaz.
  • Telefonunuzdaki uygulama sayısı: 42, 43, 44. Sadece tam sayılar.
  • YKS'de doğru cevap sayısı: 0'dan 40'a kadar tam sayılar. Teker teker sayarsınız.

Sürekli Veri

Sürekli veri, bir aralık içinde kesirler ve ondalıklar dahil herhangi bir değer alabilir. Sürekli veriyi saymak yerine ölçerek elde edersiniz.

İyi bir test: herhangi iki değer arasında her zaman başka bir değer hayal edebiliyorsanız, süreklidir. 5,1 ile 5,2 arasında 5,15 vardır. 5,15 ile 5,16 arasında 5,155 vardır. Ve böyle sonsuza kadar devam eder.

Örnek
  • Kilo: 70,3 kg veya 70,37 kg olabilirsiniz. Hassasiyet tartınıza bağlıdır.
  • İstanbul Maratonu'nu koşma süresi: 3 saat 42 dakika 15,678 saniye. Süre aşırı hassasiyetle ölçülebilir.
  • Sıcaklık: 22,4 derece, 22,41 derece, 22,413 derece. Termometre tek sınırdır.
  • Bardaktaki su miktarı: 250,3 ml, 250,35 ml. Su akar, sabit parçalar halinde gelmez.

Kesikli-Sürekli Ayrımı Neden Önemli?

Çünkü veri türü, hangi grafiklerin ve hesaplamaların uygun olduğunu belirler. Çubuk grafikler kesikli veriler için iyi çalışır (her değer için ayrı bir çubuk gösterebilirsiniz). Histogramlar ve çizgi grafikleri sürekli veriler için daha iyidir (değerlerin bir aralık boyunca aktığı yerlerde). Yanlış grafik veya yöntemi kullanmak sonuçlarınızı yanıltıcı veya düpedüz yanlış yapabilir.

Örnek

Alışveriş alışkanlıklarınızı takip ettiğinizi düşünün. Her seferinde satın aldığınız ürün sayısı kesiklidir: 8 ürün, 12 ürün, 15 ürün. Harcadığınız toplam tutar süreklidir: 147,23 TL, 283,91 TL, 412,06 TL. Alışveriş yaptığınız market niteldir: Migros, BİM, A101. Her üç bilgi de aynı alışveriş gezisini tanımlar, ama her biri farklı analiz edilecek farklı bir veri türüdür.

Yapılandırılmış ve Yapılandırılmamış Veri

Özellikle verinin bu kadar çok kaynaktan geldiği günümüz dünyasında bir önemli ayrım daha vardır.

Yapılandırılmış Veri

Yapılandırılmış veri, genellikle bir elektronik tablo gibi satırlar ve sütunlar halinde düzgünce organize edilmiştir. Her bilgi parçasının net bir yeri vardır. Geleneksel istatistiğin çoğu yapılandırılmış verilerle çalışır.

  • Çalışan adları, yaşları ve maaşları içeren bir elektronik tablo
  • Zaman içindeki hasta tansiyon ölçümleri tablosu
  • Ürün fiyatları ve stok sayılarının veritabanı

Yapılandırılmamış Veri

Yapılandırılmamış veri satırlara ve sütunlara düzenli bir şekilde sığmaz. Dağınık, çeşitli ve genellikle analiz için özel araçlar gerektirir.

  • Serbest metin olarak yazılmış müşteri yorumları ("Yemekler harikaydı ama servis yavaştı")
  • Sosyal medyada paylaşılan fotoğraflar
  • Çağrı merkezinden ses kayıtları
  • E-postalar, tweetler ve blog yazıları

Dünyadaki verilerin muazzam bir kısmı yapılandırılmamıştır. Analiz etmek genellikle önce yapılandırılmış forma dönüştürmeyi gerektirir. Örneğin, 500 müşteri yorumunu okuyup her birini "olumlu," "olumsuz" veya "nötr" olarak sınıflandırabilirsiniz. Böylece yapılandırılmamış metni, sayıp karşılaştırabileceğiniz yapılandırılmış kategorilere dönüştürmüş olursunuz.

Örnek

İstanbul'da bir restoran Google'da 500 yorum alıyor. Her yorumun ham metni yapılandırılmamış veridir. Ama birisi her yorumu okuyup yıldız derecesini (1'den 5'e), yorum yazanın yemek kalitesinden bahsedip bahsetmediğini (evet veya hayır) ve yorumun tarihini kaydederse, bu kaydedilen detaylar yapılandırılmış veridir. Aynı bilgi kaynağı, nasıl yakaladığınıza bağlı olarak her iki türü de üretir.

Hepsini Bir Araya Getirmek

Gerçekçi bir senaryoyu inceleyelim. Bir spor salonunda yönetici olduğunuzu ve üyelerinizi daha iyi anlamak istediğinizi düşünün. Şu bilgileri topluyorsunuz:

  • Üyelik türü (Temel, Premium, VIP) — nitel veri
  • Yaş (34, 56, 22) — nicel, kesikli (tam yıllar)
  • Kilo (75,4 kg, 62,8 kg) — nicel, sürekli
  • Aylık ziyaret sayısı (8, 12, 4) — nicel, kesikli
  • Memnuniyet yorumları ("Sabah derslerini çok seviyorum!") — yapılandırılmamış veri
  • Memnuniyet puanı (1 ile 10 arası) — nicel, kesikli

Herhangi bir analiz yapmadan önce, her veri türünü tanımlamak doğru araçları seçmenize yardımcı olur. Üyelik türleri için pasta grafik veya çubuk grafik kullanırsınız. Aylık ziyaretler için ortalama hesaplarsınız. Memnuniyet yorumlarını sayısallaştırmadan önce okuyup kategorilendirmeniz gerekir.

Hızlı Başvuru

Karşılaştığınız herhangi bir veriyi sınıflandırmanın basit bir yolu:

  1. Bir sayı mı yoksa etiket mi? Etiketler niteldir. Sayılar niceldir.
  2. Sayı ise herhangi bir değer alabilir mi, yoksa sadece belirli değerler mi? Belirli tam değerler kesiklidir. Bir aralıkta herhangi bir değer süreklidir.
  3. Bir tabloda mı organize edilmiş, yoksa serbest formda mı? Tablolar yapılandırılmıştır. Serbest metin, görseller ve ses yapılandırılmamıştır.
Önemli Nokta

Veriler farklı türlerde gelir ve bu türleri tanımak herhangi bir analizin ilk adımıdır. Nitel veri, kategorileri ve etiketleri tanımlar. Nicel veri, sayıları ve ölçümleri temsil eder; kesikli (sayılabilir, ayrı değerler) veya sürekli (ölçülebilir, bir aralıktaki herhangi bir değer) olabilir. Yapılandırılmış veri tablolara düzenli sığar; yapılandırılmamış veri serbest formdur. Ne tür veriye sahip olduğunuzu bilmek, sırada hangi araçları ve yöntemleri kullanacağınızı söyler.