Andmete tüübid

Raskusaste: Algaja Lugemisaeg: 10 minutit

Miks andmetüübid olulised on?

Kõik andmed ei ole ühesugused. Number "42" tähendab midagi hoopis teist kui sõna "sinine" või hinnang "hea". Enne kui saad andmeid analüüsida, pead mõistma, mis tüüpi andmetega on tegu. Õige tüübi tundmine ütleb sulle, milliseid arvutusi saad teha ja milliseid diagramme on mõistlik kasutada.

25 A 40 B 15 C 30 D 10 F

Eestis kogub Statistikaamet tohutult erinevaid andmeid - alates rahvaarvust kuni keskmiste ostukontrollideni Selveris. Iga andmetüüp nõuab erinevat lähenemisviisi.

Kvalitatiivsed andmed (kategoorilised)

Kvalitatiivsed andmed kirjeldavad omadusi või kategooriaid. Neid ei saa numbriliselt mõttekalt kokku liita või nendest keskmist arvutada.

Näide

Küsitlus küsib Tallinna elanikult: "Milline on teie lemmik transpordivahend?" Vastusevariandid: auto, buss, tramm, jalgratas, Bolt. Need on kvalitatiivsed andmed - kategooriad, mida ei saa numbriliselt järjestada.

Kvalitatiivsed andmed jagunevad omakorda kaheks:

Nominaalandmed

Nominaalandmetel puudub loomulik järjestus. Need on lihtsalt nimetused või sildid. Näiteks: silmavärv (sinine, pruun, roheline), rahvus, programmeerimiskeel (Python, Java, JavaScript) või Bolt Foodi restorani valik.

Ordinaalandmed

Ordinaalandmetel on järjestus, kuid vahede nende vahel ei ole tingimata võrdsed. Näiteks: haridusaste (põhiharidus, keskharidus, kõrgharidus), klientide rahuloluhinnangud (halb, rahuldav, hea, suurepärane) või Premium Liiga tabelikoht.

Näide

E-poes palutakse kliendil hinnata ostukogemust: 1 täht kuni 5 tähte. See on ordinaalandmed - 5 tähte on parem kui 3, kuid vahe 3 ja 4 tähe vahel ei pruugi olla sama suur kui 1 ja 2 vahel.

Kvantitatiivsed andmed (arvulised)

Kvantitatiivsed andmed on numbrid, millega saab teha matemaatilisi tehteid. Need vastavad küsimustele "kui palju?" või "mitu?".

Diskreetsed andmed

Diskreetsed andmed on loendatavad täisarvud. Sa ei saa omada 2,5 last või 3,7 autot. Näiteks: õpilaste arv klassis, väravate arv Premium Liiga mängus, äppide arv telefonis.

Näide

Flora lööb hooaja jooksul 30 mänguga: 2, 0, 1, 3, 1, 0, 2, ... väravat. Iga mängu väravate arv on diskreetne - sa ei saa lüüa pool väravat.

Pidevad andmed

Pidevad andmed võivad võtta mistahes väärtuse mingil skaalal, sealhulgas kümnendmurde. Näiteks: temperatuur (21,3 kraadi), kehakaal (74,5 kg), aeg (12,38 sekundit) või euro vahetuskurss.

Näide

Tartu ilmajaam mõõdab temperatuuri iga tund. Hommikul on 14,2 kraadi, lõunal 21,7 kraadi, õhtul 17,3 kraadi. Need on pidevad andmed - temperatuur võib olla mistahes väärtus.

Miks see vahet tegemine loeb?

Andmetüüp määrab, mida saad andmetega teha:

  • Kvalitatiivsed andmed: Saad loendada sagedusi ja leida moodi (kõige populaarsem valik). Ei saa arvutada keskmist.
  • Diskreetsed kvantitatiivsed andmed: Saad arvutada keskmise, mediaani, ulatuse. Tulpdiagramm on hea valik.
  • Pidevad kvantitatiivsed andmed: Saad kasutada kõiki statistilisi meetodeid. Histogramm ja joondiagramm on head valikud.
Näide

Wise tahab analüüsida oma kliente. Kliendi asukohamaa (Eesti, Soome, UK) on nominaalandmed - saab ainult loendada, kui palju kliente igast riigist on. Ülekande summa (45,20 eurot, 1 230,00 eurot) on pidevad kvantitatiivsed andmed - saab arvutada keskmise ülekande suuruse. Ülekannete arv kuus (3, 7, 12) on diskreetsed andmed.

Andmetüüpide kokkuvõte

Siin on lihtne viis meeles pidada:

  • Kvalitatiivne nominaal: Sildid ilma järjestuseta (linn, värv, nimi)
  • Kvalitatiivne ordinaal: Sildid koos järjestusega (hinnangud, tasemed)
  • Kvantitatiivne diskreetne: Loendatavad täisarvud (arv, kogus)
  • Kvantitatiivne pidev: Mõõdetavad väärtused skaalal (kaal, temperatuur, aeg)

Levinud vead

Üks sagedasem viga on kohelda kategoorilisi andmeid numbrilistena. Näiteks, kui küsitluses kodeeritakse "mees" = 1 ja "naine" = 2, ei tähenda see, et 2 on suurem kui 1 mingis mõttekas tähenduses. Need on endiselt nominaalandmed, lihtsalt numbrilise sildiga.

Teine levinud viga on arvata, et ordinaalandmete vahede on võrdsed. Kui restorani hinnangud on 1-5, ei pruugi vahe 1 ja 2 vahel olla sama suur kogemuse mõttes kui vahe 4 ja 5 vahel.

Peатükk

Andmed jagunevad kahte põhikategooriasse: kvalitatiivsed (kategooriad) ja kvantitatiivsed (numbrid). Kvalitatiivsed jagunevad nominaal- ja ordinaalandmeteks. Kvantitatiivsed jagunevad diskreetseteks ja pidevateks. Õige andmetüübi tundmine on esimene samm õige statistilise meetodi valimisel.