Toorandmetest korrastatud loendusteni
Andmete kogumisel algavad need sageli segase nimekirjana. Kujutage ette, et küsitlete 200 klienti nende eelistatud makseviisi kohta ja saate tagasi pika vastuste veeru: krediitkaart, sularaha, mobiilimakse, krediitkaart, krediitkaart, sularaha jne. Sagedustabel muudab selle kaose puhtaks kokkuvõtteks, loendades, mitu korda iga väärtus esineb.
Põhilisel sagedustabelil on kaks veergu: kategooria ja loendus (nimetatakse ka sageduseks). Maksenäite puhul võite saada: krediitkaart: 95, sularaha: 52, mobiilimakse: 38, deebetkaart: 15. Nüüd näete koheselt, milline makseviis domineerib ja milline on haruldane. See lihtne loendamine on kirjeldava statistika alus.
Suhteline ja kumulatiivne sagedus
Toorloendused on kasulikud, kuid neid võib olla raske erineva suurusega andmestike vahel võrrelda. Kui üks pood küsitles 200 ja teine 1000 inimest, on toorloenduste võrdlemine eksitav. Suhteline sagedus lahendab selle, väljendades iga loenduse osakaaluna või protsendina kogusummast. Krediitkaart 95-st 200-st on suhteline sagedus 47,5%.
Kumulatiivne sagedus läheb sammu edasi. See näitab jooksvat kogusummat kategooriate läbimisel. Järjestatud andmete puhul, nagu eksamitulemuste vahemikud, vastab kumulatiivne sagedus küsimustele nagu "mitu protsenti õpilastest sai 70 või alla selle?" Lihtsalt liidake selle punktini kõikide kategooriate sagedused kokku. See on eriti kasulik, kui peate grupeeritud andmetest leidma mediaane või protsentiilid.
Need kolm samade andmete vaadet (toorsagedus, suhteline sagedus ja kumulatiivne sagedus) annavad tervikliku pildi. Toorloendused näitavad tegelikke arve, suhtelised sagedused võimaldavad andmestike vahelist võrdlust ja kumulatiivsed sagedused aitavad mõista väärtuste jaotumist.
Sagedustabelid numbriliste andmete jaoks
Kui andmed on numbrilised ja pidevad -- nagu vanused, sissetulekud või testitulemused -- ei saa te loetleda iga unikaalset väärtust, sest neid võib olla sadu. Selle asemel grupeeerite väärtused vahemikesse, mida nimetatakse klassideks. Näiteks vanuseid võib grupeerida: 18-25, 26-35, 36-45 jne.
Õige arvu vahemike valimine on oluline. Liiga vähe ja kaotate detailid. Liiga palju ja tabel muutub sama kaootiliseks kui toorandmed. Levinud rusikareegel on kasutada enamiku andmestike jaoks 5 kuni 15 vahemikku. Ülaltoodud histogramm näitab, kuidas vanuse andmed näevad välja kuude vahemikku grupeeerituna, muutes jaotuse kuju ühel pilgul selgeks.
Õpetaja registreerib 30 õpilase eksamitulemused: vahemikus 45 kuni 98. Ta loob sagedustabeli 10-punktiste vahemikega (40-49, 50-59, 60-69, 70-79, 80-89, 90-99). See paljastab, et enamik õpilasi sai tulemuse vahemikus 70 kuni 89, ainult kaks õpilast alla 50. Sagedustabel toob koheselt esile, kuhu klass koondub ja kus on erindid, mida oleks raske näha 30 numbri toornimekirjas.
Risttabeleerimine: kaks muutujat korraga
Sagedustabel käsitleb ühte muutujat. Aga mis siis, kui soovite uurida kahe kategoorilise muutuja vahelist seost? Siin tuleb mängu risttabeleerimine (nimetatakse ka kontingentsitabeliks või kahemõõtmeliseks tabeliks). See loob võrgustiku, kus üks muutuja defineerib read ja teine veerud, loendustega igas lahtris.
Näiteks oletame, et küsitlete töötajaid töörahulolu kohta (rahul, neutraalne, rahulolematu) ja registreerite ka nende osakonna (müük, inseneeria, tugi). Risttabel näitab, mitu töötajat igas osakonnas kuulub igasse rahulolukategooriasse. Nüüd näete ühel pilgul, kas inseneerias on rohkem rahulolematuid töötajaid kui müügis, või kas tugi on eriti õnnelik.
Risttabelid on paljude statistiliste testide, sealhulgas hii-ruut testi lähtepunkt. Need võimaldavad visuaalselt uurida, kas kaks muutujat tunduvad seotud olevat, enne mis tahes formaalse analüüsi tegemist. Uuringuid lugedes näete sageli risttabeleid, mis on esitatud rea- või veeruprotsentidega lihtsamaks võrdluseks.
Tabelite lugemine nagu professionaal
Sagedustabelid ja risttabelid esinevad kõikjal: uudisartiklites, meditsiiniraportites, äripaneelides ja akadeemilistes töödes. Siin on praktilised nõuanded nende heaks lugemiseks. Esiteks kontrollige alati kogusummasid. Kui tabel näitab protsente, kuid mitte aluseks olevaid loendusi, võib valimi suurus olla liiga väike, et protsendid oleksid tähenduslikud ("50% eelistas valikut A" kõlab muljetavaldavalt, kuni saate teada, et küsitleti ainult 4 inimest).
Teiseks pöörake tähelepanu sellele, kuidas kategooriad on defineeritud. Erineva laiusega vahemikud sagedustabelis võivad moonutada teie muljet andmetest. Vahemik "0-10" ja teine "11-50" sisaldab loomulikult rohkem loendusi laiemas vahemikus, isegi kui aluseks olev sagedus on sama.
Kolmandaks otsustage risttabelites, kas rea- või veeruprotsendid on teie küsimusele sobivamad. Kui soovite teada, milline osa igast osakonnast on rahul, kasutage reaprotsente. Kui soovite teada, milline osa rahulolevatest töötajatest tuleb igast osakonnast, kasutage veeruprotsente. Vale suuna valimine võib viia valede järeldusteni.
Sagedustabelid muudavad toorandmed korrastatud kokkuvõteteks, loendades, kui sageli iga väärtus või kategooria esineb. Suhteline sagedus väljendab loendusi osakaaludena lihtsaks võrdluseks ja kumulatiivne sagedus jälgib jooksvaid kogusummasid. Risttabeleerimine laiendab seda kahele muutujale korraga, paljastades mustreid kategooriate omavahelistes seostes. Need lihtsad tööriistad on peaaegu iga andmeanalüüsi esimene samm ja üks praktilisemaid oskusi statistika lugemiseks igapäevaelus.