Miks andmed ei ole kunagi täiuslikud
Igal andmestikul, millega reaalmaailmas kokku puutute, on probleeme. Küsitluse vastajad jätavad küsimused vahele. Andurid töötavad valesti ja salvestavad võimatuid väärtusi. Tabelitesse tekivad kopeerimise-kleepimise teel korduvad read. Keegi kirjutab numbrilisse välja "puudub". Kuupäev ilmub kujul "03/04/2025" ja pole selge, kas see tähendab 4. märtsi või 3. aprilli.
Andmete puhastamine on nende probleemide leidmise ja parandamise protsess enne andmete analüüsimist. See ei ole glamuurne töö, kuid see on vaieldamatult kõige olulisem samm igas analüüsis. Kogenud andmeteadlased hindavad, et 60-80% nende ajast kulub andmete puhastamisele ja ettevalmistamisele. Jätke see samm vahele ja teie tulemused võivad olla mõttetud -- või veelgi hullem, enesekindlalt valed.
Ülaltoodud graafik näitab andmeprojekti tüüpilist ajajaotust. Puhastamine domineerib töökoormuses, mistõttu selle hea õppimine tasub end rikkalikult ära.
Puuduvate väärtuste käsitlemine
Puuduvad väärtused on kõige levinum andmekvaliteedi probleem. Klient jätab vormil sissetuleku välja tühjaks. Ilmajaam läheb päevaks võrguühenduseta. Patsient jätab järelkontrolli vahele. Küsimus on: mida te selle kohta teete?
Teil on mitu valikuvõimalust, igaühel oma kompromissid. Saate puuduvate väärtustega read kustutada, mis on lihtne, kuid kahandab teie andmestikku ja võib tekitada kallutatust, kui puudumine ei ole juhuslik (näiteks kõrge sissetulekuga inimesed võivad sissetuleku küsimused sagedamini vahele jätta). Saate puuduvad väärtused täita (imputeerida) veeru keskmise, mediaani või keerukama ennustusmudeli abil. Või saate puuduvad väärtused märgistada ja kaasata puudumise eraldi muutujana oma analüüsi.
Õige lähenemine sõltub sellest, kui palju andmeid puudub ja miks. Kui ainult 2% ridadest on puuduvate väärtustega ja need näivad juhuslikud, on nende ridade kustutamine tavaliselt korras. Kui 30% veerust puudub, viskab kustutamine liiga palju andmeid minema ja vajalik on imputeerimine või erinev analüütiline lähenemine.
Duplikaatide tuvastamine ja eemaldamine
Duplikaatkirjed võivad teie tulemusi paisutada ja moonutada iga arvutatavat statistilist näitajat. Kui kliendi ost ilmub teie andmebaasis kaks korda, loete tulu üle ja hindate tehingute arvu üle. Duplikaadid hiiluvad sisse andmete liitmise, vormide korduvesitamise, süsteemitõrgete ja käsitsi andmesisestuse vigade kaudu.
Duplikaatide leidmine ei ole alati lihtne. Täpsed duplikaadid (identsed read) on lihtne tuvastada. Aga kuidas on lugu "Jaan Tamm" aadressil "Pärnu mnt 123" ja "J. Tamm" aadressil "Pärnu maantee 123"? Need on tõenäoliselt sama isik väikeste erinevustega. Hägusa sobitamise tehnikad aitavad tuvastada lähedasi duplikaate, kuid nõuavad otsuseid selle kohta, kui sarnased peavad kaks kirjet olema enne nende ühendamist.
Erinditega tegelemine
Erind on väärtus, mis erineb ülejäänud andmetest dramaatiliselt. 5 000 000$ palk keskastme töötajate andmestikus. -40-kraadine temperatuurinäit Miami's juulis. 72 tundi kestev veebisessioon.
Erindite puhul on kriitiline küsimus, kas need on õiguspärased või vead. Tegevjuhi 5 miljoni dollari suurune palk on tegelik -- see lihtsalt esindab teist populatsiooni. -40 kraadi Miami's on peaaegu kindlasti anduri viga. 72-tunnine veebisessioon võib olla keegi, kes jättis vahekaardi lahti.
Vigade puhul on parandamine või eemaldamine asjakohane. Õiguspäraste erindite puhul on teil valikud: hoidke need alles ja kasutage vastupidavaid statistikuid (nagu mediaan keskmise asemel), piirake neid mõistliku künniseni (nn winsoriseerimine) või analüüsige neid eraldi. Ärge kunagi kustutage erindeid automaatselt lihtsalt sellepärast, et need on ebatavalised -- uurige alati esmalt, miks need eksisteerivad.
Andmetüübi probleemid
Arvutid kohtlevad numbreid, teksti, kuupäevi ja kategooriaid erinevalt. Kui numbriline veerg sisaldab kogemata tekstiväärtusi (nagu "puudub" või "teadmata"), arvutused nurjuvad või tekitavad vigu. Kui kuupäevad on salvestatud ebajärjekindlalt (mõned kujul "2025-03-15" ja teised kujul "15/03/2025"), läheb sortimine ja filtreerimine katki. Kui kategooria on erinevates ridades erinevalt kirjutatud ("EE", "EST", "Eesti"), käsitleb tarkvara neid kolme eraldi grupina.
Andmetüübi puhastamine hõlmab formaatide standardiseerimist, stringide teisendamist numbriteks vajadusel, kuupäevade parsimist ühtlasesse formaati ja kategooriaetikettide ühtlustamist. See on tüütu, kuid hädavajalik. Üksainus ekslik tekstiväärtus numbriveeru numbrilises veerus võib terve analüüsitoru kokku kukutada.
Levinud lõksud
Isegi kogenud analüütikud teevad andmete puhastamisel vigu. Üks levinud lõks on algandmete puhastamine ilma varukoopiat salvestamata. Töötage alati koopiaga. Teine on ülepuhastamine -- nii paljude ridade ja väärtuste eemaldamine, et allesjäänud andmed ei ole enam esinduslikud. Kolmas on ebajärjekindel puhastamine -- erinevate reeglite rakendamine andmestiku erinevatele osadele ilma dokumenteerimata, miks.
Parim kaitse on puhastamispäevik: iga tehtud muudatuse, selle põhjuse ja mõjutatud kirjete arvu kirje. See muudab teie töö korratavaks ja auditeeritavaks. Kui keegi kahtleb teie tulemustes, saate osutada päevikule ja näidata täpselt, mis juhtus toorandmetega enne analüüsi algust.
Andmete puhastamine on tagasihoidlik alus, millele iga usaldusväärne analüüs tugineb. Käsitlege puuduvaid väärtusi läbimõeldult, eemaldage duplikaadid hoolikalt, uurige erindeid enne nende kustutamist ja standardiseerige andmetüüpe järjepidevalt. Töötage alati koopiaga, dokumenteerige iga muudatus ja pidage meeles: andmete puhastamisele investeeritud aeg päästab teid järelduste tegemisest, mida andmed tegelikult ei toeta.