Kwa Nini Data Haiwahi Kuwa Kamili
Kila seti ya data unayokutana nayo katika ulimwengu halisi itakuwa na matatizo. Wahojiwa wa uchunguzi wanaruka maswali. Sensori zinashindwa na kurekodi thamani zisizowezekana. Lahajedwali zinakopishwa na kupata safu za nakala. Mtu anachapa "Haipo" kwenye sehemu ya nambari. Tarehe inaonekana kama "03/04/2025" na huwezi kujua ikiwa ina maana Machi 4 au Aprili 3.
Usafishaji wa data ni mchakato wa kupata na kurekebisha matatizo haya kabla ya kuchambua data. Si kazi ya kuvutia, lakini bila shaka ni hatua muhimu zaidi katika uchambuzi wowote. Wanasayansi wa data wenye uzoefu wanakadiria kuwa 60-80% ya muda wao unaenda katika kusafisha na kuandaa data. Ruka hatua hii, na matokeo yako yanaweza kuwa yasiyo na maana -- au mbaya zaidi, yasiyo sahihi kwa ujasiri.
Chati hapo juu inaonyesha mgawanyo wa kawaida wa muda katika mradi wa data. Usafishaji unatawala kazi, ndiyo maana kujifunza kuifanya vizuri kunalipa faida kubwa.
Kushughulikia Thamani Zinazokosekana
Thamani zinazokosekana ni tatizo la kawaida zaidi la ubora wa data. Mteja anaacha sehemu ya mapato tupu kwenye fomu. Kituo cha hali ya hewa kinakwenda nje ya mtandao kwa siku moja. Mgonjwa anakosa miadi ya ufuatiliaji.
Una chaguzi kadhaa, kila moja ikiwa na ubadilishanaji. Unaweza kufuta safu zenye thamani zinazokosekana, ambayo ni rahisi lakini inapunguza seti yako ya data na inaweza kuleta upendeleo ikiwa kukosekana si kwa nasibu (kwa mfano, watu wenye mapato ya juu wanaweza kuruka maswali ya mapato mara nyingi). Unaweza kujaza (kubuni) thamani zinazokosekana kwa kutumia wastani wa safu, kati, au mfano wa utabiri wa kisasa zaidi. Au unaweza kuweka alama thamani zinazokosekana na kujumuisha kukosekana kama kigezo tofauti katika uchambuzi wako.
Njia sahihi inategemea ni kiasi gani cha data kinakosekana na kwa nini. Ikiwa 2% tu ya safu zina thamani zinazokosekana na zinaonekana za nasibu, kufuta safu hizo kawaida ni sawa. Ikiwa 30% ya safu inakosekana, kufuta kungetupa data nyingi sana na ubunaji au njia nyingine ya uchambuzi inahitajika.
Kugundua na Kuondoa Nakala
Rekodi za nakala zinaweza kuzidisha matokeo yako na kupotosha kila takwimu unayohesabu. Ikiwa manunuzi ya mteja yanaonekana mara mbili katika hifadhi yako ya data, utahesabu mapato kupita kiasi na kukadiria idadi ya miamala kupita kiasi. Nakala zinaingia kupitia muunganisho wa data, uwasilishaji tena wa fomu, hitilafu za mfumo, na makosa ya kuingiza data kwa mkono.
Kupata nakala si rahisi kila wakati. Nakala kamili (safu zinazofanana) ni rahisi kutambua. Lakini vipi kuhusu "Juma Hamisi" kwenye "Barabara 123 Kuu" na "J. Hamisi" kwenye "Barabara 123 Kuu"? Hawa pengine ni mtu yule yule na tofauti ndogo. Mbinu za kulinganisha za takriban zinaweza kusaidia kutambua karibu-nakala, lakini zinahitaji maamuzi kuhusu jinsi rekodi mbili zinavyohitaji kufanana kabla ya kuzichanganya.
Kushughulikia Thamani za Kupindukia
Thamani ya kupindukia ni thamani inayotofautiana sana na data nyingine. Mshahara wa $5,000,000 katika seti ya data ya wafanyakazi wa kati. Halijoto ya -40 digrii Miami mnamo Julai. Kipindi cha tovuti kinachochukua masaa 72.
Swali muhimu na thamani za kupindukia ni kama ni halisi au makosa. Mshahara wa Mkurugenzi Mkuu wa $5 milioni ni wa kweli -- unawakilisha tu idadi tofauti ya watu. Halijoto ya -40 Miami ni karibu hakika hitilafu ya sensori. Kipindi cha tovuti cha masaa 72 kinaweza kuwa mtu aliyeacha tab wazi.
Kwa makosa, marekebisho au kuondoa ni sahihi. Kwa thamani za kupindukia halisi, una chaguzi: ziweke na utumie takwimu imara (kama kati badala ya wastani), ziweke kikomo cha busara (kinachoitwa winsorizing), au zichambue tofauti. Kamwe usifute thamani za kupindukia kiotomatiki tu kwa sababu ni za kawaida -- daima chunguza kwa nini zipo kwanza.
Matatizo ya Aina za Data
Kompyuta zinashughulikia nambari, maandishi, tarehe, na makundi kwa njia tofauti. Ikiwa safu ya nambari kwa bahati ina thamani za maandishi (kama "Haipo" au "Inakuja"), hesabu zitashindwa au kuzalisha makosa. Ikiwa tarehe zimehifadhiwa kwa njia tofauti (baadhi kama "2025-03-15" na nyingine kama "15/03/2025"), kupanga na kuchuja kutavunjika. Ikiwa jamii imeandikwa tofauti katika safu tofauti ("Tanzania", "TZ", "Jamhuri ya Muungano"), programu itazishughulikia kama vikundi vitatu tofauti.
Usafishaji wa aina za data unahusisha kusanifisha muundo, kubadilisha maandishi kuwa nambari inapofaa, kuchambua tarehe kuwa muundo thabiti, na kuoanisha lebo za makundi. Ni kazi ya kuchosha lakini muhimu. Thamani moja ya maandishi potovu katika safu ya nambari inaweza kusababisha bomba zima la uchambuzi kuanguka.
Mitego ya Kawaida
Hata wachambuzi wenye uzoefu wanafanya makosa wakati wa usafishaji wa data. Mtego mmoja wa kawaida ni kusafisha data ya asili bila kuhifadhi nakala. Daima fanya kazi kwenye nakala. Mwingine ni kusafisha kupita kiasi -- kuondoa safu na thamani nyingi hadi data iliyobaki si ya kuwakilisha tena. Wa tatu ni kusafisha bila uthabiti -- kutumia sheria tofauti kwa sehemu tofauti za seti ya data bila kuandika kwa nini.
Ulinzi bora ni kuweka kumbukumbu ya usafishaji: rekodi ya kila mabadiliko uliyoyafanya, kwa nini uliyafanya, na rekodi ngapi ziliathiriwa. Hii inafanya kazi yako kuwa ya kurudiwa na ya kukaguliwa. Ikiwa mtu anauliza kuhusu matokeo yako, unaweza kuonyesha kumbukumbu na kuonyesha hasa nini kilitokea kwa data mbichi kabla ya uchambuzi kuanza.
Usafishaji wa data ni msingi usiopendwa ambao kila uchambuzi wa kuaminika umejengwa juu yake. Shughulikia thamani zinazokosekana kwa uangalifu, ondoa nakala kwa makini, chunguza thamani za kupindukia kabla ya kuzifuta, na sanifisha aina za data kwa uthabiti. Daima fanya kazi kwenye nakala, andika kila mabadiliko, na kumbuka: muda unaowekeza katika kusafisha data yako utakuokoa kutoka kwa kutoa hitimisho ambazo data hazithibitishi kweli.