তথ্য কখনো নিখুঁত নয়
বাস্তব জগতে আপনি যে তথ্যসেটই পাবেন তাতে সমস্যা থাকবে। জরিপের উত্তরদাতারা প্রশ্ন এড়িয়ে যায়। সেন্সর ত্রুটি করে অসম্ভব মান রেকর্ড করে। স্প্রেডশীটে কপি-পেস্ট করে ডুপ্লিকেট সারি তৈরি হয়। কেউ সংখ্যা ক্ষেত্রে "N/A" টাইপ করে। একটি তারিখ "03/04/2025" হিসেবে দেখা যায় এবং আপনি বলতে পারেন না এটা মার্চ ৪ নাকি এপ্রিল ৩।
তথ্য পরিষ্কারকরণ হলো তথ্য বিশ্লেষণ করার আগে এই সমস্যাগুলো খুঁজে বের করা ও ঠিক করার প্রক্রিয়া। এটা জাঁকজমকপূর্ণ কাজ নয়, তবে এটি যেকোনো বিশ্লেষণের সবচেয়ে গুরুত্বপূর্ণ পদক্ষেপ। অভিজ্ঞ তথ্য বিজ্ঞানীরা অনুমান করেন তাদের ৬০-৮০% সময় তথ্য পরিষ্কার ও প্রস্তুত করতে যায়।
উপরের চার্টটি একটি তথ্য প্রকল্পে সময়ের সাধারণ বিভাজন দেখায়। পরিষ্কারকরণ কাজের ভারের প্রধান অংশ, যে কারণে এটি ভালোভাবে শেখা বিশাল লভ্যাংশ দেয়।
অনুপস্থিত মান সামলানো
অনুপস্থিত মান সবচেয়ে সাধারণ তথ্য মানের সমস্যা। একজন গ্রাহক ফর্মে আয়ের ক্ষেত্র ফাঁকা রাখে। একটি আবহাওয়া কেন্দ্র একদিনের জন্য বন্ধ হয়ে যায়। একজন রোগী ফলো-আপ অ্যাপয়েন্টমেন্ট মিস করে।
আপনার কাছে বেশ কয়েকটি বিকল্প আছে। আপনি অনুপস্থিত মান সহ সারি মুছে ফেলতে পারেন, যা সহজ কিন্তু তথ্যসেট ছোট করে। আপনি কলামের গড়, মধ্যমা বা আরও উন্নত পূর্বাভাস মডেল ব্যবহার করে অনুপস্থিত মান পূরণ (ইমপিউট) করতে পারেন। অথবা অনুপস্থিত মানগুলো চিহ্নিত করে আপনার বিশ্লেষণে একটি পৃথক চলক হিসাবে অন্তর্ভুক্ত করতে পারেন।
সঠিক পদ্ধতি নির্ভর করে কতটুকু তথ্য অনুপস্থিত এবং কেন। শুধু ২% সারিতে অনুপস্থিত মান থাকলে এবং সেগুলো দৈব হলে, মুছে ফেলা সাধারণত ঠিক আছে। একটি কলামের ৩০% অনুপস্থিত থাকলে, মোছা খুব বেশি তথ্য ফেলে দেবে।
প্রতিলিপি সনাক্ত ও অপসারণ
প্রতিলিপি রেকর্ড আপনার ফলাফল স্ফীত করতে পারে। একজন গ্রাহকের কেনাকাটা দুইবার দেখালে আপনি রাজস্ব বেশি গণনা করবেন। প্রতিলিপি তথ্য একত্রীকরণ, ফর্ম পুনরায় জমা, সিস্টেম ত্রুটি এবং ম্যানুয়াল তথ্য প্রবেশের ত্রুটি থেকে ঢুকে পড়ে।
বহিঃস্থ মান সামলানো
একটি বহিঃস্থ মান হলো এমন একটি মান যা বাকি তথ্য থেকে নাটকীয়ভাবে ভিন্ন। বহিঃস্থ মানের ক্ষেত্রে গুরুত্বপূর্ণ প্রশ্ন হলো সেগুলো বৈধ নাকি ত্রুটি। ত্রুটির ক্ষেত্রে সংশোধন বা অপসারণ উপযুক্ত। বৈধ বহিঃস্থ মানের ক্ষেত্রে আপনার বিকল্প আছে: রেখে দিন এবং শক্তিশালী পরিসংখ্যান ব্যবহার করুন, যুক্তিসংগত সীমায় সীমাবদ্ধ করুন, অথবা আলাদাভাবে বিশ্লেষণ করুন। শুধু অস্বাভাবিক বলে কখনো স্বয়ংক্রিয়ভাবে বহিঃস্থ মান মুছবেন না।
তথ্যের ধরনের সমস্যা
কম্পিউটার সংখ্যা, পাঠ্য, তারিখ এবং বিভাগকে ভিন্নভাবে বিবেচনা করে। একটি সংখ্যা কলামে ভুলবশত পাঠ্য মান (যেমন "N/A" বা "TBD") থাকলে গণনা ব্যর্থ হবে। তারিখ অসামঞ্জস্যভাবে সংরক্ষিত থাকলে সাজানো ও ফিল্টারিং ভাঙবে। একটি বিভাগ বিভিন্ন সারিতে ভিন্নভাবে বানান করা হলে সফটওয়্যার সেগুলো আলাদা গোষ্ঠী হিসাবে বিবেচনা করবে।
সাধারণ ভুল
একটি সাধারণ ভুল হলো ব্যাকআপ না রেখে মূল তথ্য পরিষ্কার করা। সবসময় একটি কপিতে কাজ করুন। আরেকটি হলো অতিরিক্ত পরিষ্কার করা -- এত বেশি সারি ও মান অপসারণ করা যে বাকি তথ্য আর প্রতিনিধিত্বমূলক নয়। সবচেয়ে ভালো প্রতিরক্ষা হলো একটি পরিষ্কারকরণ লগ রাখা: আপনি কী পরিবর্তন করেছেন, কেন করেছেন এবং কতগুলো রেকর্ড প্রভাবিত হয়েছে তার রেকর্ড।
তথ্য পরিষ্কারকরণ হলো সেই জাঁকজমকহীন ভিত্তি যার উপর প্রতিটি নির্ভরযোগ্য বিশ্লেষণ নির্মিত। অনুপস্থিত মান চিন্তাশীলভাবে সামলান, প্রতিলিপি সাবধানে অপসারণ করুন, বহিঃস্থ মান মোছার আগে তদন্ত করুন এবং তথ্যের ধরন সামঞ্জস্যপূর্ণভাবে মানসম্মত করুন। সবসময় একটি কপিতে কাজ করুন, প্রতিটি পরিবর্তন নথিবদ্ধ করুন এবং মনে রাখুন: তথ্য পরিষ্কার করতে আপনি যে সময় বিনিয়োগ করেন তা আপনাকে এমন সিদ্ধান্ত টানা থেকে বাঁচাবে যা তথ্য আসলে সমর্থন করে না।