ডেটা পরিষ্কার

কঠিনতা: প্রাথমিক পড়ার সময়: 10 মিনিট

তথ্য কখনো নিখুঁত নয়

বাস্তব জগতে আপনি যে তথ্যসেটই পাবেন তাতে সমস্যা থাকবে। জরিপের উত্তরদাতারা প্রশ্ন এড়িয়ে যায়। সেন্সর ত্রুটি করে অসম্ভব মান রেকর্ড করে। স্প্রেডশীটে কপি-পেস্ট করে ডুপ্লিকেট সারি তৈরি হয়। কেউ সংখ্যা ক্ষেত্রে "N/A" টাইপ করে। একটি তারিখ "03/04/2025" হিসেবে দেখা যায় এবং আপনি বলতে পারেন না এটা মার্চ ৪ নাকি এপ্রিল ৩।

তথ্য পরিষ্কারকরণ হলো তথ্য বিশ্লেষণ করার আগে এই সমস্যাগুলো খুঁজে বের করা ও ঠিক করার প্রক্রিয়া। এটা জাঁকজমকপূর্ণ কাজ নয়, তবে এটি যেকোনো বিশ্লেষণের সবচেয়ে গুরুত্বপূর্ণ পদক্ষেপ। অভিজ্ঞ তথ্য বিজ্ঞানীরা অনুমান করেন তাদের ৬০-৮০% সময় তথ্য পরিষ্কার ও প্রস্তুত করতে যায়।

60 পরিষ্কারকরণ 20 বিশ্লেষণ 10 প্রতিবেদন 10 সংগ্রহ

উপরের চার্টটি একটি তথ্য প্রকল্পে সময়ের সাধারণ বিভাজন দেখায়। পরিষ্কারকরণ কাজের ভারের প্রধান অংশ, যে কারণে এটি ভালোভাবে শেখা বিশাল লভ্যাংশ দেয়।

অনুপস্থিত মান সামলানো

অনুপস্থিত মান সবচেয়ে সাধারণ তথ্য মানের সমস্যা। একজন গ্রাহক ফর্মে আয়ের ক্ষেত্র ফাঁকা রাখে। একটি আবহাওয়া কেন্দ্র একদিনের জন্য বন্ধ হয়ে যায়। একজন রোগী ফলো-আপ অ্যাপয়েন্টমেন্ট মিস করে।

আপনার কাছে বেশ কয়েকটি বিকল্প আছে। আপনি অনুপস্থিত মান সহ সারি মুছে ফেলতে পারেন, যা সহজ কিন্তু তথ্যসেট ছোট করে। আপনি কলামের গড়, মধ্যমা বা আরও উন্নত পূর্বাভাস মডেল ব্যবহার করে অনুপস্থিত মান পূরণ (ইমপিউট) করতে পারেন। অথবা অনুপস্থিত মানগুলো চিহ্নিত করে আপনার বিশ্লেষণে একটি পৃথক চলক হিসাবে অন্তর্ভুক্ত করতে পারেন।

সঠিক পদ্ধতি নির্ভর করে কতটুকু তথ্য অনুপস্থিত এবং কেন। শুধু ২% সারিতে অনুপস্থিত মান থাকলে এবং সেগুলো দৈব হলে, মুছে ফেলা সাধারণত ঠিক আছে। একটি কলামের ৩০% অনুপস্থিত থাকলে, মোছা খুব বেশি তথ্য ফেলে দেবে।

প্রতিলিপি সনাক্ত ও অপসারণ

প্রতিলিপি রেকর্ড আপনার ফলাফল স্ফীত করতে পারে। একজন গ্রাহকের কেনাকাটা দুইবার দেখালে আপনি রাজস্ব বেশি গণনা করবেন। প্রতিলিপি তথ্য একত্রীকরণ, ফর্ম পুনরায় জমা, সিস্টেম ত্রুটি এবং ম্যানুয়াল তথ্য প্রবেশের ত্রুটি থেকে ঢুকে পড়ে।

10500 পরিষ্কারের আগে 420 প্রতিলিপি অপসারিত 10080 পরিষ্কারের পরে

বহিঃস্থ মান সামলানো

একটি বহিঃস্থ মান হলো এমন একটি মান যা বাকি তথ্য থেকে নাটকীয়ভাবে ভিন্ন। বহিঃস্থ মানের ক্ষেত্রে গুরুত্বপূর্ণ প্রশ্ন হলো সেগুলো বৈধ নাকি ত্রুটি। ত্রুটির ক্ষেত্রে সংশোধন বা অপসারণ উপযুক্ত। বৈধ বহিঃস্থ মানের ক্ষেত্রে আপনার বিকল্প আছে: রেখে দিন এবং শক্তিশালী পরিসংখ্যান ব্যবহার করুন, যুক্তিসংগত সীমায় সীমাবদ্ধ করুন, অথবা আলাদাভাবে বিশ্লেষণ করুন। শুধু অস্বাভাবিক বলে কখনো স্বয়ংক্রিয়ভাবে বহিঃস্থ মান মুছবেন না।

তথ্যের ধরনের সমস্যা

কম্পিউটার সংখ্যা, পাঠ্য, তারিখ এবং বিভাগকে ভিন্নভাবে বিবেচনা করে। একটি সংখ্যা কলামে ভুলবশত পাঠ্য মান (যেমন "N/A" বা "TBD") থাকলে গণনা ব্যর্থ হবে। তারিখ অসামঞ্জস্যভাবে সংরক্ষিত থাকলে সাজানো ও ফিল্টারিং ভাঙবে। একটি বিভাগ বিভিন্ন সারিতে ভিন্নভাবে বানান করা হলে সফটওয়্যার সেগুলো আলাদা গোষ্ঠী হিসাবে বিবেচনা করবে।

সাধারণ ভুল

একটি সাধারণ ভুল হলো ব্যাকআপ না রেখে মূল তথ্য পরিষ্কার করা। সবসময় একটি কপিতে কাজ করুন। আরেকটি হলো অতিরিক্ত পরিষ্কার করা -- এত বেশি সারি ও মান অপসারণ করা যে বাকি তথ্য আর প্রতিনিধিত্বমূলক নয়। সবচেয়ে ভালো প্রতিরক্ষা হলো একটি পরিষ্কারকরণ লগ রাখা: আপনি কী পরিবর্তন করেছেন, কেন করেছেন এবং কতগুলো রেকর্ড প্রভাবিত হয়েছে তার রেকর্ড।

মূল শিক্ষা

তথ্য পরিষ্কারকরণ হলো সেই জাঁকজমকহীন ভিত্তি যার উপর প্রতিটি নির্ভরযোগ্য বিশ্লেষণ নির্মিত। অনুপস্থিত মান চিন্তাশীলভাবে সামলান, প্রতিলিপি সাবধানে অপসারণ করুন, বহিঃস্থ মান মোছার আগে তদন্ত করুন এবং তথ্যের ধরন সামঞ্জস্যপূর্ণভাবে মানসম্মত করুন। সবসময় একটি কপিতে কাজ করুন, প্রতিটি পরিবর্তন নথিবদ্ধ করুন এবং মনে রাখুন: তথ্য পরিষ্কার করতে আপনি যে সময় বিনিয়োগ করেন তা আপনাকে এমন সিদ্ধান্ত টানা থেকে বাঁচাবে যা তথ্য আসলে সমর্থন করে না।