What is data cleaning in statistics?

Data cleaning is the process of fixing or removing incorrect, incomplete, duplicate, or irrelevant data before analysis.

Why is data cleaning important?

Poor data quality leads to inaccurate analysis and wrong conclusions. Cleaning typically takes 60-80% of a data project's time.

How do you handle missing data?

Options include deleting rows with missing values, imputing with the mean or median, using regression imputation, or applying multiple imputation.

What are common data quality issues?

Duplicate records, missing values, inconsistent formatting, typos, wrong data types, and outdated entries are the most frequent data quality issues.

ডেটা পরিষ্কার

তথ্য কখনো নিখুঁত নয়

বাস্তব জগতে আপনি যে তথ্যসেটই পাবেন তাতে সমস্যা থাকবে। জরিপের উত্তরদাতারা প্রশ্ন এড়িয়ে যায়। সেন্সর ত্রুটি করে অসম্ভব মান রেকর্ড করে। স্প্রেডশীটে কপি-পেস্ট করে ডুপ্লিকেট সারি তৈরি হয়। কেউ সংখ্যা ক্ষেত্রে "N/A" টাইপ করে। একটি তারিখ "03/04/2025" হিসেবে দেখা যায় এবং আপনি বলতে পারেন না এটা মার্চ ৪ নাকি এপ্রিল ৩।

তথ্য পরিষ্কারকরণ হলো তথ্য বিশ্লেষণ করার আগে এই সমস্যাগুলো খুঁজে বের করা ও ঠিক করার প্রক্রিয়া। এটা জাঁকজমকপূর্ণ কাজ নয়, তবে এটি যেকোনো বিশ্লেষণের সবচেয়ে গুরুত্বপূর্ণ পদক্ষেপ। অভিজ্ঞ তথ্য বিজ্ঞানীরা অনুমান করেন তাদের ৬০-৮০% সময় তথ্য পরিষ্কার ও প্রস্তুত করতে যায়।

উপরের চার্টটি একটি তথ্য প্রকল্পে সময়ের সাধারণ বিভাজন দেখায়। পরিষ্কারকরণ কাজের ভারের প্রধান অংশ, যে কারণে এটি ভালোভাবে শেখা বিশাল লভ্যাংশ দেয়।

অনুপস্থিত মান সামলানো

অনুপস্থিত মান সবচেয়ে সাধারণ তথ্য মানের সমস্যা। একজন গ্রাহক ফর্মে আয়ের ক্ষেত্র ফাঁকা রাখে। একটি আবহাওয়া কেন্দ্র একদিনের জন্য বন্ধ হয়ে যায়। একজন রোগী ফলো-আপ অ্যাপয়েন্টমেন্ট মিস করে।

আপনার কাছে বেশ কয়েকটি বিকল্প আছে। আপনি অনুপস্থিত মান সহ সারি মুছে ফেলতে পারেন, যা সহজ কিন্তু তথ্যসেট ছোট করে। আপনি কলামের গড়, মধ্যমা বা আরও উন্নত পূর্বাভাস মডেল ব্যবহার করে অনুপস্থিত মান পূরণ (ইমপিউট) করতে পারেন। অথবা অনুপস্থিত মানগুলো চিহ্নিত করে আপনার বিশ্লেষণে একটি পৃথক চলক হিসাবে অন্তর্ভুক্ত করতে পারেন।

সঠিক পদ্ধতি নির্ভর করে কতটুকু তথ্য অনুপস্থিত এবং কেন। শুধু ২% সারিতে অনুপস্থিত মান থাকলে এবং সেগুলো দৈব হলে, মুছে ফেলা সাধারণত ঠিক আছে। একটি কলামের ৩০% অনুপস্থিত থাকলে, মোছা খুব বেশি তথ্য ফেলে দেবে।

প্রতিলিপি সনাক্ত ও অপসারণ

প্রতিলিপি রেকর্ড আপনার ফলাফল স্ফীত করতে পারে। একজন গ্রাহকের কেনাকাটা দুইবার দেখালে আপনি রাজস্ব বেশি গণনা করবেন। প্রতিলিপি তথ্য একত্রীকরণ, ফর্ম পুনরায় জমা, সিস্টেম ত্রুটি এবং ম্যানুয়াল তথ্য প্রবেশের ত্রুটি থেকে ঢুকে পড়ে।

বহিঃস্থ মান সামলানো

একটি বহিঃস্থ মান হলো এমন একটি মান যা বাকি তথ্য থেকে নাটকীয়ভাবে ভিন্ন। বহিঃস্থ মানের ক্ষেত্রে গুরুত্বপূর্ণ প্রশ্ন হলো সেগুলো বৈধ নাকি ত্রুটি। ত্রুটির ক্ষেত্রে সংশোধন বা অপসারণ উপযুক্ত। বৈধ বহিঃস্থ মানের ক্ষেত্রে আপনার বিকল্প আছে: রেখে দিন এবং শক্তিশালী পরিসংখ্যান ব্যবহার করুন, যুক্তিসংগত সীমায় সীমাবদ্ধ করুন, অথবা আলাদাভাবে বিশ্লেষণ করুন। শুধু অস্বাভাবিক বলে কখনো স্বয়ংক্রিয়ভাবে বহিঃস্থ মান মুছবেন না।

তথ্যের ধরনের সমস্যা

কম্পিউটার সংখ্যা, পাঠ্য, তারিখ এবং বিভাগকে ভিন্নভাবে বিবেচনা করে। একটি সংখ্যা কলামে ভুলবশত পাঠ্য মান (যেমন "N/A" বা "TBD") থাকলে গণনা ব্যর্থ হবে। তারিখ অসামঞ্জস্যভাবে সংরক্ষিত থাকলে সাজানো ও ফিল্টারিং ভাঙবে। একটি বিভাগ বিভিন্ন সারিতে ভিন্নভাবে বানান করা হলে সফটওয়্যার সেগুলো আলাদা গোষ্ঠী হিসাবে বিবেচনা করবে।

সাধারণ ভুল

একটি সাধারণ ভুল হলো ব্যাকআপ না রেখে মূল তথ্য পরিষ্কার করা। সবসময় একটি কপিতে কাজ করুন। আরেকটি হলো অতিরিক্ত পরিষ্কার করা -- এত বেশি সারি ও মান অপসারণ করা যে বাকি তথ্য আর প্রতিনিধিত্বমূলক নয়। সবচেয়ে ভালো প্রতিরক্ষা হলো একটি পরিষ্কারকরণ লগ রাখা: আপনি কী পরিবর্তন করেছেন, কেন করেছেন এবং কতগুলো রেকর্ড প্রভাবিত হয়েছে তার রেকর্ড।

মূল শিক্ষা

তথ্য পরিষ্কারকরণ হলো সেই জাঁকজমকহীন ভিত্তি যার উপর প্রতিটি নির্ভরযোগ্য বিশ্লেষণ নির্মিত। অনুপস্থিত মান চিন্তাশীলভাবে সামলান, প্রতিলিপি সাবধানে অপসারণ করুন, বহিঃস্থ মান মোছার আগে তদন্ত করুন এবং তথ্যের ধরন সামঞ্জস্যপূর্ণভাবে মানসম্মত করুন। সবসময় একটি কপিতে কাজ করুন, প্রতিটি পরিবর্তন নথিবদ্ধ করুন এবং মনে রাখুন: তথ্য পরিষ্কার করতে আপনি যে সময় বিনিয়োগ করেন তা আপনাকে এমন সিদ্ধান্ত টানা থেকে বাঁচাবে যা তথ্য আসলে সমর্থন করে না।