What is data cleaning in statistics?

Data cleaning is the process of fixing or removing incorrect, incomplete, duplicate, or irrelevant data before analysis.

Why is data cleaning important?

Poor data quality leads to inaccurate analysis and wrong conclusions. Cleaning typically takes 60-80% of a data project's time.

How do you handle missing data?

Options include deleting rows with missing values, imputing with the mean or median, using regression imputation, or applying multiple imputation.

What are common data quality issues?

Duplicate records, missing values, inconsistent formatting, typos, wrong data types, and outdated entries are the most frequent data quality issues.

Pembersihan Data

Mengapa data tidak pernah sempurna

Setiap kumpulan data yang Anda temui di dunia nyata akan memiliki masalah. Responden survei melewatkan pertanyaan. Sensor rusak dan mencatat nilai yang mustahil. Spreadsheet dicopy-paste dengan baris duplikat. Seseorang mengetik "N/A" di kolom numerik. Tanggal muncul sebagai "03/04/2025" dan Anda tidak bisa memastikan apakah itu 3 April atau 4 Maret.

Pembersihan data adalah proses menemukan dan memperbaiki masalah-masalah ini sebelum Anda menganalisis data. Ini bukan pekerjaan yang glamor, tapi bisa dibilang langkah paling penting dalam analisis apa pun. Ilmuwan data berpengalaman memperkirakan bahwa 60-80% waktu mereka dihabiskan untuk membersihkan dan menyiapkan data. Lewatkan langkah ini, dan hasil Anda bisa tidak bermakna -- atau lebih buruk, salah dengan penuh keyakinan.

Grafik di atas menunjukkan pembagian waktu tipikal dalam proyek data. Pembersihan mendominasi beban kerja, itulah mengapa belajar melakukannya dengan baik sangat bermanfaat.

Menangani nilai yang hilang

Nilai yang hilang adalah masalah kualitas data paling umum. Pelanggan mengosongkan kolom pendapatan di formulir. Stasiun cuaca mati selama sehari. Pasien melewatkan janji tindak lanjut. Pertanyaannya: apa yang harus dilakukan?

Anda memiliki beberapa opsi, masing-masing dengan trade-off-nya. Anda bisa menghapus baris dengan nilai yang hilang, yang sederhana tapi menyusutkan kumpulan data dan bisa memperkenalkan bias jika kehilangan data tidak acak (misalnya, orang berpendapatan tinggi mungkin lebih sering melewatkan pertanyaan pendapatan). Anda bisa mengisi (imputasi) nilai yang hilang menggunakan rata-rata kolom, median, atau model prediksi yang lebih canggih. Atau Anda bisa menandai nilai yang hilang dan memasukkan ketiadaan data sebagai variabel terpisah dalam analisis.

Pendekatan yang tepat tergantung pada berapa banyak data yang hilang dan mengapa. Jika hanya 2% baris memiliki nilai yang hilang dan tampak acak, menghapus baris tersebut biasanya tidak masalah. Jika 30% kolom hilang, penghapusan akan membuang terlalu banyak data dan diperlukan imputasi atau pendekatan analitis berbeda.

Mendeteksi dan menghapus duplikat

Catatan duplikat dapat menginflasi hasil Anda dan mendistorsi setiap statistik yang Anda hitung. Jika pembelian pelanggan muncul dua kali dalam database, Anda akan menghitung pendapatan berlebih dan memperkirakan jumlah transaksi berlebih. Duplikat menyusup melalui penggabungan data, pengiriman formulir ulang, gangguan sistem, dan kesalahan entri data manual.

Menemukan duplikat tidak selalu mudah. Duplikat persis (baris identik) mudah dideteksi. Tapi bagaimana dengan "Budi Santoso" di "Jl. Merdeka 123" dan "B. Santoso" di "Jl Merdeka 123"? Kemungkinan besar ini orang yang sama dengan sedikit variasi. Teknik pencocokan fuzzy dapat membantu mengidentifikasi hampir-duplikat, tapi memerlukan penilaian tentang seberapa mirip dua catatan harus sebelum digabungkan.

Menangani outlier

Outlier adalah nilai yang sangat berbeda dari sisa data. Gaji $5.000.000 dalam kumpulan data karyawan level menengah. Pembacaan suhu -40 derajat di Jakarta pada Juli. Sesi situs web yang berlangsung 72 jam.

Pertanyaan kritis dengan outlier adalah apakah mereka sah atau kesalahan. Gaji CEO $5 juta itu nyata -- hanya mewakili populasi yang berbeda. Suhu -40 di Jakarta hampir pasti kesalahan sensor. Sesi web 72 jam mungkin seseorang yang membiarkan tab terbuka.

Untuk kesalahan, koreksi atau penghapusan adalah tepat. Untuk outlier yang sah, Anda memiliki opsi: pertahankan dan gunakan statistik yang kokoh (seperti median daripada rata-rata), batasi pada ambang yang wajar (disebut winsorizing), atau analisis secara terpisah. Jangan pernah secara otomatis menghapus outlier hanya karena mereka tidak biasa -- selalu selidiki dahulu mengapa mereka ada.

Masalah tipe data

Komputer memperlakukan angka, teks, tanggal, dan kategori secara berbeda. Jika kolom numerik secara tidak sengaja berisi nilai teks (seperti "N/A" atau "TBD"), perhitungan akan gagal atau menghasilkan kesalahan. Jika tanggal disimpan secara tidak konsisten (sebagian sebagai "2025-03-15" dan lainnya sebagai "15/03/2025"), pengurutan dan pemfilteran akan rusak. Jika kategori dieja berbeda di baris berbeda ("Indonesia", "INDONESIA", "indonesia"), perangkat lunak akan memperlakukannya sebagai tiga kelompok terpisah.

Pembersihan tipe data melibatkan standarisasi format, mengkonversi string ke angka jika sesuai, mem-parsing tanggal ke format konsisten, dan menyelaraskan label kategori. Ini membosankan tapi penting. Satu nilai teks bandel di kolom numerik bisa menyebabkan seluruh pipeline analisis runtuh.

Jebakan umum

Bahkan analis berpengalaman membuat kesalahan selama pembersihan data. Satu jebakan umum adalah membersihkan data asli tanpa menyimpan cadangan. Selalu bekerja pada salinan. Lainnya adalah pembersihan berlebihan -- menghapus begitu banyak baris dan nilai sehingga data yang tersisa tidak lagi representatif. Yang ketiga adalah pembersihan tidak konsisten -- menerapkan aturan berbeda pada bagian berbeda dari kumpulan data tanpa mendokumentasikan alasannya.

Pertahanan terbaik adalah menyimpan log pembersihan: catatan setiap perubahan yang Anda buat, mengapa Anda membuatnya, dan berapa banyak catatan yang terpengaruh. Ini membuat pekerjaan Anda dapat direproduksi dan diaudit. Jika seseorang mempertanyakan hasil Anda, Anda bisa menunjuk log dan memperlihatkan persis apa yang terjadi pada data mentah sebelum analisis dimulai.

Poin penting

Pembersihan data adalah fondasi yang tidak glamor yang menjadi dasar setiap analisis yang andal. Tangani nilai yang hilang dengan bijaksana, hapus duplikat dengan hati-hati, selidiki outlier sebelum menghapusnya, dan standarisasi tipe data secara konsisten. Selalu bekerja pada salinan, dokumentasikan setiap perubahan, dan ingat: waktu yang Anda investasikan dalam membersihkan data akan menyelamatkan Anda dari menarik kesimpulan yang sebenarnya tidak didukung data.