What is data cleaning in statistics?

Data cleaning is the process of fixing or removing incorrect, incomplete, duplicate, or irrelevant data before analysis.

Why is data cleaning important?

Poor data quality leads to inaccurate analysis and wrong conclusions. Cleaning typically takes 60-80% of a data project's time.

How do you handle missing data?

Options include deleting rows with missing values, imputing with the mean or median, using regression imputation, or applying multiple imputation.

What are common data quality issues?

Duplicate records, missing values, inconsistent formatting, typos, wrong data types, and outdated entries are the most frequent data quality issues.

Limpieza de datos

Por qué los datos nunca son perfectos

Cada conjunto de datos que encuentres en el mundo real tendrá problemas. Los encuestados omiten preguntas. Los sensores fallan y registran valores imposibles. Las hojas de cálculo se copian y pegan con filas duplicadas. Alguien escribe "N/A" en un campo numérico. Una fecha aparece como "03/04/2025" y no puedes saber si significa 3 de abril o 4 de marzo.

La limpieza de datos es el proceso de encontrar y corregir estos problemas antes de analizar los datos. No es un trabajo glamoroso, pero es posiblemente el paso más importante de cualquier análisis. Los científicos de datos experimentados estiman que entre el 60 y el 80% de su tiempo se dedica a limpiar y preparar datos. Si omites este paso, tus resultados podrían ser inútiles -- o peor, confidencialmente erróneos.

El gráfico anterior muestra un desglose típico del tiempo en un proyecto de datos. La limpieza domina la carga de trabajo, por lo que aprender a hacerla bien rinde enormes dividendos.

Manejo de valores faltantes

Los valores faltantes son el problema de calidad de datos más común. Un cliente deja en blanco el campo de ingresos en un formulario. Una estación meteorológica se desconecta por un día. Un paciente falta a una cita de seguimiento. La pregunta es: ¿qué haces al respecto?

Tienes varias opciones, cada una con sus compromisos. Puedes eliminar filas con valores faltantes, lo cual es simple pero reduce tu conjunto de datos y puede introducir sesgo si la ausencia no es aleatoria (por ejemplo, las personas de altos ingresos podrían omitir las preguntas sobre ingresos con más frecuencia). Puedes rellenar (imputar) los valores faltantes usando el promedio de la columna, la mediana o un modelo de predicción más sofisticado. O puedes marcar los valores faltantes e incluir la ausencia como una variable separada en tu análisis.

El enfoque correcto depende de cuántos datos faltan y por qué. Si solo el 2% de las filas tienen valores faltantes y aparecen de forma aleatoria, eliminar esas filas generalmente está bien. Si el 30% de una columna está faltante, la eliminación descartaría demasiados datos y se necesita imputación o un enfoque analítico diferente.

Detección y eliminación de duplicados

Los registros duplicados pueden inflar tus resultados y distorsionar cada estadística que calcules. Si la compra de un cliente aparece dos veces en tu base de datos, sobrecontarás los ingresos y sobreestimarás el número de transacciones. Los duplicados se infiltran a través de fusiones de datos, reenvíos de formularios, fallas del sistema y errores de ingreso manual de datos.

Encontrar duplicados no siempre es sencillo. Los duplicados exactos (filas idénticas) son fáciles de detectar. Pero, ¿qué pasa con "Juan Pérez" en "Calle Mayor 123" y "J. Pérez" en "C/ Mayor 123"? Probablemente son la misma persona con ligeras variaciones. Las técnicas de coincidencia aproximada pueden ayudar a identificar casi-duplicados, pero requieren decisiones de juicio sobre qué tan similares deben ser dos registros antes de fusionarlos.

Tratamiento de valores atípicos

Un valor atípico es un valor dramáticamente diferente del resto de los datos. Un salario de $5,000,000 en un conjunto de datos de empleados de nivel medio. Una lectura de temperatura de -40 grados en Miami en julio. Una sesión de sitio web que dura 72 horas.

La pregunta crítica con los valores atípicos es si son legítimos o errores. El salario de $5 millones de un CEO es real -- simplemente representa una población diferente. Una temperatura de -40 en Miami es casi con certeza un error del sensor. Una sesión web de 72 horas podría ser alguien que dejó una pestaña abierta.

Para errores, la corrección o eliminación es apropiada. Para valores atípicos legítimos, tienes opciones: mantenerlos y usar estadísticas robustas (como la mediana en lugar de la media), limitarlos a un umbral razonable (llamado winsorización), o analizarlos por separado. Nunca elimines automáticamente valores atípicos solo porque sean inusuales -- siempre investiga primero por qué existen.

Problemas de tipos de datos

Las computadoras tratan números, texto, fechas y categorías de manera diferente. Si una columna numérica contiene accidentalmente valores de texto (como "N/A" o "Pendiente"), los cálculos fallarán o producirán errores. Si las fechas se almacenan de forma inconsistente (algunas como "2025-03-15" y otras como "15/03/2025"), la ordenación y el filtrado no funcionarán. Si una categoría se escribe de manera diferente en diferentes filas ("España", "ESPAÑA", "españa"), el software las tratará como tres grupos separados.

La limpieza de tipos de datos implica estandarizar formatos, convertir cadenas de texto a números cuando sea apropiado, analizar fechas en un formato consistente y armonizar las etiquetas de categorías. Es tedioso pero esencial. Un solo valor de texto rebelde en una columna numérica puede hacer que todo un pipeline de análisis se caiga.

Errores comunes

Incluso los analistas experimentados cometen errores durante la limpieza de datos. Un error común es limpiar los datos originales sin guardar una copia de seguridad. Siempre trabaja en una copia. Otro es limpiar en exceso -- eliminar tantas filas y valores que los datos restantes ya no sean representativos. Un tercero es limpiar de forma inconsistente -- aplicar diferentes reglas a diferentes partes del conjunto de datos sin documentar por qué.

La mejor defensa es mantener un registro de limpieza: un registro de cada cambio que hiciste, por qué lo hiciste y cuántos registros se vieron afectados. Esto hace que tu trabajo sea reproducible y auditable. Si alguien cuestiona tus resultados, puedes señalar el registro y mostrar exactamente qué pasó con los datos crudos antes de que comenzara el análisis.

Conclusión clave

La limpieza de datos es la base poco glamorosa sobre la que se construye todo análisis confiable. Maneja los valores faltantes con cuidado, elimina los duplicados cuidadosamente, investiga los valores atípicos antes de eliminarlos y estandariza los tipos de datos de forma consistente. Siempre trabaja en una copia, documenta cada cambio y recuerda: el tiempo que inviertes en limpiar tus datos te salvará de sacar conclusiones que los datos en realidad no respaldan.