Cuando los supuestos de normalidad fallan
Muchas de las pruebas estadísticas más populares, como la prueba t y ANOVA, asumen que tus datos provienen de una distribución normal (en forma de campana). También asumen que los datos se miden en una escala de intervalo o razón y que las varianzas son aproximadamente iguales entre grupos. Estos supuestos funcionan bien gran parte del tiempo, pero ¿qué pasa cuando no se cumplen?
Los datos del mundo real a menudo son asimétricos, tienen valores atípicos o vienen en forma de rangos o categorías ordinales. Las calificaciones de satisfacción en una escala de 1 a 5, los datos de ingresos con perceptores extremadamente altos o los tiempos de respuesta con una cola derecha larga violan los supuestos de normalidad. Aplicar una prueba t a datos fuertemente asimétricos puede darte valores p engañosos y conclusiones poco confiables. Las pruebas no paramétricas proporcionan una alternativa robusta.
Observa el diagrama de puntos anterior. Estos datos tienen una clara asimetría a la derecha con unos pocos valores extremos que jalan la cola. Una prueba t sobre este tipo de datos podría ser poco confiable. Los métodos no paramétricos manejan esto con elegancia porque trabajan con rangos en lugar de valores brutos, haciéndolos resistentes a valores atípicos y asimetría.
El enfoque basado en rangos
La idea central detrás de la mayoría de las pruebas no paramétricas es simple: en lugar de analizar los valores de datos reales, los conviertes en rangos. El valor más pequeño obtiene el rango 1, el siguiente más pequeño obtiene el rango 2, y así sucesivamente. Luego realizas tu análisis sobre los rangos.
¿Por qué funciona esto? Los rangos preservan el orden de tus datos sin verse afectados por qué tan separados están los valores. Ya sea que tu valor más alto sea 50 o 5,000, sigue obteniendo el rango más alto. Esto hace que las pruebas basadas en rangos sean insensibles a valores atípicos y supuestos distribucionales. La desventaja es que pierdes algo de información al descartar las distancias reales entre valores, por lo que las pruebas no paramétricas son generalmente menos potentes que sus contrapartes paramétricas cuando los supuestos de la prueba paramétrica realmente se cumplen.
Prueba U de Mann-Whitney
La prueba U de Mann-Whitney (también llamada prueba de suma de rangos de Wilcoxon) es la alternativa no paramétrica a la prueba t de muestras independientes. Úsala cuando quieras comparar dos grupos independientes pero tus datos no están distribuidos normalmente, tu muestra es pequeña o tus datos son ordinales.
Un restaurante quiere comparar las calificaciones de satisfacción del cliente (en una escala de 1 a 10) entre su servicio de almuerzo y cena. Las calificaciones no están distribuidas normalmente y la escala es discutiblemente ordinal. Una prueba U de Mann-Whitney clasifica todas las calificaciones juntas sin importar el grupo, luego verifica si los rangos de un grupo tienden a ser más altos. Si los clientes del almuerzo obtienen consistentemente rangos más altos que los de la cena, la prueba mostrará una diferencia significativa.
La prueba de Mann-Whitney realmente evalúa si un grupo tiende a producir valores más grandes que el otro. A menudo se describe como una comparación de medianas, lo cual es una simplificación útil, aunque técnicamente compara las distribuciones completas. Es una de las pruebas no paramétricas más comúnmente usadas en investigación médica y en ciencias sociales.
Prueba de rangos con signo de Wilcoxon
La prueba de rangos con signo de Wilcoxon es la alternativa no paramétrica a la prueba t de muestras pareadas. Úsala cuando tengas dos mediciones relacionadas de los mismos sujetos, como puntuaciones antes y después, pero las diferencias no están distribuidas normalmente.
La prueba funciona calculando la diferencia para cada par, clasificando las diferencias absolutas y luego comparando la suma de rangos de las diferencias positivas contra la suma de las diferencias negativas. Si un tratamiento realmente tiene un efecto, esperarías que las diferencias positivas (o negativas) tengan rangos sistemáticamente más altos.
Por ejemplo, si mides los niveles de dolor en 20 pacientes antes y después de una nueva terapia, y las mejoras no están distribuidas simétricamente, la prueba de rangos con signo de Wilcoxon te dará una respuesta más confiable que una prueba t pareada. Es particularmente común en estudios clínicos con muestras pequeñas donde la normalidad no puede verificarse.
Prueba de Kruskal-Wallis
La prueba de Kruskal-Wallis extiende el enfoque de Mann-Whitney a tres o más grupos independientes. Es la alternativa no paramétrica al ANOVA de una vía. Todas las observaciones de todos los grupos se clasifican juntas, y la prueba verifica si los rangos promedio difieren significativamente entre los grupos.
Como ANOVA, un resultado significativo de Kruskal-Wallis te dice que al menos un grupo difiere de los otros, pero no te dice cuál. Luego usarías una prueba post-hoc (como la prueba de Dunn) para hacer comparaciones por pares.
Una empresa prueba tres diseños diferentes de sitio web y recopila puntuaciones de interacción de los usuarios. Las puntuaciones están fuertemente sesgadas porque unos pocos usuarios pasan mucho más tiempo que otros. Una prueba de Kruskal-Wallis compara los tres diseños sin requerir que las puntuaciones de interacción sigan una distribución normal. Si el resultado es significativo, la empresa hace un seguimiento con comparaciones por pares para identificar qué diseño tuvo mejor rendimiento.
Cuándo usar pruebas no paramétricas
Usa pruebas no paramétricas cuando tus datos son ordinales (como calificaciones en escala Likert), cuando tu tamaño de muestra es muy pequeño (menos de 20-30 por grupo), cuando tus datos están claramente sesgados o contienen valores atípicos influyentes, o cuando los supuestos del equivalente paramétrico no pueden satisfacerse. También son la elección correcta cuando estás analizando rangos directamente, como preferencias o clasificaciones dadas por jueces.
No uses pruebas no paramétricas simplemente porque parecen más seguras. Cuando tus datos cumplen razonablemente los supuestos paramétricos, las pruebas paramétricas son más potentes, lo que significa que son mejores para detectar efectos reales. El enfoque ideal es verificar tus supuestos primero (usando histogramas, pruebas de normalidad o gráficos Q-Q) y luego elegir la prueba apropiada.
En la práctica, muchos investigadores reportan tanto resultados paramétricos como no paramétricos cuando los supuestos son dudosos. Si ambas pruebas llevan a la misma conclusión, puedes tener más confianza en el hallazgo. Si no están de acuerdo, el resultado no paramétrico generalmente se considera más confiable porque hace menos supuestos.
Las pruebas no paramétricas son tu red de seguridad cuando los datos no siguen una distribución normal, contienen valores atípicos o se miden en una escala ordinal. La U de Mann-Whitney compara dos grupos independientes, la prueba de rangos con signo de Wilcoxon compara mediciones pareadas y la de Kruskal-Wallis compara tres o más grupos. Funcionan analizando rangos en lugar de valores brutos, lo que las hace robustas pero ligeramente menos potentes que las pruebas paramétricas cuando la normalidad se cumple.