What is a t-test used for?

A t-test determines whether there is a statistically significant difference between the means of two groups.

When should I use a t-test vs a z-test?

Use a t-test when the sample size is small (typically under 30) or the population standard deviation is unknown. Otherwise a z-test works.

What is a paired t-test?

A paired t-test compares two related measurements from the same group, such as before and after scores for the same participants.

What are the assumptions of a t-test?

Data should be approximately normal, observations should be independent, and for two-sample tests, groups should have similar variances.

La Prueba t | Stats24

Comparar dos grupos

Algunas de las preguntas mas comunes de la vida cotidiana involucran comparar dos cosas. Este metodo de ensenanza es mejor que aquel? Los hombres y las mujeres ganan salarios diferentes en esta empresa? La nueva version de nuestra app mantiene a los usuarios mas tiempo que la anterior?

La prueba t es una de las herramientas mas simples y mas utilizadas para responder preguntas como estas. Te ayuda a decidir si una diferencia entre dos grupos es real o si podria ser solo una coincidencia.

La idea basica

Supongamos que dos salones de clase en una escuela usan diferentes metodos de ensenanza. Al final del ano, el salon A tiene un promedio de 78 en sus examenes y el salon B tiene un promedio de 82. Esa diferencia de 4 puntos es significativa?

Quiza. Pero quiza no. Si ambos salones tenian calificaciones por todos lados - algunos alumnos sacando 50, otros sacando 100 - entonces una brecha de 4 puntos podria ocurrir facilmente por azar. Pero si las calificaciones en ambos salones estaban agrupadas de manera compacta (la mayoria entre 75 y 85), entonces una brecha de 4 puntos es mas dificil de descartar.

Una prueba t considera tanto el tamano de la diferencia entre los grupos como la cantidad de variacion dentro de cada grupo para determinar si la diferencia probablemente es real.

Cuando usar una prueba t

Una prueba t es apropiada cuando:

Estas comparando promedios (no conteos ni categorias).
Tus datos son numericos: calificaciones, pesos, tiempos o precios.
Tienes una muestra razonablemente pequena (la prueba t fue disenada para situaciones donde no tienes miles de datos).
Los datos en cada grupo tienen forma aproximadamente de campana, o tienes al menos 30 observaciones por grupo.

Prueba t de una muestra

A veces quieres comparar un grupo con un estandar conocido en lugar de con otro grupo. Eso es una prueba t de una muestra.

Ejemplo

Una cafeteria afirma que sus vasos grandes contienen 500 mililitros. Un cliente sospecha que le estan dando menos. Compra 25 cafes grandes en diferentes dias y mide cada uno. El promedio es de 480 ml.

Una prueba t de una muestra compara el promedio de la muestra (480 ml) con el valor declarado (500 ml). Pregunta: es la diferencia entre 480 y 500 lo suficientemente grande - dada la variacion entre los 25 vasos - para concluir que la cafeteria realmente esta sirviendo de menos? O podria la diferencia ser solo fluctuacion normal?

Prueba t de dos muestras

Con mas frecuencia, quieres comparar dos grupos diferentes. Eso es una prueba t de dos muestras (tambien llamada prueba de muestras independientes).

Ejemplo

Un distrito escolar en Chile quiere saber si un nuevo metodo de ensenanza mejora las calificaciones de matematicas. Asignan aleatoriamente a 30 alumnos al nuevo metodo (Grupo A) y a 30 alumnos al metodo tradicional (Grupo B).

Despues de un semestre:

Promedio del Grupo A: 84 puntos
Promedio del Grupo B: 79 puntos

La prueba t de dos muestras analiza la diferencia de 5 puntos y pregunta: dada la dispersion de calificaciones dentro de cada grupo, es esta diferencia lo suficientemente grande para ser real, o podria ocurrir por azar aleatorio aunque ambos metodos fueran igualmente efectivos?

Si la prueba t produce un valor p pequeno (digamos, 0.02), significa que solo hay aproximadamente un 2% de probabilidad de ver una diferencia tan grande por suerte. Eso es evidencia fuerte de que el nuevo metodo realmente funciona mejor.

Prueba t pareada

Hay una tercera variacion: la prueba t pareada. Se usa cuando las mismas personas o elementos se miden dos veces, antes y despues de que algo ocurra.

Ejemplos de situaciones pareadas:

Medir la presion arterial de pacientes antes y despues de tomar un medicamento.
Evaluar a estudiantes al inicio y al final de un programa de tutorias.
Comparar la productividad de los mismos empleados antes y despues de un cambio en el lugar de trabajo.

La prueba t pareada es mas poderosa que la version de dos muestras en estos casos porque controla las diferencias individuales. Cada persona sirve como su propio punto de comparacion.

Como funciona la prueba t (sin las matematicas)

La prueba t calcula un numero llamado el estadistico t. Piensa en el como una relacion senal-ruido:

Senal: La diferencia entre los promedios de los grupos. Una diferencia mayor significa mas senal.
Ruido: La variabilidad dentro de cada grupo, ajustada por el tamano de la muestra. Mas variacion o muestras mas pequenas significan mas ruido.

Un estadistico t grande (mucha senal relativa al ruido) significa que la diferencia probablemente es real. Un estadistico t pequeno significa que la diferencia podria ser facilmente solo ruido.

El estadistico t se convierte en un valor p, que te dice que tan sorprendente seria ese resultado si verdaderamente no hubiera diferencia entre los grupos.

El tamano de la muestra importa

La prueba t fue disenada especificamente para muestras pequenas (la "t" viene de William Sealy Gosset, quien publico bajo el seudonimo "Student" mientras trabajaba en la cerveceria Guinness). Con muestras grandes - cientos o miles de observaciones - incluso diferencias diminutas y sin importancia pueden volverse "estadisticamente significativas". Siempre mira el tamano de la diferencia, no solo si la prueba dice que es significativa.

Supuestos a tener en cuenta

La prueba t hace algunos supuestos sobre tus datos:

Independencia: Cada observacion no deberia influir en otra. Medir a la misma persona dos veces (sin usar la version pareada) viola este supuesto.
Distribucion aproximadamente normal: Los datos en cada grupo deberian tener forma aproximada de campana. Con 30 o mas observaciones por grupo, esto se vuelve menos critico gracias al Teorema del Limite Central.
Variabilidad similar: Los dos grupos deberian tener dispersiones aproximadamente similares. Existe una version modificada (la prueba t de Welch) que maneja variabilidad desigual.

Punto Clave

La prueba t es una herramienta directa para comparar promedios entre dos grupos (o un grupo contra un estandar). Sopesa la diferencia entre grupos contra la variacion natural dentro de los grupos. Usa la version de una muestra para comparar contra un valor conocido, la de dos muestras para comparar dos grupos independientes, y la pareada cuando los mismos sujetos se miden dos veces. Siempre combina la significancia estadistica con la significancia practica: una diferencia "real" no siempre es una diferencia significativa en la practica.

La Prueba t