Kiểm Định t

Do Kho: Trung cấp Thoi Gian Doc: 15 phut

So sánh hai nhóm

Một trong những câu hỏi phổ biến nhất trong thống kê là: "Hai nhóm này có thực sự khác nhau không?" Kiểm định t (t-test) là công cụ để trả lời câu hỏi đó khi bạn so sánh trung bình của hai nhóm.

Chênh lệch 2.1 5.2 8.3 0
Ví dụ

Câu hỏi: Học sinh ôn thi online có điểm THPT quốc gia khác với học sinh ôn thi truyền thống không?

Nhóm A (online): 30 học sinh, điểm trung bình 7,2

Nhóm B (truyền thống): 30 học sinh, điểm trung bình 6,8

Chênh lệch 0,4 điểm. Nhưng liệu 0,4 này có thực sự ý nghĩa, hay chỉ do ngẫu nhiên khi chọn mẫu?

Ba loại kiểm định t

1. Kiểm định t một mẫu (One-sample t-test)

So sánh trung bình mẫu với một giá trị đã biết. "Trung bình mẫu có khác giá trị tham chiếu không?"

Ví dụ

Nhà máy mì ăn liền ở Bình Dương quy định mỗi gói nặng 75g. Kiểm tra 20 gói ngẫu nhiên, trung bình 74,2g. Liệu dây chuyền sản xuất có vấn đề hay 74,2g chỉ là dao động bình thường?

H₀: μ = 75g (máy hoạt động đúng)

H₁: μ ≠ 75g (máy cần hiệu chỉnh)

2. Kiểm định t hai mẫu độc lập (Independent two-sample t-test)

So sánh trung bình của hai nhóm khác nhau. Đây là loại phổ biến nhất.

Ví dụ

So sánh doanh thu trung bình hàng ngày của cửa hàng Shopee khi dùng hai chiến lược quảng cáo khác nhau:

Chiến lược A (15 ngày): trung bình 8,5 triệu/ngày

Chiến lược B (15 ngày): trung bình 9,2 triệu/ngày

H₀: μA = μB (hai chiến lược cho doanh thu bằng nhau)

H₁: μA ≠ μB (có sự khác biệt)

3. Kiểm định t ghép cặp (Paired t-test)

So sánh cùng một nhóm đối tượng ở hai thời điểm hoặc hai điều kiện khác nhau.

Ví dụ

20 bệnh nhân đo huyết áp TRƯỚC và SAU khi uống thuốc mới:

Trung bình trước: 145 mmHg

Trung bình sau: 132 mmHg

H₀: Không có sự thay đổi (μ_trước = μ_sau)

H₁: Có sự thay đổi (thuốc có tác dụng)

Vì đo cùng người, sự biến thiên giữa các bệnh nhân được kiểm soát tốt hơn.

Cách kiểm định t hoạt động

Kiểm định t tính thống kê t - tỷ số giữa sự khác biệt quan sát và độ biến thiên trong dữ liệu:

t = (Chênh lệch trung bình) / (Sai số chuẩn của chênh lệch)

Nếu |t| lớn → chênh lệch lớn so với biến thiên → khó giải thích bằng ngẫu nhiên → p nhỏ → bác bỏ H₀.

Nếu |t| nhỏ → chênh lệch nhỏ so với biến thiên → có thể do ngẫu nhiên → p lớn → không bác bỏ H₀.

Điều kiện áp dụng

Kiểm định t giả định:

  • Dữ liệu liên tục: Điểm số, lương, chiều cao - không phải dữ liệu phân loại
  • Mẫu ngẫu nhiên: Dữ liệu được chọn ngẫu nhiên từ tổng thể
  • Phân phối gần chuẩn: Hoặc mẫu đủ lớn (n ≥ 30, nhờ CLT)
  • Phương sai tương đương (cho t-test hai mẫu): Hai nhóm có mức biến thiên gần nhau
Ví dụ

Quay lại ví dụ ôn thi online vs. truyền thống:

Nhóm Online (n=30): trung bình = 7,2, độ lệch chuẩn = 1,1

Nhóm Truyền thống (n=30): trung bình = 6,8, độ lệch chuẩn = 1,3

Chênh lệch = 0,4. Sai số chuẩn ≈ 0,31

t = 0,4 / 0,31 ≈ 1,29

Tra bảng hoặc dùng phần mềm: p ≈ 0,20

Vì p = 0,20 > 0,05 → Không bác bỏ H₀. Chưa đủ bằng chứng rằng hai phương pháp ôn thi cho kết quả khác nhau.

Diễn giải kết quả

Kết quả "không có ý nghĩa thống kê" không có nghĩa hai phương pháp giống hệt nhau. Nó chỉ có nghĩa mẫu này không cung cấp đủ bằng chứng. Có thể mẫu quá nhỏ, hoặc sự khác biệt thực sự rất nhỏ.

-3 -2 -1 0 1 2 3

Ứng dụng tại Việt Nam

  • Nông nghiệp: So sánh năng suất lúa giữa giống mới và giống cũ tại Đồng bằng sông Cửu Long
  • Y tế: So sánh thời gian hồi phục giữa hai phương pháp điều trị tại bệnh viện Chợ Rẫy
  • Kinh doanh: So sánh tỷ lệ chuyển đổi giữa hai thiết kế trang web trên Tiki
  • Giáo dục: So sánh điểm số giữa lớp dùng công nghệ và lớp truyền thống
Điểm chính

Kiểm định t so sánh trung bình giữa hai nhóm (hoặc so với giá trị tham chiếu) để xem chênh lệch có ý nghĩa thống kê hay chỉ do ngẫu nhiên. Có ba loại: một mẫu, hai mẫu độc lập, và ghép cặp. Thống kê t đo tỷ lệ giữa chênh lệch và biến thiên - t lớn → bằng chứng mạnh cho sự khác biệt thực sự.