Bạn không thể hỏi tất cả mọi người
Hãy tưởng tượng bạn muốn biết chiều cao trung bình của người Việt Nam trưởng thành. Việt Nam có gần 100 triệu dân - bạn không thể đo chiều cao từng người một. Thay vào đó, bạn chọn một nhóm nhỏ, đo chiều cao của họ, và dùng kết quả để ước tính cho toàn bộ dân số. Nhóm lớn bạn muốn biết là tổng thể. Nhóm nhỏ bạn thực sự đo là mẫu.
Tổng thể (Population)
Tổng thể là toàn bộ nhóm bạn quan tâm. Nó không nhất thiết phải là "tất cả mọi người" - tổng thể phụ thuộc vào câu hỏi nghiên cứu của bạn.
Một số tổng thể khác nhau tùy câu hỏi:
- "Tỷ lệ thất nghiệp ở Việt Nam?" → Tổng thể: Tất cả người trong độ tuổi lao động ở Việt Nam
- "Điểm thi THPT quốc gia trung bình môn Toán?" → Tổng thể: Tất cả thí sinh thi THPT quốc gia năm đó
- "Khách hàng Shopee có hài lòng không?" → Tổng thể: Tất cả khách hàng Shopee Việt Nam
Đôi khi bạn có thể thu thập dữ liệu từ toàn bộ tổng thể - gọi là điều tra tổng thể hay tổng điều tra. GSO thực hiện Tổng điều tra dân số mỗi 10 năm, cố gắng đếm mọi người dân. Nhưng điều này rất tốn kém và mất thời gian.
Mẫu (Sample)
Mẫu là một phần của tổng thể được chọn ra để nghiên cứu. Mục tiêu là mẫu phải đại diện cho tổng thể - nghĩa là đặc điểm của mẫu phản ánh đúng đặc điểm của tổng thể.
Để biết người Hà Nội chi bao nhiêu cho cà phê mỗi tháng, bạn không cần hỏi 8 triệu người. Bạn có thể khảo sát 1.000 người sống ở các quận khác nhau. Nếu mẫu được chọn tốt, kết quả sẽ gần đúng với thực tế.
Tại sao lấy mẫu?
Có ba lý do chính:
- Chi phí: Khảo sát 100 triệu người tốn hàng nghìn tỷ đồng. Khảo sát 5.000 người thì hợp lý hơn nhiều.
- Thời gian: Tổng điều tra dân số Việt Nam mất hàng tháng chuẩn bị và thực hiện. Một cuộc khảo sát mẫu có thể hoàn thành trong vài tuần.
- Tính khả thi: Đôi khi đo toàn bộ tổng thể là bất khả thi. Nếu bạn kiểm tra chất lượng phở bằng cách nếm thử, bạn không thể nếm tất cả các tô - bạn phải lấy mẫu.
Cách lấy mẫu đúng
Mẫu chỉ hữu ích khi nó đại diện. Có nhiều phương pháp lấy mẫu, nhưng đây là những phương pháp quan trọng nhất:
Lấy mẫu ngẫu nhiên đơn giản
Mỗi thành viên trong tổng thể có cơ hội bằng nhau được chọn. Giống như rút thăm - ai cũng có thể trúng.
Bộ Giáo dục muốn biết mức độ hài lòng của giáo viên. Họ lấy danh sách tất cả 1,2 triệu giáo viên cả nước, rồi dùng máy tính chọn ngẫu nhiên 3.000 người. Mỗi giáo viên đều có cơ hội được chọn như nhau.
Lấy mẫu phân tầng
Chia tổng thể thành các nhóm (tầng), rồi lấy mẫu ngẫu nhiên từ mỗi nhóm. Điều này đảm bảo mỗi nhóm quan trọng đều có mặt trong mẫu.
GSO muốn khảo sát thu nhập hộ gia đình. Họ chia theo vùng: Đồng bằng sông Hồng, Tây Nguyên, Đông Nam Bộ, Đồng bằng sông Cửu Long... rồi lấy mẫu từ mỗi vùng. Điều này đảm bảo không bỏ sót vùng nào.
Lấy mẫu thuận tiện
Chọn những người dễ tiếp cận nhất. Đây là phương pháp dễ nhất nhưng cũng kém đại diện nhất.
Một sinh viên Đại học Kinh tế TP.HCM khảo sát "thói quen mua sắm online của người Việt" nhưng chỉ hỏi bạn bè trong trường. Mẫu này không đại diện - toàn sinh viên trẻ, thành thị, có học vấn cao. Kết quả sẽ rất khác so với thực tế của toàn dân.
Sai lệch mẫu (Sampling Bias)
Khi mẫu không đại diện cho tổng thể, ta gặp sai lệch mẫu. Kết luận rút ra sẽ sai lệch, dù phép tính có chính xác đến đâu.
Một ví dụ kinh điển: khảo sát online về mức sống sẽ bỏ sót người cao tuổi ở nông thôn - nhóm ít dùng internet nhưng chiếm phần lớn dân số. Kết quả sẽ thiên lệch về phía nhóm trẻ, thành thị.
Kích thước mẫu
Mẫu lớn hơn thường cho kết quả chính xác hơn, nhưng không phải lúc nào lớn hơn cũng tốt hơn tương ứng. Tăng từ 100 lên 1.000 người cải thiện độ chính xác rất nhiều. Nhưng tăng từ 10.000 lên 100.000 thì cải thiện ít hơn nhiều so với chi phí bỏ ra. Có một điểm mà lợi ích giảm dần.
Tổng thể là toàn bộ nhóm bạn muốn tìm hiểu, còn mẫu là phần nhỏ bạn thực sự nghiên cứu. Lấy mẫu tiết kiệm thời gian và chi phí, nhưng mẫu phải đại diện cho tổng thể để kết luận có giá trị. Phương pháp lấy mẫu ngẫu nhiên và phân tầng giúp đảm bảo tính đại diện, trong khi lấy mẫu thuận tiện thường dẫn đến sai lệch.