Tương Quan

Do Kho: Trung cấp Thoi Gian Doc: 12 phut

Khi hai thứ cùng thay đổi

Đôi khi hai thứ dường như liên quan đến nhau: khi một thứ tăng, thứ kia cũng tăng (hoặc giảm). Nhiệt độ tăng → doanh số bán kem tăng. Số giờ học tăng → điểm thi tăng. Tương quan là cách đo lường mức độ và hướng của mối liên hệ này bằng con số.

2 4 6 8 10 2 4 6 8 10 12

Hệ số tương quan (r)

Hệ số tương quan Pearson (r) là con số từ −1 đến +1 mô tả mối liên hệ tuyến tính giữa hai biến:

  • r = +1: Tương quan dương hoàn hảo - khi X tăng, Y luôn tăng theo tỷ lệ cố định
  • r = 0: Không có tương quan tuyến tính
  • r = −1: Tương quan âm hoàn hảo - khi X tăng, Y luôn giảm theo tỷ lệ cố định
Ví dụ

Một số mối tương quan ước tính trong thực tế Việt Nam:

  • Số giờ ôn thi và điểm THPT quốc gia: r ≈ +0,6 (tương quan dương trung bình-mạnh)
  • Nhiệt độ Hà Nội và doanh số bán áo ấm: r ≈ −0,7 (tương quan âm mạnh - nóng hơn → bán ít hơn)
  • Chiều cao và điểm thi Toán: r ≈ 0 (không liên quan)

Mức độ mạnh yếu

Quy ước thông dụng:

2 4 6 8 10 5 10
  • |r| < 0,3: Tương quan yếu
  • 0,3 ≤ |r| < 0,7: Tương quan trung bình
  • |r| ≥ 0,7: Tương quan mạnh

Nhưng đây chỉ là quy ước. Trong một số lĩnh vực (như tâm lý học), r = 0,3 đã được coi là đáng kể.

Tương quan không phải nhân quả

Đây là nguyên tắc quan trọng nhất trong thống kê: Tương quan không chứng minh nhân quả. Hai biến có thể tương quan mạnh mà không có mối quan hệ nguyên nhân-kết quả trực tiếp.

Ví dụ

Dữ liệu cho thấy: doanh số bán kem và số vụ đuối nước ở Việt Nam tương quan dương mạnh (r ≈ 0,85). Kem gây đuối nước? Tất nhiên không!

Biến nhiễu: thời tiết nóng. Trời nóng → người ta vừa mua kem nhiều hơn, vừa đi bơi nhiều hơn → cả hai tăng cùng lúc. Mối tương quan không phải nhân quả.

Ba lý do tương quan xảy ra mà không có nhân quả:

  1. Biến nhiễu: Yếu tố thứ ba ảnh hưởng cả hai (như ví dụ kem và đuối nước)
  2. Nhân quả ngược: Có thể Y gây ra X, không phải X gây ra Y. Ví dụ: doanh nghiệp thành công thuê nhiều nhân viên (không phải thuê nhiều nhân viên → thành công)
  3. Trùng hợp ngẫu nhiên: Với đủ nhiều biến, luôn tìm được hai biến tương quan chỉ do may mắn
Ví dụ

Nghiên cứu thấy: tỉnh nào có nhiều đền chùa hơn thì tỷ lệ tội phạm cao hơn (r ≈ 0,6). Đền chùa gây tội phạm? Không - biến nhiễu là dân số. Tỉnh đông dân có nhiều đền chùa hơn VÀ nhiều tội phạm hơn.

Tương quan tuyến tính và phi tuyến

Hệ số r chỉ đo mối liên hệ tuyến tính (đường thẳng). Hai biến có thể liên hệ mạnh theo đường cong mà r vẫn gần 0.

2 4 6 8 10 2 4 6 8 10
Ví dụ

Lượng phân bón và năng suất lúa ở Đồng bằng sông Cửu Long: ít phân bón → năng suất thấp; phân bón vừa đủ → năng suất cao nhất; quá nhiều phân bón → năng suất giảm (do đất bị hỏng). Mối liên hệ hình chữ U ngược - r tuyến tính có thể gần 0, dù liên hệ thực rất mạnh.

Ứng dụng thực tế

  • Tài chính: Tương quan giữa VN-Index và chỉ số S&P 500 giúp nhà đầu tư đa dạng hóa danh mục
  • Marketing: Tương quan giữa ngân sách quảng cáo và doanh thu trên Shopee
  • Y tế: Tương quan giữa BMI và nguy cơ tiểu đường type 2
  • Giáo dục: Tương quan giữa điểm học bạ và điểm THPT quốc gia
Điểm chính

Tương quan đo mức độ và hướng liên hệ tuyến tính giữa hai biến, từ −1 (âm hoàn hảo) đến +1 (dương hoàn hảo). Nhưng tương quan KHÔNG chứng minh nhân quả - biến nhiễu, nhân quả ngược, hoặc trùng hợp đều có thể tạo ra tương quan giả. Luôn tìm hiểu cơ chế đằng sau trước khi kết luận "X gây ra Y."