Bảng tần số & bảng chéo

Do Kho: Cơ bản Thoi Gian Doc: 10 phut

Từ dữ liệu thô đến đếm có tổ chức

Khi thu thập dữ liệu, nó thường bắt đầu là danh sách lộn xộn. Tưởng tượng khảo sát 200 khách hàng về phương thức thanh toán ưa thích và nhận lại cột dài: thẻ tín dụng, tiền mặt, thanh toán di động, thẻ tín dụng, thẻ tín dụng, tiền mặt, v.v. Bảng tần số biến hỗn loạn này thành tóm tắt gọn gàng bằng cách đếm mỗi giá trị xuất hiện bao nhiêu lần.

Bảng tần số cơ bản có hai cột: danh mục và số đếm (còn gọi là tần số). Cho ví dụ thanh toán, bạn có thể được: thẻ tín dụng: 95, tiền mặt: 52, thanh toán di động: 38, thẻ ghi nợ: 15. Giờ bạn thấy ngay phương thức nào chiếm ưu thế và phương thức nào hiếm. Hành động đếm đơn giản này là nền tảng của thống kê mô tả.

95 Thẻ tín dụng 52 Tiền mặt 38 Thanh toán di động 15 Thẻ ghi nợ

Tần số tương đối và tích lũy

Số đếm thô hữu ích, nhưng khó so sánh giữa tập dữ liệu cỡ khác nhau. Nếu cửa hàng này khảo sát 200 người và cửa hàng kia 1.000, so sánh số đếm thô sẽ sai. Tần số tương đối giải quyết bằng cách biểu diễn mỗi số đếm dưới dạng tỷ lệ hoặc phần trăm. Thẻ tín dụng 95 trên 200 là tần số tương đối 47,5%.

Tần số tích lũy đi xa hơn. Nó cho thấy tổng tích lũy khi di chuyển qua các danh mục. Cho dữ liệu có thứ tự như khoảng điểm thi, tần số tích lũy trả lời câu hỏi "bao nhiêu phần trăm sinh viên đạt 70 trở xuống?" Bạn chỉ cộng tần số tất cả danh mục đến điểm đó. Đặc biệt hữu ích khi cần tìm trung vị hoặc phân vị từ dữ liệu nhóm.

Ba góc nhìn về cùng dữ liệu (tần số thô, tần số tương đối, tần số tích lũy) cho bức tranh đầy đủ. Số đếm thô cho con số thực, tần số tương đối cho phép so sánh giữa tập dữ liệu, và tần số tích lũy giúp hiểu phân phối giá trị.

Bảng tần số cho dữ liệu số

Khi dữ liệu là số liên tục, như tuổi, thu nhập hay điểm thi, bạn không thể liệt kê mọi giá trị duy nhất vì có thể hàng trăm. Thay vào đó, nhóm giá trị vào khoảng gọi là lớp. Ví dụ, tuổi có thể nhóm 18-25, 26-35, 36-45, v.v.

0 2 4 6 7 20-30 31-40 41-50 51-60 61-70 71-80

Chọn đúng số lớp quan trọng. Quá ít sẽ mất chi tiết. Quá nhiều thì bảng hỗn loạn như dữ liệu thô. Quy tắc chung là dùng 5 đến 15 lớp. Histogram trên cho thấy dữ liệu tuổi khi nhóm thành sáu lớp, làm rõ hình dạng phân phối ngay lập tức.

Ví dụ

Giáo viên ghi điểm thi 30 sinh viên: từ 45 đến 98. Cô tạo bảng tần số với lớp 10 điểm (40-49, 50-59, 60-69, 70-79, 80-89, 90-99). Kết quả cho thấy hầu hết sinh viên đạt 70-89, chỉ hai em dưới 50. Bảng tần số ngay lập tức cho thấy lớp tập trung ở đâu và ngoại lệ ở đâu, điều khó thấy trong danh sách 30 số.

Bảng chéo: Hai biến cùng lúc

Bảng tần số xử lý một biến. Nhưng nếu muốn khám phá mối quan hệ giữa hai biến phân loại? Đây là lúc bảng chéo (còn gọi là bảng ngẫu nhiên hoặc bảng hai chiều) xuất hiện. Nó tạo lưới với một biến xác định hàng và biến kia xác định cột, số đếm trong mỗi ô.

Ví dụ, bạn khảo sát nhân viên về mức hài lòng (hài lòng, trung lập, không hài lòng) và ghi nhận phòng ban (kinh doanh, kỹ thuật, hỗ trợ). Bảng chéo cho thấy bao nhiêu nhân viên mỗi phòng ban thuộc mỗi loại hài lòng. Giờ bạn thấy ngay liệu kỹ thuật có nhiều nhân viên không hài lòng hơn kinh doanh hay hỗ trợ có đặc biệt vui vẻ.

35 KD - Hài lòng 15 KD - Trung lập 10 KD - Không hài lòng 20 KT - Hài lòng 25 KT - Trung lập 18 KT - Không hài lòng 28 HT - Hài lòng 12 HT - Trung lập 7 HT - Không hài lòng

Bảng chéo là điểm khởi đầu cho nhiều kiểm định thống kê, bao gồm kiểm định chi bình phương. Chúng cho bạn kiểm tra trực quan liệu hai biến có liên quan trước khi phân tích chính thức. Khi đọc nghiên cứu, bạn thường thấy bảng chéo với phần trăm hàng hoặc cột để dễ so sánh.

Đọc bảng như chuyên gia

Bảng tần số và bảng chéo xuất hiện khắp nơi: bài báo, báo cáo y tế, bảng điều khiển kinh doanh và bài nghiên cứu. Đây là mẹo thực tế để đọc tốt. Đầu tiên, luôn kiểm tra tổng. Nếu bảng cho phần trăm mà không có số đếm, cỡ mẫu có thể quá nhỏ (nói "50% thích lựa chọn A" nghe ấn tượng cho đến khi biết chỉ khảo sát 4 người).

Thứ hai, chú ý cách danh mục được xác định. Lớp không đều trong bảng tần số có thể bóp méo ấn tượng. Lớp "0-10" và lớp "11-50" tự nhiên sẽ có nhiều số đếm hơn ở lớp rộng, ngay cả khi tỷ lệ nền giống nhau.

Thứ ba, trong bảng chéo, quyết định phần trăm hàng hay cột phù hợp hơn cho câu hỏi. Nếu muốn biết tỷ lệ hài lòng mỗi phòng ban, dùng phần trăm hàng. Nếu muốn biết tỷ lệ nhân viên hài lòng đến từ mỗi phòng ban, dùng phần trăm cột. Chọn sai hướng có thể dẫn đến kết luận sai.

Điểm chính

Bảng tần số biến dữ liệu thô thành tóm tắt có tổ chức bằng cách đếm mỗi giá trị hoặc danh mục xuất hiện bao nhiêu lần. Tần số tương đối biểu diễn số đếm dưới dạng tỷ lệ dễ so sánh, tần số tích lũy theo dõi tổng tích lũy. Bảng chéo mở rộng sang hai biến cùng lúc, tiết lộ mô hình quan hệ giữa danh mục. Những công cụ đơn giản này là bước đầu tiên trong hầu hết mọi phân tích dữ liệu và một trong những kỹ năng thực tế nhất để đọc thống kê trong cuộc sống hàng ngày.