Dữ liệu là gì?
Dữ liệu là thông tin thô mà chúng ta thu thập để trả lời câu hỏi. Mỗi lần bạn điền phiếu khảo sát trên Shopee, mỗi lần bệnh viện ghi lại huyết áp của bạn, mỗi lần Tổng cục Thống kê (GSO) đếm dân số - đó đều là thu thập dữ liệu. Nhưng không phải tất cả dữ liệu đều giống nhau. Hiểu các loại dữ liệu khác nhau là bước đầu tiên quan trọng trong thống kê.
Hai loại dữ liệu chính
Dữ liệu được chia thành hai nhóm lớn: định tính (categorical) và định lượng (numerical). Phân biệt được hai loại này là nền tảng để chọn đúng phương pháp phân tích.
Dữ liệu định tính (Categorical)
Dữ liệu định tính mô tả đặc điểm hoặc phân loại. Nó trả lời câu hỏi "loại gì?" thay vì "bao nhiêu?" Bạn không thể thực hiện phép tính số học có ý nghĩa với dữ liệu này.
Khảo sát sinh viên Đại học Bách khoa Hà Nội:
- Quê quán: Hà Nội, Hải Phòng, Nghệ An, Đà Nẵng
- Ngành học: Công nghệ thông tin, Cơ khí, Kinh tế
- Phương tiện đi học: Xe máy, Xe buýt, Đi bộ
Tất cả đều là dữ liệu định tính. Bạn không thể "cộng" Hà Nội với Hải Phòng hay tính "trung bình" của các ngành học.
Dữ liệu định lượng (Numerical)
Dữ liệu định lượng là con số đo lường hoặc đếm. Nó trả lời câu hỏi "bao nhiêu?" và bạn có thể thực hiện phép tính toán học với nó.
Cùng cuộc khảo sát sinh viên đó:
- Tuổi: 18, 19, 20, 22
- Điểm trung bình GPA: 3.2, 2.8, 3.5
- Chi phí sinh hoạt hàng tháng: 3.500.000đ, 5.000.000đ, 4.200.000đ
Bạn có thể tính trung bình, so sánh, và phân tích xu hướng với những con số này.
Phân loại chi tiết hơn
Mỗi loại dữ liệu chính lại được chia nhỏ hơn, và việc hiểu rõ sẽ giúp bạn chọn đúng biểu đồ và phương pháp phân tích.
Dữ liệu danh nghĩa (Nominal)
Đây là dữ liệu định tính không có thứ tự. Các danh mục chỉ là nhãn, không cái nào "cao hơn" hay "tốt hơn" cái nào về mặt bản chất.
Trong V-League, mỗi đội thuộc một thành phố: Hà Nội FC, Hoàng Anh Gia Lai, Hải Phòng FC. Đây là dữ liệu danh nghĩa - không có thứ tự tự nhiên nào giữa các đội (trừ bảng xếp hạng, nhưng đó là dữ liệu khác).
Dữ liệu thứ bậc (Ordinal)
Đây là dữ liệu định tính có thứ tự, nhưng khoảng cách giữa các bậc không nhất thiết bằng nhau.
Đánh giá sản phẩm trên Shopee: 1 sao, 2 sao, 3 sao, 4 sao, 5 sao. Bạn biết 5 sao tốt hơn 3 sao, nhưng khoảng cách "hài lòng" giữa 3 sao và 4 sao không nhất thiết giống khoảng cách giữa 1 sao và 2 sao.
Dữ liệu rời rạc (Discrete)
Đây là dữ liệu định lượng chỉ nhận các giá trị nguyên hoặc đếm được. Không có giá trị "ở giữa" có ý nghĩa.
Số bàn thắng trong một trận V-League: 0, 1, 2, 3... Bạn không thể ghi 2,5 bàn thắng. Số thành viên trong một gia đình Việt Nam: 3, 4, 5. Không thể có 3,7 người trong gia đình.
Dữ liệu liên tục (Continuous)
Đây là dữ liệu định lượng có thể nhận bất kỳ giá trị nào trong một khoảng. Nó được đo lường thay vì đếm.
Nhiệt độ ở Hà Nội có thể là 32,4°C hay 32,41°C hay 32,415°C - nó liên tục. Chiều cao của học sinh lớp 12 có thể là 165,3 cm hoặc 170,8 cm. Giá cà phê robusta xuất khẩu có thể là 2.547,50 USD/tấn.
Tại sao phân biệt loại dữ liệu quan trọng?
Loại dữ liệu quyết định bạn có thể làm gì với nó. Nếu bạn có dữ liệu danh nghĩa (ví dụ: tỉnh thành của sinh viên), bạn chỉ có thể đếm và tính phần trăm - tính trung bình không có ý nghĩa. Nếu bạn có dữ liệu liên tục (ví dụ: thu nhập), bạn có thể tính trung bình, độ lệch chuẩn, và nhiều hơn nữa.
Loại dữ liệu cũng quyết định biểu đồ nào phù hợp. Dữ liệu định tính dùng biểu đồ cột hoặc biểu đồ tròn. Dữ liệu liên tục dùng histogram hoặc biểu đồ đường.
Dữ liệu có thể bị nhầm lẫn
Đôi khi con số trông giống dữ liệu định lượng nhưng thực ra là định tính. Số điện thoại, mã vùng, số CMND/CCCD - tất cả đều là số nhưng đều là dữ liệu danh nghĩa. Tính "trung bình số CCCD" không có ý nghĩa gì cả.
Tương tự, mã bưu chính ở Việt Nam (như 100000 cho Hà Nội, 700000 cho TP.HCM) là số nhưng chỉ là nhãn - chúng không mang ý nghĩa số học.
Một cuộc khảo sát mã hóa giới tính thành: 1 = Nam, 2 = Nữ. Mặc dù 1 và 2 là số, đây vẫn là dữ liệu danh nghĩa. Tính trung bình (1,5) không có nghĩa "giới tính trung bình" - điều đó vô nghĩa.
Ứng dụng thực tế
Khi GSO thực hiện Tổng điều tra dân số, họ thu thập đồng thời nhiều loại dữ liệu: tên tỉnh (danh nghĩa), trình độ học vấn (thứ bậc), số người trong hộ (rời rạc), thu nhập hàng tháng (liên tục). Mỗi loại được xử lý và phân tích bằng phương pháp khác nhau.
Trong kinh doanh, Shopee Vietnam thu thập dữ liệu danh nghĩa (danh mục sản phẩm), thứ bậc (đánh giá sao), rời rạc (số đơn hàng), và liên tục (giá trị đơn hàng). Hiểu rõ từng loại giúp họ phân tích đúng cách và đưa ra chiến lược kinh doanh hiệu quả.
Dữ liệu có hai loại chính: định tính (mô tả đặc điểm) và định lượng (đo lường bằng số). Định tính gồm danh nghĩa (không thứ tự) và thứ bậc (có thứ tự). Định lượng gồm rời rạc (đếm được) và liên tục (đo được). Nhận diện đúng loại dữ liệu là bước đầu tiên để chọn phương pháp phân tích và biểu đồ phù hợp.