Cơ bản về chuỗi thời gian

Do Kho: Trung cấp Thoi Gian Doc: 12 phut

Điều gì làm chuỗi thời gian đặc biệt

Chuỗi thời gian đơn giản là dãy điểm dữ liệu thu thập theo thời gian: giá cổ phiếu hàng ngày, doanh số hàng tháng, nhiệt độ hàng giờ, hoặc dân số hàng năm. Điều làm chuỗi thời gian khác biệt với các loại dữ liệu khác là thứ tự quan trọng. Mỗi quan sát liên kết với các quan sát trước và sau nó. Nhiệt độ ngày mai liên quan đến hôm nay. Doanh thu tháng này chịu ảnh hưởng từ tháng trước.

Sự phụ thuộc thời gian này vi phạm giả định chính của hầu hết phương pháp thống kê chuẩn, đòi hỏi quan sát độc lập nhau. Bạn không thể đơn giản áp dụng kiểm định t hay hồi quy thường cho chuỗi thời gian mà không tính đến tương quan giữa các điểm gần nhau. Phân tích chuỗi thời gian cung cấp công cụ chuyên dụng cho dữ liệu này.

2 4 6 8 10 12 120 140 160 180

Biểu đồ phân tán trên cho thấy doanh số hàng tháng trong một năm. Ngay trong chuỗi ngắn này, bạn thấy xu hướng tăng chung. Nhận diện các mô hình này là bước đầu trong phân tích chuỗi thời gian.

Xu hướng: Hướng đi dài hạn

Xu hướng là chuyển động tăng hoặc giảm dài hạn trong chuỗi thời gian. Nếu doanh thu công ty tăng đều năm năm qua, sự tăng trưởng đó là xu hướng. Xu hướng có thể tuyến tính (tăng đều một lượng cố định mỗi kỳ) hoặc phi tuyến (tăng tốc hoặc giảm tốc).

Nhận diện xu hướng giúp hiểu bức tranh lớn và tách tín hiệu khỏi nhiễu. Một tháng xấu trong xu hướng tăng rất khác một tháng xấu đầu tiên của suy giảm kéo dài. Nhà phân tích thường "khử xu hướng" bằng cách loại bỏ thành phần xu hướng để nghiên cứu rõ hơn các mô hình còn lại như tính mùa vụ và dao động ngẫu nhiên.

Tính mùa vụ: Mô hình lặp lại

Tính mùa vụ chỉ các mô hình đều đặn, dự đoán được lặp lại theo chu kỳ cố định. Doanh số bán lẻ tăng vọt mỗi tháng 12. Bán kem đạt đỉnh mùa hè. Đăng ký phòng gym tăng mạnh tháng Giêng. Các mô hình này do hiệu ứng lịch, thời tiết, ngày lễ hay thói quen văn hóa.

5 10 15 20 80 100 120 140 160

Biểu đồ trên cho thấy hai năm dữ liệu với đỉnh mùa rõ ràng giữa mỗi năm, gợi ý đỉnh mùa hè. Lưu ý giá trị năm hai cao hơn năm đầu, cho thấy xu hướng tăng kết hợp tính mùa vụ. Tách hai thành phần này là nhiệm vụ chính trong phân tích chuỗi thời gian, gọi là phân rã.

Tính mùa vụ khác chu kỳ. Mô hình mùa vụ có chu kỳ cố định, biết trước (12 tháng, 7 ngày, 4 quý). Chu kỳ là dao động dài hạn không có chu kỳ cố định, như chu kỳ kinh doanh kéo dài ba đến mười năm. Cả hai là mô hình thật, nhưng tính mùa vụ dự đoán được hơn.

Trung bình trượt: Làm mượt nhiễu

Dữ liệu chuỗi thời gian thô thường nhiễu. Dao động hàng ngày có thể che khuất mô hình nền. Trung bình trượt làm mượt dữ liệu bằng cách thay mỗi điểm bằng trung bình các điểm xung quanh. Trung bình trượt 7 ngày thay giá trị mỗi ngày bằng trung bình 3 ngày trước, ngày hiện tại và 3 ngày sau.

Trung bình trượt cực kỳ phổ biến vì đơn giản và hiệu quả. Nhà phân tích tài chính dùng nhận diện xu hướng giá cổ phiếu. Nhà dịch tễ dùng trung bình trượt 7 ngày làm mượt số ca hàng ngày. Đội vận hành dùng phát hiện thay đổi lưu lượng web. Kích thước cửa sổ (bao nhiêu điểm lấy trung bình) kiểm soát mức làm mượt: cửa sổ rộng hơn cho đường mượt hơn nhưng phản ứng chậm hơn với thay đổi thật.

Ví dụ

Trong đại dịch, số ca hàng ngày dao động mạnh do trễ báo cáo (ít ca cuối tuần, tăng thứ Hai). Trung bình trượt 7 ngày loại bỏ hiệu ứng ngày trong tuần và tiết lộ xu hướng thật. Cơ quan y tế dựa vào trung bình trượt thay vì số ca hàng ngày để ra quyết định chính sách vì dữ liệu làm mượt kể câu chuyện rõ ràng hơn.

Tự tương quan: Hôm nay liên quan hôm qua thế nào

Tự tương quan đo mức tương quan giữa chuỗi thời gian với phiên bản trễ của chính nó. Nếu giá trị hôm nay liên quan mạnh với hôm qua, chuỗi có tự tương quan cao tại độ trễ 1. Nếu doanh số tuần này dự đoán doanh số tuần sau, có tự tương quan tại độ trễ 1 trong dữ liệu tuần.

Tự tương quan quan trọng hai lý do. Đầu tiên, tiết lộ mô hình ẩn. Nếu chuỗi có tự tương quan cao tại độ trễ 12 trong dữ liệu tháng, gợi ý mạnh mẽ mô hình mùa vụ hàng năm. Thứ hai, là đầu vào quan trọng cho chọn mô hình dự báo đúng. Nhiều mô hình chuỗi thời gian như ARIMA được xây dựng trực tiếp trên cấu trúc tự tương quan.

Biểu đồ tự tương quan (còn gọi là correlogram) cho thấy tương quan tại mỗi độ trễ. Đỉnh đáng kể cho biết điểm thời gian quá khứ nào chứa thông tin hữu ích cho dự đoán tương lai. Nếu chỉ vài độ trễ đầu đáng kể và giảm nhanh, chuỗi có trí nhớ ngắn hạn. Nếu nhiều độ trễ đáng kể, chuỗi có phụ thuộc tầm xa.

Dự báo: Nhìn về phía trước

Mục tiêu cuối cùng của nhiều phân tích chuỗi thời gian là dự báo: dùng mô hình lịch sử dự đoán giá trị tương lai. Phương pháp đơn giản gồm ngoại suy xu hướng và mô hình mùa vụ về phía trước. Phương pháp phức tạp hơn như làm mượt hàm mũ cho trọng số nhiều hơn quan sát gần đây, trong khi mô hình ARIMA dùng cấu trúc tự tương quan tạo dự đoán.

Mọi phương pháp dự báo chia sẻ giả định cốt lõi: mô hình quan sát trong quá khứ sẽ tiếp tục trong tương lai. Điều này hoạt động tốt cho dự đoán ngắn hạn nhưng ngày càng không đáng tin khi nhìn xa hơn. Không mô hình nào dự đoán được đại dịch 2020, và không phương pháp chuỗi thời gian nào dự đoán cú sốc thị trường đột ngột. Dự báo luôn nên bao gồm khoảng bất định, và càng xa tương lai, khoảng càng rộng.

Điểm chính

Dữ liệu chuỗi thời gian độc đáo vì thứ tự quan sát quan trọng và các điểm gần nhau liên quan. Ba thành phần chính cần tìm: xu hướng (hướng dài hạn), tính mùa vụ (mô hình lặp lại) và nhiễu (dao động ngẫu nhiên). Trung bình trượt làm mượt nhiễu để tiết lộ mô hình, và tự tương quan cho thấy giá trị quá khứ dự đoán tương lai mạnh đến mức nào. Những nền tảng này là cơ sở cho mọi dự báo chuỗi thời gian.