Podstawy szeregów czasowych

Poziom trudności: Średniozaawansowany Czas czytania: 12 minut

Co czyni szeregi czasowe wyjątkowymi

Szereg czasowy to po prostu sekwencja punktów danych zebranych w czasie: dzienne ceny akcji, miesięczne dane sprzedażowe, godzinne odczyty temperatury lub roczne liczby ludności. To, co odróżnia dane szeregów czasowych od innych typów danych, to fakt, że kolejność ma znaczenie. Każda obserwacja jest powiązana z poprzednią i następną. Jutrzejsza temperatura jest związana z dzisiejszą. Przychody z tego miesiąca są pod wpływem zeszłomiesięcznych.

Ta zależność od czasu narusza kluczowe założenie większości standardowych metod statystycznych, które wymagają niezależności obserwacji. Nie możesz po prostu zastosować testu t lub zwykłej regresji do danych szeregów czasowych bez uwzględnienia korelacji między sąsiednimi punktami. Analiza szeregów czasowych dostarcza specjalistycznych narzędzi zaprojektowanych właśnie dla tego rodzaju danych.

2 4 6 8 10 12 120 140 160 180

Wykres rozrzutu powyżej pokazuje miesięczne dane sprzedażowe za rok. Nawet w tym krótkim szeregu widać ogólny ruch w górę. Identyfikacja tych wzorców jest pierwszym krokiem w analizie szeregów czasowych.

Trendy: kierunek długoterminowy

Trend to długoterminowy ruch w górę lub w dół w szeregu czasowym. Jeśli przychody firmy stale rosły przez pięć lat, ten wzrost jest trendem. Trendy mogą być liniowe (stały wzrost o stałą kwotę w każdym okresie) lub nieliniowe (wzrost przyspieszający lub zwalniający w czasie).

Identyfikacja trendu pomaga zrozumieć ogólny obraz i oddzielić sygnał od szumu. Jeden zły miesiąc w ogólnym trendzie wzrostowym jest czymś zupełnie innym niż jeden zły miesiąc na początku trwałego spadku. Analitycy często "odtrendowują" dane, usuwając komponent trendu, aby móc wyraźniej badać pozostałe wzorce, jak sezonowość i losowe fluktuacje.

Sezonowość: powtarzające się wzorce

Sezonowość odnosi się do regularnych, przewidywalnych wzorców powtarzających się w stałym okresie. Sprzedaż detaliczna rośnie każdego grudnia. Sprzedaż lodów osiąga szczyt latem. Członkostwa w siłowniach gwałtownie rosną w styczniu. Te wzorce są napędzane przez efekty kalendarzowe, pogodę, święta lub nawyki kulturowe.

5 10 15 20 80 100 120 140 160

Wykres powyżej pokazuje dwa lata danych z wyraźnym sezonowym szczytem w środku każdego roku, sugerującym letni szczyt. Zauważ, że wartości w drugim roku są nieco wyższe niż w pierwszym, co wskazuje na trend wzrostowy połączony z sezonowością. Rozdzielenie tych dwóch komponentów to jedno z kluczowych zadań analizy szeregów czasowych -- proces zwany dekompozycją.

Sezonowość różni się od cyklu. Wzorce sezonowe mają stały, znany okres (12 miesięcy, 7 dni, 4 kwartały). Cykle to długoterminowe wahania bez stałego okresu, jak cykle koniunkturalne trwające od trzech do dziesięciu lat. Oba są prawdziwymi wzorcami, ale sezonowość jest bardziej przewidywalna.

Średnie ruchome: wygładzanie szumu

Surowe dane szeregów czasowych są często zaszumione. Codzienne wahania mogą utrudniać dostrzeżenie ukrytego wzorca. Średnia ruchoma wygładza dane, zastępując każdy punkt średnią z otaczających punktów. Na przykład 7-dniowa średnia ruchoma zastępuje wartość każdego dnia średnią z 3 dni przed nim, samego dnia i 3 dni po nim.

Średnie ruchome są niezwykle popularne, ponieważ są proste i skuteczne. Analitycy finansowi używają ich do identyfikacji trendów cen akcji. Epidemiolodzy używają 7-dniowych średnich ruchomych do wygładzania dziennych liczb przypadków. Rozmiar okna kontroluje poziom wygładzania: szersze okno daje gładszą linię, ale wolniej reaguje na rzeczywiste zmiany.

Przykład

Podczas pandemii dzienne liczby przypadków skaczą gwałtownie z powodu opóźnień w raportowaniu (mniej przypadków w weekendy, wzrost w poniedziałki). 7-dniowa średnia ruchoma eliminuje ten efekt dnia tygodnia i ujawnia prawdziwy trend. Urzędnicy zdrowia publicznego polegają na średnich ruchomych zamiast dziennych liczb przy podejmowaniu decyzji politycznych, ponieważ wygładzone dane opowiadają jaśniejszą historię.

Autokorelacja: jak dziś wiąże się z wczoraj

Autokorelacja mierzy, jak silnie szereg czasowy jest skorelowany z opóźnioną wersją samego siebie. Jeśli dzisiejsza wartość jest silnie powiązana z wczorajszą, szereg ma wysoką autokorelację przy opóźnieniu 1.

Autokorelacja jest ważna z dwóch powodów. Po pierwsze, ujawnia ukryte wzorce. Jeśli szereg wykazuje wysoką autokorelację przy opóźnieniu 12 w danych miesięcznych, silnie sugeruje to roczny wzorzec sezonowy. Po drugie, jest krytycznym wejściem do wyboru właściwego modelu prognostycznego. Wiele modeli szeregów czasowych, jak ARIMA, jest zbudowanych bezpośrednio na strukturze autokorelacji danych.

Wykres autokorelacji (zwany też korelogramem) pokazuje korelację przy każdym opóźnieniu. Znaczące szpice w tym wykresie mówią ci, które przeszłe punkty czasowe zawierają użyteczne informacje do przewidywania przyszłości.

Prognozowanie: patrzenie w przyszłość

Ostatecznym celem wielu analiz szeregów czasowych jest prognozowanie: wykorzystanie historycznych wzorców do przewidywania przyszłych wartości. Proste metody obejmują ekstrapolację trendu i wzorca sezonowego. Bardziej zaawansowane metody, jak wygładzanie wykładnicze, dają większą wagę ostatnim obserwacjom, podczas gdy modele ARIMA używają struktury autokorelacji do generowania prognoz.

Wszystkie metody prognozowania dzielą wspólne założenie: wzorce zaobserwowane w przeszłości będą kontynuowane w przyszłości. Sprawdza się to dobrze dla prognoz krótkoterminowych, ale staje się coraz mniej wiarygodne, im dalej w przyszłość sięgamy. Żaden model nie przewidział pandemii 2020, i żadna metoda szeregów czasowych nie przewidzi nagłego szoku rynkowego. Prognozy powinny zawsze zawierać przedziały niepewności, a im dalej w przyszłość prognozujesz, tym szersze powinny być te przedziały.

Kluczowy wniosek

Dane szeregów czasowych są unikalne, ponieważ kolejność obserwacji ma znaczenie, a sąsiednie punkty są ze sobą powiązane. Trzy główne komponenty do identyfikacji to trend (kierunek długoterminowy), sezonowość (powtarzające się wzorce) i szum (losowe fluktuacje). Średnie ruchome wygładzają szum, ujawniając wzorce, a autokorelacja pokazuje, jak silnie przeszłe wartości przewidują przyszłe. Te fundamenty stanowią podstawę wszelkiego prognozowania szeregów czasowych.