Arhive zilnice: 9 februarie 2015

Primul pas în analiza unei serii cronologice

Să presupunem că avem șirul de date al unei serii cronologice pus într-un tabel. Analiza unui astfel de tabel se poate dovedi anevoioasă. Comparațiile între valori se pot realiza prin scăderi și chiar și așa despre diferențele obținute nu știm dacă putem afirma că sunt mari sau mici. La ce ne vom raporta? Pentru a porni analiza unei serii cronologice (și în general în statistică) vom realiza o diagramă de tip linie a datelor, un grafic. Aceasta pentru că panta liniei ne poate da o idee despre creșterea (sau descreșterea) unui fenomen, iar lungimea segmentelor ne poate arăta durata desfășurării unui proces.

fig01

În exemplul de mai sus, am reprezentat valorile unui experiment timp de 10 zile (date fictive). Doar din analiza primară a acestui grafic, putem observa următoarele:

1. cea mai lunga perioadă constantă este de 4 zile (de la ziua a 6-a la ziua a 9-a)
2. cea mai mare scădere are loc în ziua a 3-a ( de la 14 la 12)
3. cea mai mare creștere are loc în ziua a 5-a (de la 11 la 15)
4 cea mai mică valoare e atinsă în ziua a 4-a (11)
5. cea mai mare valoare e atinsă în ultima zi – a 10-a (17)

Pe de altă parte graficul de poate ajuta să comparăm doua serii cronologice. Să presupunem că tot în aceleași 10 zile am făcut măsurători într-o altă zonă și, reprezentând datele, am obținut următorul grafic.

fig02

Se observă că în timp ce la primele date avem o tendință crescătoare (deși variația datelor e mare), în al doilea caz tendința este descrescătoare.

Un alt tip de diagramă pe care-l putem întâlni în analiza seriilor cronologice este următorul (graficul este preluat din carte):

fig03_carte

În acest grafic sunt prezentate cantitățile de lapte recoltate pe o perioadă de 168 de luni. Forma graficului ne arată efectul sezonier al procesului (creștere până în iunie si descreștere până în decembrie).

Un alt lucru ce-l putem observa cu ajutorul graficelor sunt datele aberante sau anormale. Acestea se pot observa atunci când avem creșteri și descreșteri bruște. Să prespunem că analizăm producția de lapte pentru un an și obținem următoarea reprezentare a datelor:

fig04

Se observă că în luna a 4-a avem o valoare de 140 care, în mod clar, nu se încadrează în trendul seriei cronologice. Primul lucru pe care trebuie să-l facem în acest caz este să ne asigurăm că nu este vorba de o eroare de transcriere a datelor sau o eroare de măsurare (de exemplu în anumite zile din luna aprilie în loc de înregistrarea în milioane de litri să se fi scris mii de litri). În cazul în care valoarea nu este rezultatul unei erori de măsurare, ar trebui să vedem dacă nu cumva valoarea a apărut datorită unor factori socio-economici (situația politică sau economică particulară din acel an). Dacă dorim să analizăm fenomenul, s-ar putea să fie utilă eliminarea datelor aberante. Despre acest tip de date vom vorbi într-o postare viitoare.

Un alt lucru de care trebuie să ținem cont când realizăm un grafic este modul în care alegem scala și originea axelor. De exemplu, pentru graficul de mai sus, am putea să luăm scala pentru Oy cuprinsă între 130 și 300. Atunci am avea următoarea reprezentare:

fig05

Acest tip de reprezentare este util atunci când dorim să punem în evidență mai bine tendințele seriei cronologice.

Graficul inițial poate fi reprezentat și fără a trasa linii între valori:

fig06

Acest gen de grafic este mai aproape de realitate, deoarece procesul descris se referă la date discrete. Totuși în practică se unesc punctele pentru a pune în evidență mai clar tendința. Pe de altă parte, unirea cu linii a punctelor poate fi parte dintr-un proces de interpolare.

Notițe pe maginea materialului “Serie Chronologique. Comment interpreter les resultats?” – apărut la ITCF Cerealiers de France