Introduzione all`analisi delle serie storiche e dei metodi di previsione

Transcript

Introduzione all`analisi delle serie storiche e dei metodi di previsione
Introduzione all’analisi delle serie storiche
e dei metodi di previsione
Indice
1.
Capitolo introduttivo, 1
1.1 Introduzione
1.2 Fasi di un’analisi di previsione e struttura delle dispense
2.
Metodi e strumenti di base, 5
2.1 Serie storica e dati cross section
2.2 Analisi grafiche preliminari
2.3 Sintesi numeriche
2.4 Misure di bontà di adattamento e di accuratezza della previsione
2.5 Trasformazioni e aggiustamenti
2.6 Aggiustamenti della serie per tener conto delle variazioni dei prezzi
2.6.1 I numeri indici semplici
2.6.2 I numeri indici sintetici: Paasche,Laspeyres, Fisher
2.6.3 I principalinumeri indici costruiti in Italia
2.6.4 Esempi di aggiustamento di una serie storica
3.
Metodi di scomposizione, 31
3.1 Introduzione
3.2 Il modello di scomposizione
3.3 Rappresentazioni grafiche negli approcci di scomposizione
3.4 La media mobile
3.5 Scomposizione classica: il modello additivo
3.6 Scomposizione classica: il modello moltiplicativo
3.7 Alcune osservazioni ulteriori sui metodi di scomposizione
4.
Studio del trend mediante forma analitica, 51
4.1 Introduzione
4.2 Forme analitiche per rappresentare il trend
4.3 Stima del trend
4.4 Stima della componente sistematica e previsione
Cap 1 Analisi preliminare
1
1. Capitolo introduttivo
1.1 Introduzione
In molte situazioni che interessano l’impresa e il management, emerge la
necessità di pianificare le azioni future. La previsione è uno strumento
importante per una pianificazione efficiente. Inoltre, tale strumento rende il
decisore meno soggetto ad eventi inaspettati in quanto gli impone un
approccio più scientifico riguardo alla conoscenza dell’ambiente in cui
opera.
Fra gli scopi per i quali lo strumento previsivo è di cruciale importanza
ricordiamo.
1. Utilizzo efficiente delle risorse: programmazione della produzione,
organizzazione dei trasporti, del personale, ecc.. I fenomeni da prevedere
sono costituiti da: livello della domanda, del materiale, del lavoro, ecc.
2. Approvvigionamento delle risorse: è importante prevedere le necessità
future di materiali, prodotti, ecc. perché esiste un certo intervallo di tempo
per ottenerli.
3. Determinazione dell’ammontare delle risorse necessarie: tutte le
organizzazioni devono determinare le risorse che saranno necessarie nel
lungo termine.
Le tre categorie sopra individuate si riferiscono a tre tipologie di previsioni:
di breve, di medio e di lungo periodo. Questo significa che una
organizzazione che vuole predisporre un sistema previsivo, dovrà seguire
approcci differenti.
Un sistema previsivo aziendale deve realizzare uno stretto collegamento fra
tutte le aree o divisioni dell’impresa. Ad esempio, una errata previsione
sulle vendite influenza le decisione sul budget, sulla politica delle scorte,
ecc. Un errore nella pianificazione di budget può avere ricadute sulle spese
pubblicitarie, sullo sviluppo di nuovi prodotti , ecc.
Sono state sviluppate numerose tecniche previsivi che sono classificate in
due categorie generali: tecniche quantitative, basati su metodi statistici e
tecniche qualitativi, basate prevalentemente su giudizi (Makridakis,
Wheelwright, Hyndmann, 19XX).
I metodi di tipo quantitativo possono essere impiegati quando: (i) sia
disponibile una sufficiente informazione sull’evoluzione passata del
fenomeno; (ii) tale informazione possa essere quantificata, e (iii) si possa
assumere che le caratteristiche dell’evoluzione passata continuino a
sussistere nel futuro, al fine di effettuare la previsione. L’applicazione del
2
Cap. 1 Capitolo introduttivo
corretto metodo di previsione, riesce spesso a identificare la relazione che
c’è fra la variabile da prevedere e il tempo (oppure altre variabili che hanno
il ruolo di predittori) rendendo possibile l’operazione di previsione.
Le tecniche o metodi di tipo quantitativo sono numerosi perché sono stati
sviluppati nell’ambito di numerose discipline. Ogni tecnica ha suoi scopi
precipui, costi e tempi di realizzazione rispetto ai quali ne viene valutata la
convenienza. Nella maggioranza dei casi le tecniche quantitative sono di
tipo formalizzato; esse richiedono cioè l’impiego di metodologia statisticomatematica a livello più o meno elevato.
Metodi quantitativi: è disponibile sufficiente informazione quantitativa.
ƒ
ANALISI DELLE SERIE STORICHE (TIME SERIES): prevede la ripetizione, nel futuro,
del sentiero storico (es. andamento delle vendite, del PIL, ecc.).
ƒ
METODI ESPLICATIVI: impiegano modelli di regressione per misurare quanto una
variabile esplicativa influenza la variabile da prevedere (es. effetti sulle vendite
della promozione pubblicitaria e/o del prezzo).
Metodi qualitativi: limitata o nessuna informazione quantitativa ma esiste sufficiente
informazione di tipo qualitativo (es. quale sarà la rapidità di calcolo di un PC nel 2010?).
E’ importante soffermarci sulla categorizzazione interna ai metodi
quantitativi fra modelli di analisi delle serie storiche e modelli esplicativi.
Questi ultimi assumono che la variabile da prevedere possa essere messa in
relazione con una o più variabili indipendenti o esplicative. Ad esempio, la
domanda di beni di consumo di una famiglia dipende dal reddito percepito,
dall’età dei componenti, ecc. Tali tecniche di previsione impiegano i metodi
di regressione e quindi la fase principale dell’analisi consiste nella
specificazione e stima di un modello che mette in relazione la variabile da
prevedere (variabile risposta) e le variabili esplicative. Queste, spesso,
hanno la funzione di variabili strumentali rispetto alle quali si esplicita
l’andamento del fenomeno da prevedere. La fase di previsione vera e
propria richiede la conoscenza dei livelli futuri delle variabili esplicative
che, sostituiti nella formula stimata del modello, forniscono la previsione
per la variabile che interessa (la variabile dipendente del modello). I metodi
esplicativi sono di particolare utilità ed efficacia quando la variabile
esplicativa è direttamente manipolabile dal decisore (ad es. il prezzo del
prodotto).
Nell’analisi delle serie storiche il fenomeno da prevedere viene trattato
come una scatola nera in quanto non si cerca di individuare i fenomeni che
lo possono influenzare. L’obiettivo di questo approccio consiste
nell’identificazione dell’evoluzione passata del fenomeno e nella
Cap 1 Analisi preliminare
3
estrapolazione del sentiero passato per ottenere la previsione. In altre parole,
il fenomeno da prevedere viene modellato rispetto al tempo e non rispetto
ad una variabile esplicativa. Questa impostazione si rivela senz’altro utile
quando:
1. il fenomeno è poco conosciuto oppure è difficile individuare (misurare) le
relazioni che questo ha con altri fenomeni;
2. siamo interessati a conoscere ciò che accadrà e non il modo in cui
accadrà.
Gli approcci o metodi di tipo qualitativo non richiedono dati o informazioni
formalizzate. Essi si basano soprattutto su giudizi e sull’esperienza
accumulata e sono prevealentemente usati per indicare tendenze più che per
prevedere specifici valori numerici. Si ritiene che questi metodi possano
essere usati con successo in congiunzione con i metodi quantitativi, nelle
aree dello sviluppo di prodotto, degli investimenti di capitale, nella
formulazione di strategie, ecc.
Concludiamo questo paragrafo sottolineando che il decisore ha a sua
disposizione un vasto armamentario di strumenti di previsione che variano
per: l’informazione necessaria, il livello di formalizzazione e di trattamento
statistico-matematico, l’orizzonte temporale di previsione, il costo.
1.2 Fasi di un’analisi di previsione e struttura delle dispense
Un’analisi di previsione basata su dati quantitativi si sviluppa in cinque fasi.
1.
2.
3.
4.
5.
Definizione del problema
Raccolta di informazioni
Analisi preliminare dei dati
Scelta e adattamento del modello
Valutazione del modello e suo impiego a fini previsivi.
La fase 2 concerne sia informazioni di tipo quantitativo sia di tipo
qualitativo (es. giudizi). E’ in genere necessario raccogliere dati storici sul
fenomeno di interesse (ad esempio: fatturato mensile).
La fase 3 riguarda l’impiego di metodi statistici grafici e descrittivi, che
vengono discussi nel capitolo 2. Lo scopo è quello di cercare di individuare
eventuali regolarità nell’andamento temporale del fenomeno di interesse.
Per la fase 4, vedremo l’impiego di approcci empirici di analisi delle serie
storiche come i metodi di scomposizione (capitolo 3) basati sulle medie
mobili e anche approcci che richiedono l’impiego di metodi di regressione
(capitolo 4).
4
Cap. 1 Capitolo introduttivo
Sono disponibili numerosi criteri per la valutazione della bontà del modello,
a seconda dell’approccio di analisi che è stato scelto (fase 5). A questo
proposito è importante fare distinzione fra fitting error o errore di stima e
forecasting error o errore di previsione. Il primo fa riferimento a come il
modello si adatta ai dati passati; il secondo riguarda la capacità del modello
nel prevedere i dati futuri.
Nelle dispense viene dato ampio spazio ai metodi quantitativi, tuttavia
nell’ultimo capitolo (capitolo 5) viene fatto un cenno anche ai metodi di
previsione di tipo qualitativo.
5
Cap 2 Metodi e strumenti di base
2. Metodi e strumenti di base
2.1 Serie storica e dati cross section
E’ importante fare innanzi tutto una distinzione fra serie storica e dati cross
section o dati sezionali. Una serie storica è una sequenza di osservazioni
ordinate rispetto al tempo (ad esempio: il fatturato mensile, i prezzi
giornalieri delle azioni, il tasso di interesse settimanale, il profitto annuo,
ecc.). Lo scopo dell’analisi delle serie storiche consiste nello studio
dell’evoluzione passata del fenomeno rispetto al tempo; la previsione viene
ottenuta ipotizzando che tali regolarità di comportamento di ripetano nel
futuro. A tale scopo noi assumiamo, in queste note, che i tempi di
osservazione siano equispaziati. Questa non è una grossa restrizione poiché
molti fenomeni di interesse aziendale vengono registrati in corrispondenza
di tempi equispaziati o di intervalli di medesima ampiezza. Un esempio di
serie storica è riportato nella Tab. 2.1, che contiene il dato sulla popolazione
residente in Italia dal 1979 al 2000.
Tab. 2.1 – Popolazione residente in Italia a metà anno (migliaia di unità)
Anno
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
Fonte: Istat
Popolazione
56.318
56.434
56.510
56.544
56.564
56.577
56.593
56.596
56.602
56.629
56.672
Anno
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
Popolazione
56.719
56.751
56.859
57.049
57.204
57.301
57.397
57.512
57.588
57.646
57.728
La Tab. 2.2 contiene dati sezionali (o trasversali) che sono riferiti ad un
medesimo periodo di tempo. In particolare, si tratta del PIL delle venti
regioni italiane, prodotto nel 1999.
6
Cap. 2 Metodi e strumenti di base
Tab. 2.2 - PIL regionale anno 1999 (miliardi di Lire)
Regione
PIL
Regione
PIL
Piemonte
186328,9 Marche
55344,1
V. d’Aosta
5806,1 Lazio
216629,9
Lombardia
436875,2 Abruzzo
39631,8
Trentino A.A.
45347,1 Molise
9544,2
Veneto
195651,8 Campania
139188,6
Friuli V.G.
49461,6 Puglia
100616,6
Liguria
64664,1 Basilicata
16154,3
Emilia R.
188508,8 Calabria
47131,2
Toscana
144547,6 Sicilia
124999,4
Umbria
29973,9 Sardegna
47438,3
Fonte: Istat
2.2 Analisi grafiche preliminari
La prima cosa importante da fare quando ci accingiamo ad analizzare una
serie storica è quello di visualizzare i dati mediante una rappresentazione
grafica. Lo scopo è quello di individuare eventuali regolarità di
comportamento che sono utili nel suggerire l’approccio modellistico.
Il grafico più semplice è il cosiddetto time plot (oppure line plot) che
consiste nella rappresentazione dei dati rispetto al tempo. Il time plot dei
dati di Tab. 2.1 è mostrato nella Fig. 2.1. La Fig. 2.2 riporta invece il time
plot delle vendite mensili di birra in Australia, per il periodo 1991-1994
(dati in Tab. 2.3).
Fig. 2.1 – Time plot per i dati di Tab. 2.1
57.500
57.000
56.500
56.000
55.500
19
79
19
81
19
83
19
85
19
87
19
89
19
91
19
93
19
95
19
97
19
99
Popolazione (migliaia)
58.000
Anno
7
Cap 2 Metodi e strumenti di base
Fig. 2.2 – Time plot dei dati di Tab. 2.3
200.000
190.000
Migliaia di litri
180.000
170.000
160.000
150.000
140.000
130.000
120.000
1991
1992
1993
1994
Tab. 2.3 – Vendite mensili di birra in Australia (migliaia di litri)
Anno
Mese
Quantità
Anno
Mese
Quantità
1991 Gennaio
164.000 1993 Gennaio
139.000
Febbraio
148.000
Febbraio
143.000
Marzo
152.000
Marzo
150.000
Aprile
144.000
Aprile
154.000
Maggio
155.000
Maggio
137.000
Giugno
125.000
Giugno
129.000
Luglio
153.000
Luglio
128.000
Agosto
146.000
Agosto
140.000
Settembre
138.000
Settembre
143.000
Ottobre
190.000
Ottobre
151.000
Novembre
192.000
Novembre
177.000
Dicembre
192.000
Dicembre
184.000
1992 Gennaio
147.000 1994 Gennaio
151.000
Febbraio
133.000
Febbraio
134.000
Marzo
163.000
Marzo
164.000
Aprile
150.000
Aprile
126.000
Maggio
129.000
Maggio
131.000
Giugno
131.000
Giugno
125.000
Luglio
145.000
Luglio
127.000
Agosto
137.000
Agosto
143.000
Settembre
138.000
Settembre
143.000
Ottobre
168.000
Ottobre
160.000
Novembre
176.000
Novembre
180.000
Dicembre
188.000
Dicembre
182.000
Fonte: Makridakis, Wheelwright, Hyndman (19xx)
8
Cap. 2 Metodi e strumenti di base
Un time plot immediatamente rivela tendenze o oscillazioni regolari, e altri
andamenti di tipo sistematico rispetto al tempo. La Fig. 2.1 riporta dati
annuali che evidenziano un andamento sistematicamente crescente nel lungo
periodo (trend crescente). La serie di Fig. 2.2 presenta una andamento meno
liscio; essendo i dati a cadenza mensile, in essi è presente il fenomeno
denominato stagionalità. Si può notare (aiutandoci anche con la Tab. 2.3)
che i picchi elevati si registrano sempre nei mesi caldi (novembre e
dicembre; attenzione: i dati si riferiscono all’Australia!) e vicini alle feste
natalizie.
In generale, possono essere individuati quattro tipi di andamento (o pattern)
rispetto al tempo.
1. Pattern orizzontale. In questo caso la serie oscilla intorno ad un valore
costante (media della serie). Tale serie è detta stazionaria in media. E’ il
caso tipico che si presenta nel controllo di qualità on line quando il processo
si mantiene sotto controllo rispetto alla media.
2. Pattern stagionale. Questo esiste quando la serie è influenzata da fattori
stagionali (es. mensile, semestrale, trimestrale, ecc.). Prodotti come gelati,
bibite analcoliche, consumo di elettricità sono soggette al fenomeno
stagionale (v. Figg. 2.2 e 2.3). Le serie influenzate dalla stagionalità sono
dette anche serie periodiche poiché il ciclo stagionale si ripete in un periodo
fisso. Nei dati di tipo annuale la stagionalità non è presente (v. Fig. 2.1).
3. Pattern ciclico. Questo tipo di andamento è presente quando la serie
presenta aumenti e diminuzioni che non sono di periodo fisso. Questa è la
principale differenza fra le fluttuazioni cicliche e quelle stagionali. Inoltre,
l’ampiezza delle oscillazioni cicliche è generalmente più grande di quella
dovuta alla stagionalità. Nelle serie economiche il pattern ciclico è
determinato dalle espansioni e contrazioni dell’economia dovuti a fenomeni
congiunturali.
4. Trend o tendenza di fondo. E’ caratterizzato da un andamento crescente o
decrescente di lungo periodo. La serie della popolazione residente in Italia è
un esempio di andamento tendenziale o trend di tipo crescente; la serie delle
vendite mensili di birra, invece, non presenta alcun trend. Ha un pattern di
fondo di tipo orizzontale
Molte serie evidenziano una combinazione di questi pattern. Ad esempio, la
serie di Tab. 2.4 presenta sia trend sia stagionalità (v. Fig. 2.3). E’ proprio
questo genere di complessità che rende l’operazione di previsione
estremamente interessante. I metodi previsivi, infatti, devono essere in
grado di riconoscere le varie componenti della serie in modo da riprodurle
nel futuro, nell’ipotesi che il pattern passato continui a ripetersi, nelle sue
caratteristiche evolutive, anche nel futuro.
9
Cap 2 Metodi e strumenti di base
Tab. 2.4 – Vendite mensili di bottiglie di bibita QQQ (da ½ litro)
Anno Mese
t
Nr. Anno Mese
t
Nr. Anno Mese
1999
1
1 189 2000
1
13 244 2001
1
1999
2
2 229 2000
2
14 296 2001
2
1999
3
3 249 2000
3
15 319 2001
3
1999
4
4 289 2000
4
16 370 2001
4
1999
5
5 260 2000
5
17 313 2001
5
1999
6
6 431 2000
6
18 556 2001
6
1999
7
7 660 2000
7
19 831 2001
7
1999
8
8 777 2000
8
20 960 2001
8
1999
9
9 915 2000
9
21 1152 2001
9
1999
10
10 613 2000
10
22 759 2001
10
1999
11
11 485 2000
11
23 607 2001
11
1999
12
12 277 2000
12
24 371 2001
12
Fonte: dati fittizi di nostra elaborazione
t
Nr.
25 298
26 378
27 373
28 443
29 374
30 660
31 1004
32 1153
33 1388
34 904
35 715
36 441
Fig. 2.3 – Time plot della serie di Tab. 2.4
1400
1200
Nr. bottiglie
1000
800
600
400
200
35
31
33
27
29
23
25
19
21
15
17
9
11
13
7
5
3
1
0
t
Se una serie storica esibisce un’oscillazione stagionale è utile eseguire un
seasonal plot o grafico stagionale, che consiste nella rappresentazione dei
valori della serie (in ordinata) versus i periodi stagionali come: mesi,
trimestri, semestri, ecc. (in ascissa). I punti corrispondenti al medesimo
anno vengono uniti da segmenti lineari di modo che si formano tante
spezzate quanti sono gli anni della serie. Il seasonal plot per la serie di Tab.
2.4 è rappresentato nella Fig. 2.4. Si può apprezzare la presenza di
oscillazioni stagionali in espansione durante i mesi estivi con inizio da
giugno, in contrazione a partire da ottobre.
10
Cap. 2 Metodi e strumenti di base
Fig. 2.4 – Seasonal plot della serie di Tab. 2.4
1400
1999
1200
2000
2001
Nr. bottiglie
1000
800
600
400
200
0
0
1
2
3
4
5
6
mesi
7
8
9
10 11 12
Il seasonal plot è in grado di mostrare anche l’eventuale presenza del trend.
Nella Fig. 2.4, ad esempio, notiamo che la spezzata relativa al 1999 è la più
bassa mentre quella del 2001 è la più elevata. E’ evidente che il livello
annuo della serie è aumentato nei tre anni.
Nella fase di analisi preliminare di una serie storica, può essere di utilità
anche il grafico in cui i valori della serie (in ordinata) sono rappresentati
rispetto ai periodi annuali (in ascissa). La Fig. 2.5 riporta questo tipo di
grafico per i dati di Tab. 2.4.
Fig. 2.5 – Grafico della serie di Tab. 2.4 rispetto agli anni
1400
Nr. bottiglie
1200
1000
800
600
400
200
0
1998
1999
2000
anni
2001
11
Cap 2 Metodi e strumenti di base
La Fig. 2.5 è in grado di dare indicazioni riguardo a:
ƒ la presenza del trend; si nota come le tre ‘colonne’di punti tendono, con
gli anni, ad essere posizionate leggermente più in alto;
ƒ il tipo di oscillazione stagionale interna all’anno; si nota come,
all’aumentare del trend, il range di variazione dei valori stagionali è più
ampio.
2.3 Sintesi numeriche
In aggiunta ai grafici, è utile approfondire l’analisi statistica, calcolando
indici sintetici quali: media, mediana, campo di variazione, varianza,
deviazione standard (standard deviation), ecc.
Indici di posizione e di variabilità frequentemente usati
Serie storica: y1, y2, …, yt, …, yn, t=1,…,n
Media aritmetica
y=
1 n
∑ yt
n t =1
R=Max(yt)−min(yt)
Campo di variazione (range)
Varianza
Deviazione standard
S2 =
1 n
( yt − y )2
∑
n − 1 t =1
S = + S2 =+
1 n
∑ ( yt − y )2
n − 1 t =1
Altre misure statistiche impiegate nell’analisi delle serie storiche sono: la
covarianza e la correlazione che, nella fattispecie, vengono denominate
rispettivamente autocovarianza e autocorrelazione dal momento che sono
calcolate fra coppie di punti della medesima serie, distanti k periodi. La
costante k è detta lag temporale. Le formule dell’autocovarianza e
dell’autocorrelazione sono illustrate nel quadro di seguito riportato.
Autocovarianza e autocorrelazione
Autocovarianza
ck =
1 n−k
∑ ( yt − y )( yt + k − y )
n − 1 t =1
n−k
Autocorrelazione
rk =
∑( y
t =1
t
− y )( y t + k − y )
n
∑( y
t =1
t
− y )2
=
ck
c0
12
Cap. 2 Metodi e strumenti di base
Consideriamo i dati di Tab. 2.4, relativi alle vendite di bottiglie di bibita
QQQ, dove n=36. Se poniamo k=1, otteniamo n-k=n-1=35 coppie di valori
(yt, yt+1), t=1,…,n-1, per calcolare l’autocovarianza e l’autocorrelazione. Se
poniamo k=2, otteniamo n-k=n-2=34 coppie di valori (yt, yt+2), t=1,…,n-2,
e così via. I valori di rk con k=1,2,…,24, sono rappresentati nella Fig. 2.6
che è denominata correlogramma ed è molto utile per l’identificazione
dell’ampiezza delle oscillazioni cicliche o stagionali presenti nei dati.
Fig. 2.6 – Correlogramma per i dati di Tab. 2.4
1
0,8
autocorrelazione
0,6
0,4
0,2
0
-0,2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
-0,4
-0,6
lag
Dal correlogramma di Fig. 2.6, possiamo dedurre la ciclicità del legame di
autocorrelazione dovuto al marcato fenomeno stagionale che influenza i
dati. Da notare che l’autocorrelazione è negativa per periodi di 6, 18 mesi, e
infatti mentre di giugno-luglio si registrano impennate nelle vendite, i mesi
dicembre-gennaio vedono un fatturato al minimo. Al contrario è positive ed
elevata la correlazione di lag 12 mesi. Tutto ciò è una conferma della
presenza di una marcata stagionalità di ampiezza 12 periodi (mesi).
C’è da osservare che l’autocorrelazione rk (e lo stesso discorso vale per
l’autocovarianza ck) viene calcolata su n-k coppie di valori; pertanto
all’aumentare di k si riduce la numerosità dei dati ovvero la consistenza
delle informazioni.
2.4 Misure di bontà di adattamento e di accuratezza della previsione
In molte analisi statistiche in cui un modello viene adattato a un set di dati
(ad es. nell’analisi di regressione), il termine accuratezza si riferisce alla
capacità del modello di riprodurre i dati sui quali è stato stimato e cioè della
13
Cap 2 Metodi e strumenti di base
bontà di adattamento del modello (goodness of fit). L’accuratezza nella
previsione (forecast accuracy), invece, misura la capacità del modello a
riprodurre i dati futuri della serie.
Se il metodo di previsione si propone un orizzonte temporale di più periodi,
la verifica della sua capacità previsiva può avvenire come di seguito
indicato:
1) si utilizzano i primi m dati della serie per la stima del modello;
2) si usano i successivi m+1,…,n dati per la verifica dell’accuratezza
previsiva.
Per capire quanto appena detto introduciamo un po’ di simbologia:
ƒ
ƒ
ƒ
y1, y2, …, yn indica la serie di dati disponibile;
y1, y2, …, ym m<n, indica la serie di dati che viene usata per la stima del
modello di previsione (training sample);
ym+1, ym+2, …, yn , indica la serie di dati che viene usata per la verifica
della capacità previsiva (test sample);
ƒ
ŷ1 , ŷ 2 ,..., ŷ m sono le stime dei valori del training sample ottenute tramite
il modello stimato;
ƒ Fm+1, Fm+2,…,Fn sono le previsioni (forecast) riferite al periodo di tempo
da t=m+1 a t=n (test sample), ottenuto tramite il modello stimato sul
training sample.
La differenze fra l’errore di stima et e l’errore di previsione ft, può essere
apprezzata dalle formule seguenti:
et = y t − ŷ t , t=1,…,m;
f t = y t − Ft ,
t=m+1,…,n.
Spesso il decisore è interessato a conoscere il valore della serie, relativo al
periodo immediatamente successivo all’ultimo dato disponibile. Si tratta
della previsione a un passo (one-step forecast) che consiste nella previsione
di un periodo in avanti rispetto all’ultima osservazione (ad esempio si hanno
dati fino al mese di giugno 2001 e si vuole prevedere il dato per il mese di
luglio 2001). Ogni previsione Ft viene determinata pertanto usando i t-1 dati
precedenti: y1, y2,…,yt-1; e cioè impiegando un modello di previsione che è
stato stimato sui primi t-1 elementi della serie. Il procedimento è
esemplificato facendo riferimento al quadro riportato qui di seguito.
Partendo da un punto t=H>1 il modello viene stimato via via aggiungendo
un nuovo elemento fino a t=n-1; si ottengono complessivamente n-H
previsioni in corrispondenza dei periodi a partire da H+1 fino a n. In
presenza di stagionalità, questo procedimento necessita di una serie
adeguatamente lunga. Infatti, l’individuazione e la modellazione della
14
Cap. 2 Metodi e strumenti di base
stagionalità richiede di norma almeno cinque anni completi. Nel caso di dati
mensili, ad esempio, H deve essere per lo meno superiore a 60 (12x5).
Passi
1
2
:
:
n−1
Serie per la stima
y1, …, yH
y1, …, yH, yH+1
:
:
y1, …, yH, yH+1, …, yn-1
One-step forecast
FH+1
FH+2
:
:
Fn
Errore di previsione
yH+1−FH+1
yH+2−FH+2
:
:
yn−Fn
Vediamo infine le misure di bontà di adattamento/previsione usate più
frequentemente. Tali misure sono:
ƒ
ƒ
ƒ
ƒ
errore medio (mean error: ME): media aritmetica degli errori;
errore quadratico medio (mean squared error: MSE): media aritmetica
dei quadrati degli errori;
errore medio assoluto (mean absolute error: MAE): media aritmetica
degli errori presi in valore assoluto;
errore medio assoluto percentuale (mean absolute percentage error:
MAPE): media aritmetica degli errori relativi, presi in valore assoluto e
moltiplicati per 100.
Nel quadro qui sotto sono riportate le formule dei quattro indici calcolate
sugli errori di stima di una serie di m elementi, e sugli errori di previsione
per un intervallo di previsione di m periodi. Infatti, quando tali indici
vengono calcolati su et, si ottiene una misura di goodness of fit; quando sono
calcolati su ft, viene quantificato l’errore di previsione.
Bontà di adattamento
ME =
1 m
∑ et
m t =1
Accuratezza della previsione
ME =
1 m
∑ ft
m t =1
MSE =
1 m 2
∑ e
m t =1 t
MSE =
1 m 2
∑ f
m t =1 t
MAE =
1 m
∑ et
m t =1
MAE =
1 m
∑
m t =1
MAPE =
1 m
∑
m t =1
et
yt
100
MAPE =
ft
1 m
∑
m t =1
ft
yt
100
Brevemente commentiamo il tipo di informazione che viene offerta da
questi indici.
Cap 2 Metodi e strumenti di base
15
ME è l’unico indice che può assumere anche valori negativi. Il MAE avrà
valori bassi perché elementi positivi e negativi, nella sommatoria,
tenderanno a compensarsi. Il segno di ME ci dice se si tende, in media, a
sopravvalutare (ME<0) o sottovalutare (ME>0) il fenomeno.
MSE e MAE rendono positivi i singoli addendi della sommatoria. Per la
presenza dell’esponente, MSE è meno agevole da interpretare da persone
non specialiste.
I tre indici ME, MSE e MAE forniscono un valore che dipende dall’unità di
misura della serie. Il MAPE elimina questo problema in quanto l’errore
viene relativizzato dividendolo per il valore osservato. Il MAPE può però
essere usato solo se il fenomeno è misurabile su scala a rapporto. Per il
calcolo del MAPE sorgono difficoltà quando la serie osservata contiene
valori nulli o molto prossimi a zero.
A scopo puramente esemplificativo, vediamo l’impiego di questi indici per
valutare un semplice metodo di previsione sul la serie di Tab. 2.4. I dati fino
a t=24 (training sample) sono utilizzati per la stima del modello di
previsione; i dati del 2001 (test sample) sono impiegati per la verifica della
capacità previsiva del metodo che consiste nel prevedere il dato del mese j
(j=1,…,12) del 2001, mediante la media aritmetica semplice dei valori dello
stesso mese j nei due anni precedenti. Denominiamo come M1 questo
metodo di previsione. I risultati sono mostrati nella Tab.2.5.
Tab. 2.5 – Previsioni con M1 per il 2001 (dati di Tab. 2.4)
Ft
ft
Mese
yt
1
298
217
82
2
378
263
116
3
373
284
89
4
443
330
114 ME=171,2
5
374
287
88 MSE=36614,2
6
660
494
167 MAE=171,2
7
1004
746
259 MAPE=25,5%
8
1153
869
285
9
1388
1034
355
10
904
686
218
11
715
546
169
12
441
324
117
In questo caso ME=MAE poiché tutti gli errori di previsioni sono positivi.
Ciò è determinato dal fatto che, essendo presente un trend crescente, la
media dei dati relativi ai due anni precedenti fornisce una previsione
sistematicamente inferiore a quanto osservato nel 2001.
Come si vede dai valori di Tab. 2.5, questi indici possono presentare delle
difficoltà interpretative innanzi tutto perché non abbiamo un valore di
16
Cap. 2 Metodi e strumenti di base
riferimento per decidere se il metodo di previsione è soddisfacente o no.
Non c’è dubbio qui che un MAPE pari a 25% è inaccettabile. Ma se
otteniamo un MAPE uguale a 3%, come deve esesre valutato il metodo di
previsione?
Un procedimento molto semplice consiste nel confrontare i valori ottenuti
col metodo M1 con quelli derivanti dall’impiego di un metodo cosidetto
naive. Un metodo naive è, ad esempio, il seguente: prendere come
previsione per il periodo t il dato del periodo t-1. La previsione per il mese
di gennaio 2001 è uguale al valore della serie in corrispondenza di dicembre
2000, e così via. I risultati di questo metodo naive sono riportati nella Tab.
2.6.
Tab. 2.6 – Previsioni per il 2001 col metodo naive (dati di Tab. 2.4)
Mese
yt
Ft
ft
1
298
371
-73
2
378
298
80
3
373
378
-5
4
443
373
70
ME=5,8
5
374
443
-69
MSE=53668,8
6
660
374
286
MAE=188,2
7
1004
660
344
MAPE=27,6%
8
1153
1004
149
9
1388
1153
235
10
904
1388
-484
11
715
904
-189
12
441
715
-274
Vediamo che, a parte ME che risente del fenomeno di compensazioni degli
errori, tutti gli altri indici presentano valori più elevati. Pertanto il metodo
M1 (seppure anch’esso piuttosto naive) è leggermente migliore.
Un altro problema interpretativo concerne il fatto che questi indici
esprimono funzioni di distanza, fra valori osservati e previsti, che sono
molto diverse fra loro e che possono essere anche discordanti (nell’esempio
sopra riportato abbiamo visto un ME più basso per il metodo naive rispetto a
M1, e valori più elevati per gli altri indici). Occorre quindi decidere in via
preliminare l’indice da usare per misurare l’accuratezza della previsione.
Al fine di valutare le prestazioni del metodo di previsione, è buona regola
condurre anche analisi grafiche degli errori, per esaminare il loro andamento
rispetto al tempo. Su questo punto torneremo nei prossimi paragrafi.
17
Cap 2 Metodi e strumenti di base
2.5 Trasformazioni e aggiustamenti
Talvolta l’aggiustamento o la trasformazione dei valori della serie originale
produce dati più facilmente interpretabili. In questo paragrafo consideriamo
tre tipi di aggiustamenti: (i) trasformazioni matematiche; (ii) aggiustamenti
per rimuovere le oscillazioni dovute a effetti di calendario; (iii)
aggiustamenti per rimuovere oscillazioni dovute a mutamenti nella
popolazione oppure nei prezzi.
Trasformazioni matematiche. Tenuto conto che le serie storiche di natura
economica presentano valori positivi, le trasformazioni più frequentemente
usate sono: la radice quadrata e la funzione logaritmica. Vediamo un
esempio di trasformazioni logaritmica. La serie rappresentata in Fig. 2.5
evidenzia un’oscillazione stagionale che aumenta con l’aumentare del
livello della serie. Nel primo anno della serie il range dei valori mensili è
uguale a 726 (nr. di bottiglie) mentre, nell’ultimo, sale a 1090. Il metodo di
previsione deve tenere conto: del trend crescente e della marcata
oscillazione stagionale che aumenta col livello della serie. In questo caso
può essere utile procedere ad una trasformazione logaritmica. Vediamo dall
Fig. 2.7, come questa trasformazione renda l’oscillazione stagionale dello
stesso ordine di grandezza per i tre anni, evidenziando meglio anche la
presenza di un leggero trend crescente.
Fig. 2.7 – Dati trasformati (logaritmi naturali) di Tab. 2.3
7,5
7
ln (Nr. bottiglie)
6,5
6
5,5
5
4,5
34
31
28
25
22
19
16
13
10
7
4
1
4
t
Se operiamo la trasformazione dei dati, il metodo di previsione lavorerà sui
valori trasformati. Ciò significa che, nel caso esemplificato, il metodo farà
la previsione Ft=ln(yt) anziché di yt. Sarà pertanto necessario operare la
trasformazione inversa che è exp(Ft) per riportarci alla scala originale.
18
Cap. 2 Metodi e strumenti di base
Anche per la valutazione dell’accuratezza previsiva occorre lavorare con la
scala originale della serie.
Rimozione degli effetti di calendario. Alcune oscillazioni della serie sono
determinate dalla variabilità dei giorni mensili (nr. totale di giorni, nr. giorni
lavorativi, ecc.). Il numero mensile di giorni è molto variabile (da 31 a 29
negli anni bisestili; da 31 a 28 negli anni non bisestili); se questa variabilità
non è rimossa, c’è il rischio che la serie esibisca oscillazioni difficili da
interpretare. Il dato yt, relativo al mese t, viene quindi aggiustato
moltiplicandolo per un peso wt. ottenendo così il dato aggiustato yt,agg, dove:
y t ,agg = y t wt
wt =
nr . medio di giorni mensili
nr . di giorni del mese t
dove nr. medio di giorni mensili è pari a 365/12=30,4167 negli anni non
bisestili; a 366/12=30,5 negli anni bisestili.
Un aggiustamento simile avviene su dati riferiti, ad esempio, alla
produzione mensile, allo scopo di tenere conto dei giorni effettivamente
lavorati. In tale caso wt sarà:
wt =
nr . medio di giorni lavorativi mensili
nr . di giorni lavorativi nel mese t
Nelle serie storiche economiche espresse in valori monetari, un’evidente
fonte di variabilità è costituita dalla variazione dei prezzi. In tali circostanze
è necessario riportarci a valori costanti mediante l’operazione di
deflazionamento. I dati della serie vengono così resi comparabili.
Aggiustamenti della serie per tenere conto di variazioni nella popolazione di
riferimento sono simili a quello appena illustrato. Ad esempio, nel valutare
la situazione economica di una nazione sarebbe più corretto esaminare la
serie del PIL procapite anziché quella del PIL totale aggregato. Ci sono
studi demografici che forniscono previsioni della popolazione (v. il sito
www.istat.it) che possono essere utili, appunto, in fase previsiva per
riportarci al dato originale.
2.6 Aggiustamenti della serie per tener conto delle variazioni dei prezzi
Le serie di tipo economico sono costituite spesso da grandezze aggregate
espresse in valore monetario. E’ il caso, ad esempio, del fatturato totale
risultante dalla vendita di prodotti diversi, che hanno prezzi unitari diversi.
Indicando con qht e pht , rispettivamente, la quantità e il prezzo unitario del
prodotto h-esimo al tempo t, il valore dell’aggregato al tempo t è:
19
Cap 2 Metodi e strumenti di base
H
(2.1)
y t = ∑ p ht q ht
h =1
dove H indica il numero di prodotti (merci, elementi) coinvolti.
Le serie a prezzi correnti sono espresse ai prezzi del periodo t e quindi
l’evoluzione temporale del dato yt è influenzata anche dalla variazione dei
prezzi che può verificarsi nel tempo. Quando abbiamo a che fare con una
serie espressa in termini monetari a prezzi correnti, è opportuno trasformare
tali dati in valori ‘virtuali’ a prezzi costanti, capaci cioè di esprimere la
misura del volume fisico (quantità) del fenomeno. Supponendo di volere
esprime l’aggregato yt ai prezzi dell periodo 0, scelto come base, sono
disponibili tre metodi:
1. il metodo diretto;
2. il deflazionamento di yt con un indice dei prezzi che misura la variazione
dei prezzi dell’aggregato fra tempo 0 (tempo base) e il tempo t;
3. la proiezione di y0 nel futuro, mediante un indice delle quantità che
misura la variazione delle quantità dell’aggregato fra il tempo 0 (tempo
base) e il tempo t.
Il metodo diretto. Il metodo diretto può essere applicato quando si dispone
di dati relativi alle singole quantità e ai singoli prezzi per ogni periodo t e
per tutti gli H elementi dell’aggregato. Scelto t=0 come anno base, si
costruiscono i valori a prezzi costanti impiegando i prezzi dell’anno base.
La serie a prezzi costanti 0yt viene quindi calcolata come:
H
(2.2)
0 y t = ∑ p h 0 q ht
h =1
I dati interni all’azienda che sono del tipo prezzixquantità (es. costi totali,
fatturato), possono essere espressi a prezzi costanti utilizzando il metodo
diretto.
Per problemi di risorse, spesso non conviene impiegare il metodo diretto
perché esso richiede informazioni relative ai prezzi (dell’anno baso) di tutti
gli H elementi dell’aggregato. Inoltre, il metodo diretto non può essere
applicato quando l’aggregato è una grandezza puramente monetaria (come
ad esempio l’ammontare di un debito o di un credito finanziario) che non
può essere espressa come prodotto di prezzoxquantità. In tali casi si ricorre
all’operazione di deflazionamento per la quale è necessario dispone di un
adeguato indice dei prezzi. Esso deve essere rappresentativo delle
variazione dei prezzi degli elementi che costituiscono l'aggregato da
deflazionare. In generale, un indice dei prezzi costruito per deflazionare un
aggregato coinvolge solo una parte degli H elementi (prodotti, beni, merci,
20
Cap. 2 Metodi e strumenti di base
ecc.) che compongono l’aggregato stesso. Indicando con 0Ip,t il valore
dell’indice dei prezzi al tempo t con anno base 0, l’operazione di
deflazionamento è:
yt
(2.3)
0 yt =
0 I p ,t
dove 0Ip,t misura la variazione dei prezzi dell’aggregato dal tempo 0 al
tempo t.
Impiego dell’indice di quantità. Se l’aggregato è del tipo prezzixquantità
come in (2.1), e si dispone di un indice delle quantità degli elementi
dell'aggregato, si può ottenere il valore a prezzi costanti moltiplicando il
dato y0 (dato dell'anno base a prezzi correnti dell’anno base) per l'indice in
questione e cioè:
(2.4)
0
yt = y 0 0 I q ,t
dove 0Iq,t misura la variazione delle quantità dell’aggregato fra il tempo 0 e
il tempo t. Anche per l’indice di quantità vale quanto affermato per l’indice
dei prezzi: nel suo calcolo è coinvolta una parte degli H elementi
componenti l’aggregato.
Come si può vedere, nelle tre formule (2.2)-(2.4) abbiamo usato lo stesso
simbolo 0yt per indicare il dato espresso ai prezzi dell’anno base. Ciò non
deve far credere che i tre approcci producano la stessa serie e cioè gli stessi
valori a prezzi costanti. Il risultato del metodo diretto sarà in generale
diverso da quello del deflazionamento, ecc.
Nel seguito di queste note illustreremo meglio il metodo del
deflazionamento, approfondendo il concetto di indice o numero indice.
2.6.1 I numeri indici elementari
I numeri indice consentono lo studio della dinamica temporale di un
fenomeno quantitativo in quanto misurano le variaizoni relative intercorse
fra due punti nel tempo. Il vantaggio di usare la variazione relativa anziché
quella assoluta risiede nel fatto che quest’ultima risente dell’unità di misura
in cui il fenomeno è espresso.
Con riferimento ai prezzi, siano pt e p0 i prezzi di un bene al tempo t e al
tempo 0. La variazione assoluta, la variazione relativa e l’indice elementare
con anno base t=0, sono rispettivamente:
variazione assoluta
variazione relativa
numero indice elementare
(pt–p0)
(pt–p0)/p0
0ip,t=pt/p0.
Come si può facilmente verificare, il numero indice misura la variazione
relativa in quanto quest’ultima equivale a 0ip,t–1. La grandezza 0it
21
Cap 2 Metodi e strumenti di base
rappresenta un numero indice elementare poiché H=1; quando si ha a che
fare con un aggregato con H elementi e quindi con H prezzi, si usa un indice
sintetico o composto.
Il numero indice elementare qui introdotto è detto a base fissa in cui il
tempo 0 (che non corrisponde necessariamento al periodo iniziale della
serie) è il periodo cosiddetto base. L’indice elementare a base mobile è
definito come:
t-1ip,t=pt/pt-1 .
Esso misura la variazione relativa fra il tempo t e il periodo immediatamente
precedente t-1.
Gli indici elementari hanno alcune proprietà interessanti che sono riportate
nel quadro seguente qui sotto, che contiene anche indicazioni sulla
simbologia usata in questo paragrafo.
Simbologia usata e proprietà dei numeri indici elementari
Simbologia
Serie dei prezzi:
p1, p2, …, pt, …, pn,
t=1,…,n
Serie delle quantità: q1, q2, …, qt, …, qn,
Serie dei valori: v1, v2, …, vt, …, vn,
t=1,…,n
t=1,…,n
Valore vt=pt qt
Generico indice elementare in base b:
bit
Indice dei prezzi in base b: bip,t
Indice delle quantità in base b: biq,t
Indice dei valori in base b: biv,t
t=1,2,…,n
Proprietà
1. Identità.
tit=1,
2. Reversibilità delle basi.
3. Transitività (circolarità).
t=1,…,n
bit
=1/ tib
bia ait= bit
4. Scomposizione delle cause. biv,t= bip,t biq,t
E’ di particolare interesse la proprietà di transitività poiché permette di
trasformare una serie espressa a prezzi costanti dell’anno base a in una serie
a prezzi costanti dell’anno base b. Un’altra proprietà di rilievo è quella della
scomponibilità delle cause (detta anche di reversibilità dei fattori) che
scompone la variazione di una grandezza in valore nel prodotto fra la
variazione di prezzo e la variazione di quantità.
22
Cap. 2 Metodi e strumenti di base
2.6.2 I numeri indici sintetici
Dovendo esprimere a prezzi costanti un aggregato economico e non potendo
applicare il metodo diretto, una possibile soluzione è, come abbiamo detto,
quella del deflazionamento mediante un adeguato indice sintetico dei prezzi.
E’ sintetico nel senso che sintetizza le variazioni dei prezzi degli H elementi
dell’aggregato. I principali problemi connessi alla costruzione di un indice
sintetico dei prezzi sono i seguenti.
1. Scelta del paniere di elementi/beni. Accade che non tutti gli elementi
coinvolti nell’aggregato sono utilizzati per la costruzione dell’indice
sintetico. Il suo calcolo è basato su un numero limitato di prodotti: quelli
ritenuti più rappresentativi della variazione dei prezzi. Si procede, infatti, ad
un campione ragionato degli elementi da includere: un’attenta scelta degli
elementi è infatti più importante del numero degli stessi.
2. Scelta del periodo base. Di norma si sceglie un periodo normale, in cui,
cioè, non si sono verificati eventi che abbiano determinato andamenti
eccezionali per la grandezza da deflazionare.
3. Scelta del metodo di aggregazione degli indici elementari. Per i prezzi
viene norma usata una media ponderata degli indici dei prezzi elementari,
scegliendo come pesi i valori riferiti ad un prefissato tempo. I principali
indici sintetici dei prezzi sono i seguenti.
K p
K
K
jt
p
q
i
p
q
p jt q j 0
∑
j
j
0
0
∑
∑
j0 j0
0 j , p ,t
j =1 p j 0
j =1
j =1
L
= K
= K
0 I p ,t =
K
∑ p j0 q j0
∑ p j0 q j0 ∑ p j0 q j0
j =1
j =1
0
I pP,t =
∑ 0 i j , p ,t p j 0 q jt
j =1
K
∑
j =1
p j 0 q jt
p jt
K
K
=
j =1
∑p
j =1
K
p j 0 q jt
j0
K
∑
j =1
p j 0 q jt
=
∑p
j =1
jt
q jt
K
∑
j =1
p j 0 q jt
dove 0 I pL,t è l’indice di Laspeyres e 0 I pP,t è l’indice di Paasche.
Si noti che:
i) nelle formule, la sommatoria è estesa fino a K<H per indicare che non
tutte le merci dell’aggregato da deflazionare vengono coinvolte nella
costruzione dell’indice dei prezzi;
ii) l’indice di Laspeyres impiega, come pesi, dei valori reali ovvero i valori
al tempo 0; l’indice di Paasche impiega dei valori fittizi: le quantità al tempo
t valutate ai prezzi dell’anno 0.
23
Cap 2 Metodi e strumenti di base
Vale la pena osservare che, in modo analogo, sono definiti gli indici di
Laspeyres e di Paasche delle quantità:
0
I
=
L
q ,t
∑ 0 i j ,q ,t p j 0 q j 0
j =1
K
∑
j =1
=
p j0q j0
0
I
P
q ,t
=
j =1
0
j =1
i
0 j ,q ,t
p jt q j 0
=
K
∑
p jt q j 0
K
p j0 q j0
=
j0
K
∑
p j0 q j0
q jt
K
j =1
dove
∑q
j =1
K
∑
q jt
K
K
∑q
j =1
j =1
I qL,t è l’indice di Laspeyres e
0
j =1
j0
q jt
j0
q j0
K
∑p
j =1
K
p jt q j 0
j0
K
∑
∑p
=
p jt q j 0
∑p
j =1
jt
q jt
jt
q j0
K
∑p
j =1
I qP,t è l’indice di Paasche delle
quantità.
Esiste anche l’indice sintetico di valore che è:
K
(2.5)
0
I v ,t =
∑p
h =1
K
∑p
h =1
ht
q ht
h0
qh0
= 0 I pL,t 0 I qP,t = 0 I qL,t 0 I pP,t
Dall’espressione (2.5), si può facilmente verificare come gli indici di
Laspeyres e di Paasche, dei prezzi e della quantità vadano a comporre
l’indice di valore.
Le proprietà auspicabili per un indice sintetico generico (dei prezzi o delle
quantità), che indichiamo con 0It , sono elencate nel quadro di seguito
riportato.
Proprietà desiderate per i numeri indici sintetici
1. Identità.
tIt=1,
2. Reversibilità delle basi.
t=1,…,n
bIt
=1/ tIb
3. Commensurabilità. L’indice non varia al variare dell’unità di
misura fisica usata per le quantità.
4. Determinatezza. L'indice non deve annullarsi né tendere
all'infinito se uno dei termini elementari della formula si annulla o
tende all'infinito.
5. Proporzionalità. Se dal tempo 0 al tempo t tutti i prezzi variano
della stessa proporzione, anche l'indice deve variare secondo lo
stesso coefficiente di proporzionalità.
6. Transitività (circolarità). bIa aIt= bIt
7. Scomposizione delle cause. bIv,t= bIp,t bIq,t
24
Cap. 2 Metodi e strumenti di base
E’ stato dimostrato che le proprietà non possono essere tutte soddisfatte
tutte; ad esempio, se per un indice valgono le proprietà 3, 4 e 5, non può
valere la proprietà 6. Di norma, la scelta dell'indice sintetico avviene
combinando criteri formali e considerazioni pratiche.
Gli indici di Laspeyres e di Paasche non soddisfano le proprietà di:
reversibilità delle basi, transitività, scomposizione delle cause. Quest’ultima
è verificata in senso debole come mostrato nella espressione (2.5). Una
variazione di valore (indice di valore) viene scomposta nel prodotto di un
indice di prezzi tipo Laspeyres (Paasche) e di un indice di quantità di tipo
Paasche (Laspeyres)
Nella ricerca di un indice che soddisfi le proprietà sotto indicate, è stato
proposto l’indice di Fisher che è definito come media geometrica dei
corrispondenti indici di Paasche e di Laspeyres.
Gli indici di Fisher dei prezzi e delle quantità sono:
0
I pF,t =
0
I pL,t 0 I pP,t
0
I qF,t =
0
I qL,t 0 I qP,t
L’indice di Fisher verifica tutte le proprietà tranne quella di transitività.
Tuttavia, esso viene raramente usato perché richiede informazioni sia sui
prezzi sia sulle quantità al tempo base e al tempo t (per i pesi usati dagli
indici di Laspeyres e Paasche). Al contrario l’indice di Laspeyres è il più
parsimonioso in termini di informazione necessaria in quanto i pesi
impiegati sono costituiti da quantità e prezzi dell’anno base. L’indice di
Laspeyres è di fatto quello più usato anche se deve sottostare ad un continuo
aggiornamento della base perché è sottoposta ad un rapido invecchiamento.
2.6.3 I principali numeri indici costruiti in Italia
Fra i principali numeri indice costruiti dall’Istat ricordiamo, per i prezzi:
quello dei prezzi (alla produzione) dei prodotti industriali, dei prezzi al
consumo per l’intera collettività nazionale (IPC), dei prezzi al consumo per
le famiglie di operai e impiegati (FOI). Fra i numeri indici delle quantità
citiamo: quello della della produzione industriale, del fatturato e degli
ordinativi dell’industria, i numeri indici riguardanti il commercio estero,
quelli riguardanti il commercio al minuto.
Nella pratica delle indagini statistiche condotte dall’Istat, esistono anche i
cosiddetti numeri indici impliciti dei prezzi. Essi sono ricavati direttamente
mediante il rapporto fra aggregato a prezzi correnti e aggregato a prezzi
costanti. Ciò accade per quelle variabili economiche per le quali si ha a
disposizione anche il dato a prezzi costanti. E’ questo il caso del PIL. Il PIL
a prezzi costanti viene calcolato come differenza fra produzione totale a
prezzi costanti e consumi intermedi a prezzi costanti, elementi che sono
deflazionati separatamente.
Cap 2 Metodi e strumenti di base
25
Diamo ora uno sguardo agli indici dei prezzi al consumo calcolati dall’Istat.
Gli indici dei prezzi al consumo misurano le variazioni nel tempo, rispetto al
periodo scelto come base, dei prezzi di beni e servizi (paniere), acquistabili
sul mercato e destinati al consumo finale delle famiglie presenti sul
territorio del paese. Il sistema degli indici dei prezzi è costituito da:
ƒ
ƒ
ƒ
indice nazionale dei prezzi al consumo per l’intera collettività (NIC);
indice armonizzato dei prezzi al consumo per i paesi dell’Unione
europea (IPCA);
indice nazionale dei prezzi al consumo per le famiglie di operai ed
impiegati (FOI).
Gli indici nazionali NIC e FOI sono prodotti anche nella versione che
esclude dal calcolo i tabacchi, ai sensi della legge n.81 del 1992. Tale
versione è utilizzata, ad esempio, per l’aggiornamento annuale dei canoni di
locazione delle abitazioni.
I tre indici sono basati su un’unica raccolta di dati. Essa viene svolta in tutte
le città capoluogo di provincia dagli Uffici comunali di statistica presso
diverse unità di vendita. In complesso gli indici vengono calcolati su oltre
300.000 quotazioni di prezzo ogni mese, rilevate in 25.000 unità di vendita e
12.000 abitazioni. Le quotazioni di prezzo si riferiscono ad un paniere
comune costituito da circa 930 prodotti, raggruppati in 568 posizioni
rappresentative, 209 voci di prodotto, 107 categorie, 38 gruppi e 12 capitoli
di spesa. Il calcolo degli indici sintetici (per ogni livello di aggregazione dei
prodotti) avviene mediante la formula di Laspeyres.
I tre indici differiscono per alcuni aspetti.
1. Il concetto di prezzo considerato. Nel caso in cui il prezzo di vendita di
alcuni beni e servizi sia diverso da quello effettivamente pagato dal
consumatore (è il caso, ad esempio, di quei medicinali per i quali una parte
del prezzo è a carico del Sistema sanitario nazionale), gli indici NIC e FOI
considerano nel calcolo il prezzo pieno di vendita, mentre l’indice IPCA
considera come prezzo quanto effettivamente pagato dal consumatore
(compresi eventuali tickets o contributi determinati in misura fissa).
2. La popolazione di riferimento. Mentre gli indici NIC e IPCA si
riferiscono ai consumi interni dell’intera popolazione presente in Italia,
l’indice FOI si riferisce ai consumi interni delle sole famiglie residenti in
Italia facenti capo ad un lavoratore dipendente extra-agricolo.
3. I sistemi di ponderazione(pesi) utilizzati. i tre indici sono calcolati
secondo strutture di ponderazione diverse, proporzionali ai consumi delle
rispettive popolazioni di riferimento.
26
Cap. 2 Metodi e strumenti di base
Ulteriori informazioni sui metodi di calcolo degli indici sono rintracciabili
nei seguenti documenti Istat: Nota Rapida, a. 4, n.2, del 15 marzo 1999 e
nelle Statistiche in breve del 26 gennaio 2000 e del 25 gennaio 2001.
Vediamo, a questo punto, la principale utilizzazione dei numeri indice dei
prezzi al consumo. Si tratta della misura, su base annua, dell’inflazione che
viene definita come ‘processo generalizzato di aumento dei prezzi’. Il
fenomeno inflazionistico viene attualmente misurato mediante l’indice NIC.
Indicando con 0Im,t il numero indice dei prezzi riferito al mese m dell’anno t,
e con 0Im,t-1 il numero indice dei prezzi riferito al mese m dell’anno t-1, con
base t=0, si ha:
I
tasso tendenziale di inflazione 0 m ,t − 1
0 I m ,t −1
tasso di inflazione media annua
1 12
∑ 0 I m ,t
Mt
12 m =1
−1 =
−1
12
1
M t −1
∑ 0 I m ,t −1
12 m =1
Una interessante espressione per misurare l’inflazione media annua è la
seguente:
⎛ M t ⎞ ⎛ 0 I 12 ,t −1 ⎞
Mt
⎟⎜
⎟
= ⎜⎜
(2.6)
M t −1 ⎝ 0 I 12 ,t −1 ⎟⎠ ⎜⎝ M t −1 ⎟⎠
dove:
⎛ Mt ⎞
⎜
⎟
⎜ I
⎟
⎝ 0 12 ,t −1 ⎠
è detta inflazione propria dell’anno t, mentre
⎛ 0 I 12 ,t −1 ⎞
⎜⎜
⎟⎟
⎝ M t −1 ⎠
è detta inflazione ereditata nell’anno t (o importata dall’anno t).
L'inflazione media offre una visione retrospettiva del fenomeno; infatti
secondo la (2.6):
Coeff. inflaz. media = coeff. inflaz. propria x coeff. inflaz. ereditata
La misura di inflazione tendenziale relativa al mese m=12 (dicembre) può
essere riscritta in modo analogo:
⎛ I ⎞⎛ Mt ⎞
0 I 12 ,t
⎟
(2.7)
= ⎜⎜ 0 12 ,t ⎟⎟ ⎜⎜
⎟
I
M
I
0 12 ,t −1
t ⎠ ⎝ 0 12 ,t −1 ⎠
⎝
dove:
27
Cap 2 Metodi e strumenti di base
⎛ 0 I 12 ,t
⎜⎜
⎝ Mt
⎞
⎟⎟
⎠
è l’inflazione trasmessa (ovvero lasciata in eredità) all’anno t+1, mentre
⎛ Mt ⎞
⎜
⎟
⎜ I
⎟
⎝ 0 12 ,t −1 ⎠
è l’inflazione propria dell’anno t. L'inflazione tendenziale offre pertanto una
visione prospettica del fenomeno, secondo la quale si ha:
coeff. inflaz. tendenziale = coeff. inflaz. trasmessa x coeff. inflaz. propria
Il confronto fra inflazione media e inflazione tendenziale può dare
indicazione sull’evoluzione del livello generale dei prezzi. In particolare:
- se l’inflazione tendenziale è maggiore di quella media, l’inflazione è in
fase crescente;
- se l’inflazione tendenziale è minore di quella media, l’inflazione è in fase
decrescente.
Il grafico seguente mostra l’andamento del tasso tendenziale di inflazione
(in %) dal gennaio 1980 al dicembre 2001.
Fig. 2.8 – Andamento tasso di inflazione tendenziale in Italia (1980-2001)
Inf.tend.%
20
10
0
1980
2001
2.6.4 Esempi di aggiustamento di una serie storica
Nei paragrafi precedenti abbiamo introdotto le formule dei principali numeri
indici e abbiamo accennato al procedimento di deflazionamento mediante
28
Cap. 2 Metodi e strumenti di base
un indice dei prezzi. In questo paragrafo vediamo l’applicazione di questo
procedimento.
Prima di procedere con i dati numerici, è importante distinguere il tipo di
grandezza che deve essere deflazionata:
1. aggregato di beni: l’espressione monetaria è la risultante di un prodotto di
somme per quantità (es. grandezze economiche: fatturato, costi, ecc.)
2. grandezze puramente monetarie composte da elementi ai quali non
corrispondono transazioni di beni (es. grandezze finanziarie).
Se un aggregato non ha a disposizione il suo indice dei prezzi, si dovrà
usarne un altro che misura un fenomeno logicamente connesso al primo
aggregato. Questa strada è l’unica possibile per le grandezze puramente
finanziarie (punto 2).
Vediamo un esempio di aggiustamento di una serie, utilizzando i dati sui
consumi nazionali dal 1979 al 2000 (Tab. 2.7) rappresentati nelle Figg. 2.9 e
2.10. Si può notare come l’andamento della serie dipenda dalla variazione
dell’indice dei prezzi (il deflatore), mentre risente meno dell’aumento della
popolazione residente (i dati relativi alla popolazione residente sono quelli
di Tab. 2.1).
2.000.000
1.800.000
1.600.000
1.400.000
1.200.000
1.000.000
800.000
600.000
400.000
200.000
0
Prezzi correnti
Prezzi costanti 1995
19
79
19
81
19
83
19
85
19
87
19
89
19
91
19
93
19
95
19
97
19
99
Consumi nazionali
Fig. 2.9 – Consumi nazionali anni 1979-2000 (miliardi L.)
Anni
29
Cap 2 Metodi e strumenti di base
Fig. 2.10 – Consumi nazionali procapite anni 1979-2000 (miliardi L.)
35
Procapite prezzi 1995
Procapite prezzi correnti
Consumi nazionali
30
25
20
15
10
5
99
19
97
19
95
19
93
19
91
19
89
19
87
19
85
19
83
19
81
19
19
79
0
Anni
Tab. 2.7 – Consumi nazionali a prezzi correnti e a prezzi anno 1995
Consumi a
prezzi correnti
Anno
(miliardi L.)
225.598
1979
288.755
1980
353.134
1981
417.891
1982
485.198
1983
555.901
1984
626.140
1985
690.420
1986
761.756
1987
845.599
1988
930.973
1989
1.026.769
1990
1.128.607
1991
1.203.544
1992
1.225.462
1993
1.290.037
1994
1.368.863
1995
1.453.191
1996
1.531.885
1997
1.605.675
1998
1.676.760
1999
1.769.990
2000
Fonte: Istat
Deflatore
prezzi base
anno 1995
0,2346
0,2849
0,3408
0,3970
0,4560
0,5085
0,5559
0,5912
0,6270
0,6690
0,7161
0,7727
0,8278
0,8689
0,9106
0,9495
1,0000
1,0491
1,0786
1,1033
1,1280
1,1605
Consumi
procapite a
Consumi a
prezzi 1995 prezzi correnti
(milioni L.)
(miliardi L.)
4,006
961.502
5,117
1.013.530
6,249
1.036.342
7,391
1.052.620
8,578
1.064.114
9,826
1.093.119
11,064
1.126.426
12,199
1.167.840
13,458
1.214.986
14,932
1.263.929
16,427
1.300.090
18,103
1.328.757
19,887
1.363.379
21,167
1.385.131
21,481
1.345.715
22,552
1.358.588
23,889
1.368.863
25,318
1.385.142
26,636
1.420.277
27,882
1.455.317
29,087
1.486.466
30,661
1.525.192
Consumi
procapite a
prezzi 1995
(milioni di L.)
17,073
17,960
18,339
18,616
18,813
19,321
19,904
20,635
21,465
22,319
22,941
23,427
24,024
24,361
23,589
23,750
23,889
24,133
24,695
25,271
25,786
26,420
30
Cap. 2 Metodi e strumenti di base
La rappresentazione di grandezze a prezzi costanti è utile pure per
confrontare nel tempo dati di bilanci aziendali. Il problema di
confrontabilità temporale si pone anche per i ratio di bilancio se il
numeratore e il denominatore del ratio risentono in modo diverso
dell’evoluzione dei prezzi. Infatti, poiché un ratio di bilancio è costruito su
grandezze espresse in valore monetarie, il suo valore Vt al tempo t si può
rappresentare in modo estremamente semplificato come:
Vt =
Qt Pt
qt pt
dove col carattere maiuscolo abbiamo indicato la quantità e prezzo del
termine posto al denominatore. Le variazioni che il ratio sperimenta nel
tempo possono essere determinate sia dalle variazioni delle quantità Qt, qt,
sia dalle variazioni dei prezzi Pt, pt. Si veda, a titolo di esempio, un ratio
costruito sui dati di contabilità nazionale: il rapporto fra consumi nazionali
(visti prima) e PIL, valutati sia a prezzi correnti sia a prezzi costanti. Negli
anni di forte calo dell’inflazione (v. anche Fig. 2.8) è maggiore la
discrepanza fra i due time plot.
Fig. 2.11 – Andamento del rapporto consumi naz./PIL
0,82
0,81
0,80
Prezzi correnti
Prezzi 1995
0,78
0,77
0,76
0,75
0,74
0,73
Anni
19
99
19
97
19
95
19
93
19
91
19
89
19
87
19
85
19
83
19
81
0,72
19
79
Consumi/PIL
0,79
31
Cap 3 Metodi di scomposizione
3. Metodi di scomposizione
3.1 Introduzione
Molti metodi di previsione si basano sul fatto che, se esiste un pattern
sistematico, questo possa essere individuato e separato da eventuali
oscillazioni accidentali, mediante metodi di perequazione o smussamento
(lisciamento, smoothing) dei dati della serie storica. L’effetto dello
smussamento è quello di eliminare disturbi casuali cosicché, una volta
individuato il pattern, questo possa essere proiettato nel futuro per produrre
la previsione.
I metodi di scomposizione tendono, di norma, a individuare due pattern: il
trend-ciclo e la stagionalità. Il trend-ciclo può essere scomposto, a sua
volta, in componente di fondo (trend) e oscillazioni congiunturali (ciclo)(*).
In questo capitolo sarà illustrato il metodo classico di scomposizione. Come
si vedrà, tale procedimento è più che altro uno strumento di analisi della
serie storica, e necessita pertanto di alcuni perfezionamenti per poter
produrre la previsione.
I metodi di scomposizione hanno costituito il primo approccio di analisi
delle serie storiche. Il metodo classico risale agli anni 20 e costituisce
ancora oggi la base per i metodi più frequentemente usati. Attualmente il
metodo di scomposizione più diffuso è quello denominato Census II che
viene usato per numerose serie economiche sia in ambito privato sia in
ambito pubblico (Makridakis, Wheelwright, Hyndman, 19XX).
E’ importante precisare che, nel seguito, se non viene specificato
diversamente, useremo il simbolo yt, t=1,…,n per indicare la serie storica,
eventualmente aggiustata per le variazioni dei prezzi, per le oscillazioni di
calendario, ecc..
(*)
In queste note non affronteremo il problema della stima del ciclo.
32
Cap. 3 Metodi di scomposizione
3.2 Il modello di scomposizione
Il modello matematico ipotizzato nel metodo classico di scomposizione è:
(3.1)
yt=f(St, Tt, Et)
dove
yt è il dato riferito al periodo t
St è la componente stagionale al periodo t
Tt e la componente trend-ciclo al periodo t
Et è la componente irregolare al tempo t.
La forma di f() dipende dall’approccio seguito. Una forma molto comune è
la seguente:
(3.2)
yt=St+Tt+Et
che viene definita modello additivo. Un’altra forma altrettanto frequente è il
modello moltiplicativo:
(3.3)
yt=St x Tt x Et
Un modello additivo è appropriato quando l’ampiezza dell’oscillazione
stagionale non varia col livello della serie. Se invece la fluttuazione
stagionale aumenta (o diminuisce) proporzionalmente con l’aumento
(diminuzione) del livello della serie, allora è più adeguato un modello
moltiplicativo. Molte serie economiche esibiscono fluttuazioni stagionali
che crescono all’aumentare del livello della serie; per tale motivo, in ambito
economico, il modello moltiplicativo trova più larga applicazione.
Nel modello additivo, le componenti St,Tt, Et sono espresse nella stessa unità
di misura di yt; nel modello moltiplicativo, solo Tt (per convenzione) viene
espresso nell’unità di misura di yt; Et e St sono numeri puri. Nel modello
additivo l’errore può assumere valori positivi o negativi; 0 è il valore
neutrale, nel senso che non influenza la serie. Nel modello moltiplicativo
l’errore può assumere solo valori non negativi e ha 1 come valore neutrale.
Si noti che, col modello moltiplicativo, potrebbe essere utile ricorrere alla
trasformazione della serie. Poiché la funzione logaritmica trasforma una
espressione moltiplicativa in una additiva si ha:
(3.4)
ln yt=ln(St x Tt x Et) ÅÆ ln yt=lnSt + lnTt + lnEt
Quindi, invece del modello moltiplicativo sui dati originari della serie, si
potrebbe applicare il modello additivo sulle trasformate logaritmiche.
Cap 3 Metodi di scomposizione
33
3.3 Rappresentazioni grafiche negli approcci di scomposizione
La Fig. 3.1 mostra i principali grafici derivanti da una analisi di
scomposizione mediante un modello additivo. I risultati fanno riferimento ai
dati di Tab. 2.4 (vendite di bottiglie della bibita QQQ).
Richiamiamo l’attenzione soprattutto sui seguenti grafici:
(i) il time plot della serie destagionalizzata ovvero depurata dalla
stagionalità (seasonally adjusted data), riportato in Fig, 3.1;
(ii) il time plot della componente stagionale (Fig. 3.2);
(iii) la serie storica dei residui (Fig. 3.3);
(iv) il time plot della serie originale e della serie stimata (Fig. 3.5).
L’andamento dei dati destagionalizzati dovrebbe mostrare una linea
abbastanza liscia, priva di quelle oscillazioni regolari e marcate tipiche della
stagionalità della serie. La Fig. 3.1 mostra che la destagionalizzazione
mediante il modello additivo non è soddisfacente: si tende a
destagionalizzare ‘troppo’ nel primo anno (infatti, si può notare una
inversione delle punte per il mese di giugno e di settembre); si
destagionalizza ‘poco’ nell’ultimo anno (si nota, infatti, che rimane un picco
molto elevato). Il motivo risiede nel fatto che il modello additivo assume
implicitamente che il range di variazione delle oscillazioni stagionali
all’interno dell’anno rimanga costante mentre, nel caso in esame, tende ad
aumentare dal 1999 al 2001 (Fig. 2.5). Pertanto la stima della stagionalità,
rappresentata nella Fig. 3.2, non è da ritenersi valida.
Un’altra verifica sul modello di scomposizione adottato ci proviene dal
grafico dei residui. Se la scomposizione è valida allora i residui devono
presentare un andamento accidentale rispetto al tempo. Dalla Fig. 3.3 si nota
invece la presenza di una certa ciclicità degli stessi: i residui sono più vicini
a zero nella parte centrale della serie mentre sono maggiori (in valore
assoluto) alle estremità. L’andamento dei residui può essere apprezzato
anche dalla Fig. 3.4, in cui si riporta la serie osservata e quella stimata,
nell’ipotesi di aver stimato il trend mediante una funzione lineare di t (su
questo punto di vedrà più avanti il procedimento).
Nel seguito, quando verrà illustrato in dettaglio il procedimento di
scomposizione della serie, vedremo anche i risultati del modello
moltiplicativo.
34
Cap. 3 Metodi di scomposizione
Fig. 3.1 – Dati destagionalizzati con modello additivo (dati di Tab. 2.4)
900
Dati destagionalizzati
800
700
600
500
400
t
10
20
30
Fig. 3.2 – Stagionalità stimata con modello additivo (dati di Tab. 2.4)
600
500
Stagionalità
400
300
200
100
0
-100
-200
-300
t
10
20
30
35
Cap 3 Metodi di scomposizione
Fig. 3.3 – Residui del modello additivo (dati di Tab. 2.4)
Residui
100
0
-100
1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930313233343536
t
Fig. 3.4 – Dati stimati e osservati (serie di Tab. 2.4; modello additivo)
Actual
1400
Predicted
1200
Actual
Predicted
1000
Yt
800
600
400
200
0
0
10
t
20
30
40
36
Cap. 3 Metodi di scomposizione
A conclusione di questo paragrafo, vogliamo puntualizzare il significato di
serie destagionalizzata. Nel caso di un modello additivo, il dato
destagionalizzato Dt è derivato come:
(3.1)
Dt=yt–St=yt+Et
mentre nel modello additivo:
(3.2)
Dt=yt/St=yt x Et
una volta che è stata stimata la componente stagionale St.
3.4 La media mobile
La media mobile è un semplice metodo che smussa (liscia, perequa) la serie
storica. Tale procedura è basilare nei metodi di scomposizione. Se la serie è
composta solo da trend e dalla componente residua, la media mobile elimina
gli effetti dei disturbi. Se nella serie originaria è presente anche il fenomeno
stagionale di periodo p, allora una media mobile di ampiezza p è in grado di
eliminare anche la stagionalità. Nei due casi, la media mobile si propone di
isolare il trend-ciclo.
Vediamo un esempio di serie che presenta trend e stagionalità (Tab. 3.1). Si
tratta delle vendite mensili di shampoo (litri) venduti in tre anni. Il time plot
della serie (Fig. 3.6) evidenzia la presenza di un marcato trend crescente e di
disturbi di un certo rilievo; non si individuano ciclicità periodiche tipiche
della stagionalità. La Fig. 3.6 riporta l’evoluzione delle medie mobili a 3
termini (MM3) e a 7 termini (MM7); come si vede, la media mobile elimina
una certa quota di oscillazioni perturbatrici.
La media mobile a tre termini ci dà una stima del trend T2 del mese di
Febbraio 1999, mediante la media aritmetica dei dati di Gennaio, Febbraio,
Marzo 1999:
T2=(y1+y2+y3)/3
Generalizzando, la media mobile a tre termini centrata su t è:
(3.3)
Tt=(yt-1+yt+yt+1)/3,
t=2,…,n-1
Si notino, nella Tab. 3.1, i valori della media mobile a tre termini: non c’è
stima del trend per i tempi t=1 e t=n perché mancano le osservazioni al
tempo 0 e al tempo n+1.
Come si sarà capito, questa procedura è denominata media mobile perché
ogni successiva media viene calcolata eliminando il valore ‘più vecchio’ e
inserendone un nuovo. La media mobile è un metodo di adattamento locale
in quanto crea una serie di valori smussati di lunghezza pari alla serie
originaria, ognuno in corrispondenza del punto di osservazione t.
37
Cap 3 Metodi di scomposizione
Tab. 3.1 – Esempio di serie con trend e disturbi casuali
Mese
yt
MM3
MM5
1
266,0
2
145,9
198,3
3
183,1
149,4
178,9
4
119,3
160,9
159,4
5
180,3
156,0
176,6
6
168,5
193,5
184,9
7
231,8
208,3
199,6
8
224,5
216,4
188,1
9
192,8
180,1
221,7
10
122,9
217,4
212,5
11
336,5
215,1
206,5
12
185,9
238,9
197,8
1
194,3
176,6
215,3
2
149,5
184,6
202,6
3
210,1
211,0
203,7
4
273,3
224,9
222,3
5
191,4
250,6
237,6
6
287,0
234,8
256,3
7
226,0
272,2
259,6
8
303,6
273,2
305,6
9
289,9
338,4
301,1
10
421,6
325,3
324,4
11
264,5
342,8
331,6
12
342,3
315,5
361,7
1
339,7
374,1
340,6
2
440,4
365,3
375,5
3
315,9
398,5
387,3
4
439,3
385,5
406,9
5
401,3
426,0
433,9
6
437,4
471,4
452,2
7
575,5
473,5
500,8
8
407,6
555,0
515,6
9
682,0
521,6
544,3
10
475,3
579,5
558,6
11
581,3
567,8
12
646,9
Fonte: Makridakis, Wheelwright, Hyndman (19XX)
MM7
185,0
179,1
185,8
177,2
208,2
209,0
212,7
200,9
198,9
210,4
220,1
213,1
218,8
234,4
254,5
284,7
283,4
305,0
312,5
343,1
344,9
366,2
363,3
388,0
421,4
431,1
465,6
488,3
508,6
543,7
38
Cap. 3 Metodi di scomposizione
Il numero di termini coinvolti nella media mobile influenza il risultato della
perequazione. All’aumentare dei termini, la spezzata che unisce i punti
individuati dalle medie mobili si fa più smussata. Nella Fig. 3.6 compare
l’andamento della media mobile a 7 termini, che è calcolata come:
Tt=(yt-3+yt-2+ yt-1+yt+yt+1+yt+2+yt+3)/7,
t=4,…,n-3
Fig. 3.5 – Valori osservati e medie mobili (MM) per i dati di Tab. 3.1
800,0
700,0
Osservati
MM3
MM7
600,0
500,0
400,0
300,0
200,0
100,0
0,0
0
5
10
15
20
25
30
35
40
Come si può facilmente verificare, una media mobile a k termini, con k
dispari, fa perdere (k–1)/2 termini all’inizio e altrettanti termini alla fine
della serie (Tab. 3.1). La perdita dei primi termini ha poca importanza; al
contrario la perdita degli termini più recenti ha conseguenze rilevanti ai fini
della operazione di previsione. Una possibile soluzione consiste
nell’effettuare, agli estremi, delle medie mobili con un numero inferiore di
termini. Ad esempio, nel caso di media mobile a tre termini si può calcolare
T1 come T1=(y1+y2)/2 e Tn come Tn=(yn-1+yn)/2.
Le medie mobili fin qui introdotte hanno un numero dispari di termini e
perciò risultano automaticamente centrate su un punto t di osservazione.
Tali medie sono dette semplici poiché tutti i termini della media hanno
associato lo stesso peso.
Supponiamo che si voglia calcolare una media mobile con numero pari di
termini. Ad esempio, posto k=4, sui dati di Tab. 3.1 si ha:
T’ =(y1 +y2 +y3+y4)/4= (266,0+145,9+183,1+119,3)/4
T” = (y2 +y3 +y4+y5)/4= (145,9+183,1+119,3+180,3)/4
La prima media sarebbe centrata fra il secondo e il terzo termine; la seconda
media centrata fra il terzo e il quarto. Per risolvere la questione della
Cap 3 Metodi di scomposizione
39
centratura, si effettua una media mobile a 2 termini sulle due successive
medie mobili a termini pari. Con questo procedimento la media aritmetica
delle due medie mobili a 4 termini sopra calcolate, viene ad essere centrata
nel punto t=3. Quindi:
T3=(T’+T”)/2
Sostituendo a T’ e T” le espressioni precedenti, la formula di T3 diventa:
(3.4)
T3=(y1+2y2+2y3+2y4+y5)/8
che è una media ponderata: i termini centrali hanno peso 2, i termini estremi
peso 1; il denominatore è, ovviamente, la somma dei pesi. Essa è detta
media mobile centrata a k termini (k pari).
Medie mobili con numero pari di termini sono usate per eliminare
l’oscillazione stagionale. Su dati mensili si userà k=12; k=4 su dati
trimestrali e k=2 su dati semestrali. Ovviamente, con k pari, si perdono k/2
termini all’inizio e alla fine della serie.
3.5 Scomposizione classica: il modello additivo
Riferendoci ai dati mensili sulle vendite di bottiglie QQQ, supponiamo che
il modello di scomposizione sia additivo:
yt=St+Tt+Et
La scomposizione classica viene condotta svolgendo le fasi seguenti.
1. Calcolo del trend-ciclo di prima approssimazione. Si tratta di una fase
strumentale che non produce una stima definitiva della componente trendciclo. Il trend-ciclo di prima approssimazione viene calcolato con una
media mobile centrata a 12 termini. Indichiamo con MMt il valore di detta
media, dove t=7,…,n-6 a causa della perdita di dati all’inizio e al termine
della serie.
2. Calcolo della componente (SE)t: serie della stagionalità mista e errore.
Anche questa è una fase strumentale. La serie (SE)t è calcolata sottraendo
dalla serie originale, la grandezza MMt:
(SE)t=yt–MMt
3. Stima della componente stagionale. Dalla componente (SE)t si elimina il
disturbo e si perviene alla stima di St. Nell’approccio classico si ipotizza che
l’oscillazione stagionale sia costante da anno in anno, per cui, con dati
40
Cap. 3 Metodi di scomposizione
mensili, St=St+12=St+24=…. Si parla di modello di stagionalità costante1. Il
coefficiente di stagionalità Sm per il mese m (m=1,…,12) viene calcolato
effettuando la media aritmetica dei termini (SE)t dove t=m, m+12, m+24,….
In altre parole la stima della stagionalità per gennaio è data dalla media
aritmetica dei valori (SE) riferiti a gennaio. Il risultato di questa operazione
produce 12 coefficienti di stagionalità Ŝ m , m=1,..,12 (dove m indica il
mese), che si ripetono per ogni anno. I valori Ŝ m devono verificare la
seguente proprietà:
12
∑
m =1
Ŝ m = 0
Infatti, per definizione di stagionalità nel modello additivo, le oscillazioni
stagionali esauriscono il loro effetto all’interno dell’anno.
4. Derivazione della serie destagionalizzata Dt. Il dato destagionalizzato Dt
è calcolato nel modello additivo come:
Dt = y t − Ŝ t
e Ŝ t = Ŝ m se t si riferisce al mese m. La serie Dt contiene dunque il pattern
del ciclo-trend e l’effetto del disturbo. Essa è pertanto utile per lo studio del
ciclo-trend.
5. Stima del ciclo-trend. La stima T̂t del ciclo-trend è ottenuta mediante una
media mobile a 3 termini sui dati Dt.
6. Stima dell’intera componente sistematica della serie. Mediante le stime
della stagionalità e del trend-ciclo si ottiene la stima ŷt , che contiene solo il
pattern sistematico della serie, dove:
ŷ t = T̂t + Ŝ t
7. Calcolo del residuo del modello. Il residuo del modello Ê t è, infine:
Êt = yt − ŷt
La Tab. 3.2 riporta i risultati delle fasi sopra elencate, per la serie delle
vendite di bottiglie della bibita QQQ.
1
Si può condurre un’analisi grafica per controllare la validità dell’ipotesi di stagionalità
costante. Si costruisce, per ognuno dei 12 mesi, un plot di (SE)t in ordinata versus gli anni
(in ascissa). Se i punti individuati si trovano collocati parallelamente all’asse delle ascisse,
allora il modello di stagionalità costante è adeguato.
41
Cap 3 Metodi di scomposizione
Tab. 3.2 – Risultati del modello additivo (vendite bibita QQQ)
Ê t
ANNO MESE
t
yt Stima St Stima Dt Stima Tt Stima yt
1999
2000
2001
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
189
229
249
289
260
431
660
777
915
613
485
277
244
296
319
370
313
556
831
960
1152
759
607
371
298
378
373
443
374
660
1004
1153
1388
904
715
441
-267,0
-216,0
-224,7
-180,1
-253,9
2,3
249,0
366,7
526,0
172,7
27,1
-202,1
-267,0
-216,0
-224,7
-180,1
-253,9
2,3
249,0
366,7
526,0
172,7
27,1
-202,1
-267,0
-216,0
-224,7
-180,1
-253,9
2,3
249,0
366,7
526,0
172,7
27,1
-202,1
456,0
445,0
473,7
469,1
513,9
428,7
411,0
410,3
389,0
440,3
457,9
479,1
511,0
512,0
543,7
550,1
566,9
553,7
582,0
593,3
626,0
586,3
579,9
573,1
565,0
594,0
597,7
623,1
627,9
657,7
755,0
786,3
862,0
731,3
687,9
643,1
450,5
450,5
458,2
462,6
485,6
470,6
451,2
416,7
403,4
413,2
429,1
459,1
482,7
500,7
522,2
535,3
553,6
556,9
567,5
576,3
600,4
601,9
597,4
579,8
572,7
577,3
585,6
604,9
616,2
636,2
680,2
733,0
801,1
793,2
760,4
665,5
184
235
234
282
232
473
700
783
929
586
456
257
216
285
298
355
300
559
817
943
1126
775
625
378
306
361
361
425
362
639
929
1100
1327
966
788
463
5,50
-5,50
15,46
6,51
28,38
-41,91
-40,22
-6,31
-14,42
27,09
28,82
19,96
28,34
11,31
21,46
14,84
13,38
-3,24
14,44
17,02
25,58
-15,58
-17,51
-6,71
-7,66
16,65
12,13
18,17
11,71
21,42
74,78
53,35
60,92
-61,91
-72,51
-22,43
42
Cap. 3 Metodi di scomposizione
Come si vede, si perdono 6 dati all’inizio e 6 alla fine della serie. I dati sono
recuperati attraverso la stima della stagionalità mediante l’ipotesi di modello
stagionale costante. Si può notare, infatti, che la sequenza dei coefficienti di
stagionalità si ripete nei tre anni.
Il segno e l’entità del coefficiente di stagionalità esprime l’importanza e la
direzione dell’effetto: quando il segno del coefficiente è negativo significa
che la stagionalità provoca una contrazione (rispetto al livello che avrebbe il
trend-ciclo senza l’effetto dell’oscillazione stagionale); il segno è positivo,
quando la stagionalità amplifica il fenomeno. Coefficienti di stagionalità
positivi ed elevati si presentano nei mesi più caldi.
Il trend-ciclo è stato stimato con una media a tre termini dei dati
destagionalizzati, con eccezione dei due termini estremi (v. valori in
grassetto) per i quali è stata impiegata una media a due termini.
In base al procedimento descritto nella Tab. 3.2 si ottiene un MAPE pari al
2,8%. Tuttavia (v. Fig. 2.1, che si riferisce a questo stesso procedimento, ma
si veda anche la Fig. 3.6), il modello additivo non realizza una soddisfacente
destagionalizzazione dei dati.
3.6 Scomposizione classica: il modello moltiplicativo
Utilizzando ancora i dati mensili sulle vendite di bibita QQQ, deriviamo la
scomposizione mediante il modello moltiplicativo:
yt=St x Tt x Et
La scomposizione classica viene condotta svolgendo le fasi seguenti.
1. Calcolo del trend-ciclo di prima approssimazione. Come accade per il
modello moltiplicativo, esso viene calcolato con una media mobile centrata
a 12 termini. Indichiamo con MMt il valore di detta media, t=7,…,n-6
(stesso procedimento del modello additivo).
2. Calcolo della componente (SE)t: serie della stagionalità mista e errore.
La serie (SE)t, composta da stagionalità ed errore, è calcolata dividendo la
serie yt per MMt:
(SE)t=yt /MMt
3. Stima della componente stagionale. Dalla serie (SE)t si elimina il disturbo
e si perviene alla stima di St. Si ipotizza, anche qui, che l’oscillazione
stagionale sia costante di anno in anno per cui, con dati mensili,
St=St+12=St+24=…. Il coefficiente di stagionalità Sm per il mese m
(m=1,…,12) viene calcolato effettuando la media aritmetica dei termini
(SE)t dove t=m, m+12, m+24,…. Ancora, la stima della stagionalità per
gennaio è data dalla media aritmetica dei valori (SE)t riferiti a gennaio. Il
Cap 3 Metodi di scomposizione
43
risultato sarà dato da 12 coefficienti di stagionalità che si ripetono per ogni
anno. Si ricava quindi la stima Ŝ m m=1,…,12 dove m indica il mese. I valori
Ŝ m devono verificare la seguente proprietà:
1 12
∑ Ŝ m = 1
12 m =1
Infatti, per definizione di stagionalità, le oscillazioni stagionali esauriscono
il loro effetto all’interno dell’anno.
4. Derivazione della serie destagionalizzata Dt. Il dato destagionalizzato Dt
si ricava come:
Dt = y t / Ŝ t
Questa grandezza contiene il pattern del ciclo-trend e l’effetto del disturbo.
Essa è utile per il successivo studio del ciclo-trend.
5. Stima del ciclo-trend. La stima del ciclo-trend T̂t è ottenuta mediante una
media mobile a 3 termini sui dati Dt.
6. Stima dell’intera componente sistematica della serie. Mediante le stime
della stagionalità e del trend-ciclo, si ricava la stima ŷt che contiene solo il
pattern sistematico della serie, dove:
ŷ t = T̂t × Ŝ t
7. Calcolo del residuo del modello. Si ricava, infine, il residuo del modello
Ê t come:
Êt = y t / ŷ t
Tuttavia, per consentire un confronto con l’adattamento del modello
additivo, ai fini del calcolo degli indici MAPE, MAE, ecc., conviene
utilizzare i residui calcolati nel modo consueto:
Rest = y t − ŷ t
I dettagli della scomposizione mediante il modello moltiplicativo sono
riportati in Tab. 3.3. Vale la pena notare che il modello moltiplicativo
realizza un miglioramento del MAPE che è uguale a 1,8% e, soprattutto, una
più che soddisfacente destagionalizzazione dei dati. Ciò non ci sorprende in
quanto, già l’analisi preliminare della serie aveva messo in luce la maggiore
adeguatezza della forma moltiplicativa.
44
Cap. 3 Metodi di scomposizione
Tab. 3.3 – Risultati del modello moltiplicativo (vendite bibita QQQ)
ANNO MESE
1999
1
2
3
4
5
6
7
8
9
10
11
12
2000
1
2
3
4
5
6
7
8
9
10
11
12
2001
1
2
3
4
5
6
7
8
9
10
11
12
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
yt Stima Sm StimaDt
189
0,493
383
229
0,595
385
249
0,595
419
289
0,679
425
260
0,564
461
431
0,985
438
660
1,466
450
777
1,692
459
915
1,988
460
613
1,306
469
485
1,028
472
277
0,600
462
244
0,493
495
296
0,595
497
319
0,595
536
370
0,679
545
313
0,564
555
556
0,985
565
831
1,466
567
960
1,692
568
1152
1,988
579
759
1,306
581
607
1,028
591
371
0,600
619
298
0,493
605
378
0,595
635
373
0,595
627
443
0,679
652
374
0,564
663
660
0,985
670
1004
1,466
685
1153
1,692
682
1388
1,988
698
904
1,306
692
715
1,028
696
441
0,600
736
Stima Tt
384
384
396
410
435
441
450
449
457
463
467
468
476
485
510
526
545
555
562
566
571
576
584
597
605
620
622
638
647
662
673
679
688
691
695
716
Stima yt
189
229
235
278
245
435
659
760
908
605
480
280
235
289
303
357
307
546
824
958
1136
752
600
358
298
369
370
433
365
652
986
1148
1368
902
715
429
Rest
-0,326
0,394
13,642
10,744
14,735
-3,666
0,828
17,348
7,108
8,315
4,853
-3,424
9,247
7,475
15,852
12,603
5,550
9,677
6,875
2,001
16,081
6,650
7,046
13,183
-0,009
9,306
2,798
9,511
8,966
8,227
17,742
4,574
19,564
1,963
0,341
11,979
45
Cap 3 Metodi di scomposizione
Fig. 3.6 – Dati destagionalizzati (vendite di bibita QQQ)
900,0
800,0
Modello moltiplicativo
Modello additivo
Dt
700,0
600,0
500,0
400,0
300,0
t
3.6 Valutazione della scomposizione ottenuta
Abbiamo già accennato (par. 2.4) che la valutazione dell’adattamento
ottenuto mediante il modello di scomposizione può essere condotta
mediante indici quali MSE, MAE, MAPE, riferiti alla serie storica
disponibile. Oltre al calcolo di tali indici, è buona norma condurre anche
delle analisi grafiche dei residui Êt . L’idea che sta alla base di questi
controlli è la seguente: se la scomposizione è valida allora il residuo non
dovrebbe evidenziare oscillazioni sistematiche di nessun tipo e il suo line
plot dovrebbe oscillare intorno al valore neutrale (0 per il residuo del
modello additivo, 1 per il residuo del modello moltiplicativo), in modo
accidentale. Vediamo il caso del modello additivo dove il residuo è:
Ê t = y t − ŷ t
I grafici che ci possono interessare sono i seguenti.
1. Andamento di Ê t rispetto al tempo t. L’ideale è che non si presentino
oscillazioni sistematiche, come avviene in Fig. 3.7. Situazione dubbia è
quella di Fig. 3.8 (la scomposizione ottenuta è più valida per periodi più
remoti). La Fig. 3.9, infine, evidenzia che non siamo stati in grado di
individuare un andamento ciclico (o comunque curvilineo)
2. Correlogramma di Ê t . L’ideale è quello di non avere valori elevati dell’
autocorrelazione tuttavia, difficilmente da un’analisi di scomposizione, si
ottengono residui ottimali.
46
Cap. 3 Metodi di scomposizione
3. Normal probability plot di Ê t . L’idea che giustifica questo tipo di analisi è
la seguente: se siamo stati in grado di scomporre bene la serie e abbiamo
colto in modo adeguato la componente sistematica, il residuo dovrebbe
comportarsi approssimativamente come un errore accidentale.
Nel caso di modello moltiplicativo, resta in massima parte valido quanto
affermato nei punti 1 e 2. Non ha senso, invece, costruire un normal
probability plot perché il residuo moltiplicativo Ê t può assumere solo valori
non negativi mentre una v.c. normale assume valori sia negativi, sia positivi.
E’ più corretto, se mai, costruire il normal probability plot delle trasformate
logaritmiche dei residui.
La Fig. 3.10 riporta il line plot dei residui del modello additivo, per i dati
relativi alle vendite della bibita QQQ. Si nota un risultato un po’
insoddisfacente per il periodo iniziale e finale; sappiamo che ciò è dovuto al
fatto che il modello additivo tende a destagionalizzare male agli estremi
della serie quando questa è meglio rappresentata da un modello
moltiplicativo.
Fig. 3.8 – Esempio di residui privi di andamenti sistematici
100
80
60
Residui
40
20
0
-20 1
6
11
16
21
-40
-60
-80
-100
t
26
31
36
47
Cap 3 Metodi di scomposizione
Fig. 3.9 – Esempio di residui con variabilità più alta per periodi recenti
200
150
Residui
100
50
0
-50
1
6
11
16
21
26
31
36
-100
-150
-200
t
Fig. 3.10 – Esempio di residui con andamento curvilineo
2000
1500
Residui
1000
500
0
-500
1
6
11
16
21
-1000
-1500
-2000
t
26
31
36
48
Cap. 3 Metodi di scomposizione
Fig. 3.11 – Residui del modello additivo di Tab. 3.2
100,000
80,000
60,000
40,000
20,000
34
31
28
25
22
19
16
13
10
7
1
-20,000
4
0,000
-40,000
-60,000
-80,000
3.7 Alcune osservazioni ulteriori sui metodi di scomposizione
A conclusione di questo capitolo, vogliamo soffermarci a discutere alcune
tematiche riguardanti i metodi di scomposizione e precisamente:
1) l’impiego della trasformazione logaritmica per il modello moltiplicativo;
2) come eseguono la scomposizione procedure contenute nei pacchetti
statistici Statistica (www.statsoft.com) e Minitab (www.minitab.com);
3) come si eseguono le previsioni una volta che si è condotta un’analisi di
scomposizione.
Abbiamo già accennato al fatto che si può passare da un modello
moltiplicativo rispetto alla serie originarie yt, (t=1,…,n) ad uno additivo
rispetto alla serie ln yt. Quindi, volendo adottare per yt il modello
moltiplicativo, si potrebbe decidere di eseguire la scomposizione con
modello additivo sui logaritmi poiché si ha:
ln yt=ln(St x Tt x Et) ÅÆ ln yt=lnSt + lnTt + lnEt
E’ bene precisare, tuttavia, che la scomposizione di yt mediante modello
moltiplicativo conduce a risultati diversi alla scomposizione di ln yt
mediante modello additivo (come descritto nel paragrafo 3.4). Per capire
quanto appena affermato, vediamo nel dettaglio l’espressione della media
mobile nei due approcci. Ad esempio, la media mobile a 2k+1 termini
(dispari) centrata sul tempo t è, sui dati originari:
1 t +k
1 t +k
y
=
Ti × S i × Ei
∑ i 2k + 1 i ∑
2k + 1 i =t − k
=t − k
Invece, se si usano dati trasformati:
49
Cap 3 Metodi di scomposizione
(3.5)
1 t +k
1 t +k
ln
y
=
(ln Ti + ln S i + ln Ei )
∑ i 2k + 1 i ∑
2k + 1 i =t − k
=t − k
Quest’ultima espressione equivale al logaritmo della media geometrica dei
valori originali:
(3.6)
1 t +k
1 /( 2 k +1 )
(ln Ti + ln S i + ln Ei ) = ln(∏ i Ti × S i × Ei )
∑
2k + 1 i =t − k
Dal confronto fra (3.5) e (3.6) si capisce che i due approcci conducono, in
generale, a risultati diversi.
Vediamo, a questo punto, le procedure di scomposizione classica delle serie
storiche, contenute nei pacchetti statistici, Statistica e Minitab.
Il pacchetto Statistica, nella procedura Time Series>Decomposition
Census1, esegue i passi esattamente come da noi descritti.
Nel pacchetto Minitab, la procedura Time series>Decomposition, esegue le
fasi dell’analisi secondo un ordine diverso da quello da noi presentato.
Come prima fase, Minitab stima il trend mediante interpolazione di una
retta rispetto al tempo t:
T̂t = a + b t
Successivamente determina il dato detrendizzato Dt che è:
Dt = ( S + E )t = y t − T̂t
Dt = ( S × E )t = y t / T̂t
per il modello additivo
per il modello moltiplicativo
Vengono poi calcolati i coefficienti di stagionalità come da noi descritto,
ipotizzando il modello di stagionalità costante. Si nota che la procedura
Minitab non tiene conto dell’eventuale presenza del ciclo, in quanto stima il
solo trend con una retta (la retta non ha andamenti oscillatori!).
Si può, tuttavia, risolvere questo problema lavorando con Minitab in modo
più flessibile e cioè ricorrendo a diverse procedure. In particolare, la
sequenza di fasi indicata per condurre l’analisi di scomposizione può essere
realizzata in Minitab nel seguente modo:
i) mediante la procedura Time series>Decomposition adattare un modello
senza trend e memorizzare i dati destagionalizzati;
ii) mediante la procedura Time series>Moving average procedere alla stima
del ciclo-trend.
Veniamo infine al tema della previsione. Ci sono stati molti tentativi di
sviluppare previsioni basate direttamente sul risultato di una analisi di
scomposizione mediante medie mobili. Generalmente si procede alla
50
Cap. 3 Metodi di scomposizione
previsione della singola componente (trend, ciclo, ecc.) per poi ricomporre
il dato futuro della serie (come prodotto dei valori delle singole componenti
nel caso del modello moltiplicativo, come somma nel caso del modello
additivo).
Non sempre questo procedimento produce risultati soddisfacenti. In
generale, il trend-ciclo è la componente più difficile da prevedere
soprattutto a causa dell’oscillazione ciclica che non ha andamenti regolari
periodici. Il procedimento può avere successo se il ciclo è assente oppure ha
intensità trascurabile rispetto all’ordine di grandezza del trend. In tale
circostanza, il trend può essere validamente stimato mediante una funzione
analitica del tempo f(t). La previsione T̂n +1 per il tempo futuro t=n+1 (dove
n è la lunghezza della serie disponibile) viene ottenuta estrapolando la retta,
per cui T̂n +1 =f(n+1).
La componente stagionale è relativamente semplice da prevedere
nell’ipotesi di stagionalità costante. Infatti, l’effetto stimato della
stagionalità del mese (trimestre, semestre, ecc.) m (m=1,…,12) è Ŝ m , che è
costante negli anni. Quindi, supponendo che il tempo n+1 sia riferito al
mese di gennaio, la previsione dell’effetto stagionale è Ŝ 1 .
Per la componente irregolare viene adottato, come previsione, il valore
neutrale, che è pari a 0 per il modello additivo, a 1 per il modello
moltiplicativo.
La previsione Fn+1 per il fenomeno in esame, si ottiene ricomponendo le
previsioni per le tre componenti. Supponendo che il tempo n+1 sia riferito
al mese di gennaio, si ottiene
Fn +1 = T̂n +1 + Ŝ1
per il modello additivo
Fn +1 = T̂n +1 × Ŝ1
per il modello moltiplicativo
Nel capitolo seguente affronteremo la stima del trend mediante adattamento
di una forma analitica e deriveremo le previsioni per le vendite della bibita
QQQ.
Anche se per la previsione sono stati sviluppati numerosi metodi più
sofisticati e più efficaci, i procedimenti di scomposizione restano un valido
strumento per comprendere le caratteristiche evolutive passate della serie.
La scomposizione costituisce la fase preliminare per decidere sul metodo di
previsione da adottare.
51
Cap. 4 Studio del trend
4. Studio del trend mediante forma analitica
4.1 Introduzione
L’evoluzione di lungo periodo di una serie storica è denominata trend.
Nell’economia, ad esempio, il trend è determinato dal lento sviluppo delle
tecnologie, dei fenomeni demografici e sociali, ecc.
L’esistenza di una evoluzione di lungo periodo può essere evidenziata
dall’andamento dei dati destagionalizzati risultanti da un’analisi di
scomposizione, oppure dalla serie di dati annuali (anch’essi privi della
stagionalità).
Nel capitolo precedente abbiamo illustrato la stima del trend mediante le
medie mobili; tale procedimento è denominato adattamento locale del trend
o stima locale. In questo capitolo affronteremo la stima del trend mediante
specificazione e stima di una funzione analitica del tempo t. Questo
procedimento è denominato analisi globale poiché la funzione stimata
definisce come una sorta di legge di dipendenza del trend dal tempo t.
Varie forme funzionali sono utilizzate per rappresentare il trend. Quelle che
vedremo in queste note sono: la forma lineare, la quadratica e
l’esponenziale.
4.2 Forme analitiche per rappresentare il trend
Ipotizziamo che yt=Tt+et, dove yt qui rappresenta o il dato annuale o quello
destagionalizzato e et la componente di disturbo.
La forma lineare in t è:
(4.1)
Tt=β0+β1 t
t=1,…,n
dove β0 è l’intercetta e β1 è la pendenza della retta. Se β1>0 il trend è
crescente; se β1<0, il trend è decrescente; se β1=0 esiste un pattern
orizzontale. Un modo per capire se il trend lineare è appropriato per
rappresentare la nostra serie, consiste nel verificare se le differenze
successive
della
serie
(destagionalizzata
o
annuale)
sono
approssimativamente costanti rispetto a t. Ciò scaturisce dal fatto che, se
vale la (4.1), si ha che:
(4.2)
∆ t = Tt − Tt −1 = β 0 + β 1t − β 0 − β 1 ( t − 1 ) = β 1
costante in t.
52
Cap. 4 Studio del trend
Talvolta il trend può esibire andamenti non lineari rispetto al tempo. Allora
può essere appropriata la forma quadratica:
(4.3)
Tt=β0+β1 t+β2 t2
t=1,…,n
La (4.2) può assumere una varietà di forme a seconda del segno dei
coefficienti β1 e β2; da notare, ad esempio, che quando β2=0 si ottiene una
forma lineare in t.
Un modo per verificare l’adeguatezza di un modello quadratico consiste
nell’effettuare le seconde differenze fra termini successivi della serie (cioè
le differenze successive della serie ∆t definita in (4.2)). Se i valori di tali
differenze appaiono approssimativamente costanti rispetto a t, può essere
valido un modello quadratico. Ciò scaturisce dal fatto che, se vale la (4.3),
allora ∆t+1-∆t è costante in t. Infatti, se vale la (4.3), si ha:
∆t+1-∆t=2 β2
costante in t
dove:
∆ t = Tt − Tt −1 = β 0 + β 1t + β 2 t 2 − β 0 − β 1 ( t − 1 ) − β 1 ( t − 1 ) 2
∆ t +1 = Tt +1 − Tt = β 0 + β 1 ( t + 1 ) + β 2 ( t + 1 ) 2 − β 0 − β 1t − β 1t 2
Un’altra forma spesso usata è quella esponenziale:
(4.4)
Tt=β0 exp(β1 t)
t=1,…,n
Se vale la (4.4), si verifica la seguente espressione:
β 0 exp( β 1t )
Tt
=
= exp( β 1 )
Tt −1 β 0 exp( β 1 ( t − 1 ))
costante in t
Un modo per verificare l’adeguatezza di un modello esponenziale consiste
pertanto nell’effettuare i rapporti fra termini successivi della serie e
verificare se questi sono approssimativamente costanti rispetto a t.
4.3 Stima del trend
Una volta che è stata scelta una forma analitica per rappresentare il trend, è
necessario passare alla sua stima a partire da dati di osservazione. I dati sui
quali viene stimato il trend dovrebbero essere privi di andamento stagionale
e ciclico. In altre parole, l’unica componente sistematica presente nei dati
deve essere quella tendenziale di lungo periodo. In assenza di significative
oscillazioni cicliche, i dati più idonei all’analisi del trend sono: i valori
destagionalizzati oppure la serie di dati annuali.
53
Cap. 4 Studio del trend
A scopi di esemplificazione, viene condotta un’analisi del trend sui dati
relativi alle vendite di bibita QQQ. In aprticolare, dalla Fig. 3.6, si nota che i
dati destagionalizzati mediante il modello moltiplicativo, possono essere
rappresentati mediante una funzione lineare nel tempo. Anziché procedere
alla media mobile a 3 termini, decidiamo quindi di adottare la stima di una
funzione analitica, lineare in t.
Mediante il metodo dei minimi quadrati ordinari, la funzione analitica che
rappresenta il trend è in tal caso:
(4.5)
Tˆt = 380 ,3 + 9 ,505 t
che registra un indice di determinazione lineare R2 pari a 0,985.
Nello studio del trend mediante funzione analitica, viene usato il metodo dei
minimi quadrati come in una consueta analisi di regressione. Tuttavia non si
procede alla verifica delle ipotesi sui coefficienti dal momento che la stima
del modello ha lo scopo di descrivere l’andamento del trend rispetto al
tempo e non quello di valutare l’effetto di t sul trend, nel senso causale o
esplicativo.
4.4 Stima della componente sistematica e previsione
Mediante la stima della stagionalità ottenuta per il modello moltiplicativo
(v. Tab. 3.3) e la stima del trend mediante la funzione (4.5), è possibile
proporre una stima dell’intera componente sistematica del modello
moltiplicativo che è (v. Tab. 4.1):
yˆ t = Tˆt × Sˆ t = ( 380 ,3 + 9 ,505 t )× Sˆ t
A questo punto è possibile pervenire ad una determinazione di Et,
componente casuale del modello, mediante la grandezza Êt dove:
y
y
Eˆ t = t = t
yˆ t Tˆt Sˆ t
Tuttavia, per proporre un confronto con altri metodi di scomposizione e con
altri modelli, si usa frequentemente il residuo consueto:
Rest = y t − yˆ t
mediante il quale si può calcolare ad esempio il MAPE. In questo caso, il
MAPE è pari a 1,93%, valore leggermente più alto di quello ottenuto
mediante l’impiego della media mobile a 3 termini per la stima del trend (v.
paragrafo 3.6).
54
Cap. 4 Studio del trend
Tab. 4.1 – Risultati del modello moltiplicativo (vendite bibita QQQ).
Trend stimato mediante funzione lineare del tempo
ANNO MESE
1999
1
2
3
4
5
6
7
8
9
10
11
12
2000
1
2
3
4
5
6
7
8
9
10
11
12
2001
1
2
3
4
5
6
7
8
9
10
11
12
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
yt Stima Sm StimaDt
189
0,493
383
229
0,595
385
249
0,595
419
289
0,679
425
260
0,564
461
431
0,985
438
660
1,466
450
777
1,692
459
915
1,988
460
613
1,306
469
485
1,028
472
277
0,600
462
244
0,493
495
296
0,595
497
319
0,595
536
370
0,679
545
313
0,564
555
556
0,985
565
831
1,466
567
960
1,692
568
1152
1,988
579
759
1,306
581
607
1,028
591
371
0,600
619
298
0,493
605
378
0,595
635
373
0,595
627
443
0,679
652
374
0,564
663
660
0,985
670
1004
1,466
685
1153
1,692
682
1388
1,988
698
904
1,306
692
715
1,028
696
441
0,600
736
Stima Tt
390
399
409
418
428
437
447
456
466
475
485
494
504
513
523
532
542
551
561
570
580
589
599
608
618
627
637
646
656
665
675
684
694
703
713
722
Stima yt
192
238
243
284
241
431
649
772
926
621
498
296
248
306
311
362
306
543
815
965
1153
770
616
365
305
373
379
439
370
655
981
1158
1380
919
733
433
Rest
-3,13
-8,64
5,77
4,79
18,79
0,34
10,57
5,09
-11,29
-7,89
-13,40
-19,40
-4,34
-9,53
7,91
8,30
7,48
13,02
15,80
-4,84
-1,09
-10,87
-8,65
6,21
-6,56
4,59
-5,95
3,80
4,17
4,70
23,02
-4,78
8,11
-14,86
-17,89
7,82
Questo tipo di scomposizione, che utilizza una forma analitica per
rappresentare il trend, ci consente in modo estremamente semplice di
proporre delle previsioni per i periodi futuri. E’ necessario, però, ipotizzare
che il modello stimato sui dati passati rimanga valido anche nel futuro. Per
Cap. 4 Studio del trend
55
non rischiare troppo conviene limitarsi ad effettuare delle previsioni nel
breve periodo.
A titolo esemplificativo, proponiamo qui le previsioni delle vendite di bibita
QQQ, per i primi tre mesi del 2002: gennaio, febbraio e marzo ai quali
corrisponde t=37, 38, 39 e coefficienti di stagionalità pari a 0,493, 0,595,
0,595. Le previsioni che indichiamo come F37, F38, F39 sono:
F37=(380,3+9,505 x 37) x 0,493= 361
F38=(380,3+9,505 x 38) x 0,595= 441
F39=(380,3+9,505 x 39) x 0,595= 447
Come si vede le ipotesi di validità nel futuro del modello riguardano:
- la stabilità dei valori dei parametri della forma analitica usata per
rappresentare il trend;
- la stabilità dei coefficienti stagionali per i tre mesi futuri, per i quali si
costruisce la previsione.