Introduzione all`analisi delle serie storiche e dei metodi di previsione
Transcript
Introduzione all`analisi delle serie storiche e dei metodi di previsione
Introduzione all’analisi delle serie storiche e dei metodi di previsione Indice 1. Capitolo introduttivo, 1 1.1 Introduzione 1.2 Fasi di un’analisi di previsione e struttura delle dispense 2. Metodi e strumenti di base, 5 2.1 Serie storica e dati cross section 2.2 Analisi grafiche preliminari 2.3 Sintesi numeriche 2.4 Misure di bontà di adattamento e di accuratezza della previsione 2.5 Trasformazioni e aggiustamenti 2.6 Aggiustamenti della serie per tener conto delle variazioni dei prezzi 2.6.1 I numeri indici semplici 2.6.2 I numeri indici sintetici: Paasche,Laspeyres, Fisher 2.6.3 I principalinumeri indici costruiti in Italia 2.6.4 Esempi di aggiustamento di una serie storica 3. Metodi di scomposizione, 31 3.1 Introduzione 3.2 Il modello di scomposizione 3.3 Rappresentazioni grafiche negli approcci di scomposizione 3.4 La media mobile 3.5 Scomposizione classica: il modello additivo 3.6 Scomposizione classica: il modello moltiplicativo 3.7 Alcune osservazioni ulteriori sui metodi di scomposizione 4. Studio del trend mediante forma analitica, 51 4.1 Introduzione 4.2 Forme analitiche per rappresentare il trend 4.3 Stima del trend 4.4 Stima della componente sistematica e previsione Cap 1 Analisi preliminare 1 1. Capitolo introduttivo 1.1 Introduzione In molte situazioni che interessano l’impresa e il management, emerge la necessità di pianificare le azioni future. La previsione è uno strumento importante per una pianificazione efficiente. Inoltre, tale strumento rende il decisore meno soggetto ad eventi inaspettati in quanto gli impone un approccio più scientifico riguardo alla conoscenza dell’ambiente in cui opera. Fra gli scopi per i quali lo strumento previsivo è di cruciale importanza ricordiamo. 1. Utilizzo efficiente delle risorse: programmazione della produzione, organizzazione dei trasporti, del personale, ecc.. I fenomeni da prevedere sono costituiti da: livello della domanda, del materiale, del lavoro, ecc. 2. Approvvigionamento delle risorse: è importante prevedere le necessità future di materiali, prodotti, ecc. perché esiste un certo intervallo di tempo per ottenerli. 3. Determinazione dell’ammontare delle risorse necessarie: tutte le organizzazioni devono determinare le risorse che saranno necessarie nel lungo termine. Le tre categorie sopra individuate si riferiscono a tre tipologie di previsioni: di breve, di medio e di lungo periodo. Questo significa che una organizzazione che vuole predisporre un sistema previsivo, dovrà seguire approcci differenti. Un sistema previsivo aziendale deve realizzare uno stretto collegamento fra tutte le aree o divisioni dell’impresa. Ad esempio, una errata previsione sulle vendite influenza le decisione sul budget, sulla politica delle scorte, ecc. Un errore nella pianificazione di budget può avere ricadute sulle spese pubblicitarie, sullo sviluppo di nuovi prodotti , ecc. Sono state sviluppate numerose tecniche previsivi che sono classificate in due categorie generali: tecniche quantitative, basati su metodi statistici e tecniche qualitativi, basate prevalentemente su giudizi (Makridakis, Wheelwright, Hyndmann, 19XX). I metodi di tipo quantitativo possono essere impiegati quando: (i) sia disponibile una sufficiente informazione sull’evoluzione passata del fenomeno; (ii) tale informazione possa essere quantificata, e (iii) si possa assumere che le caratteristiche dell’evoluzione passata continuino a sussistere nel futuro, al fine di effettuare la previsione. L’applicazione del 2 Cap. 1 Capitolo introduttivo corretto metodo di previsione, riesce spesso a identificare la relazione che c’è fra la variabile da prevedere e il tempo (oppure altre variabili che hanno il ruolo di predittori) rendendo possibile l’operazione di previsione. Le tecniche o metodi di tipo quantitativo sono numerosi perché sono stati sviluppati nell’ambito di numerose discipline. Ogni tecnica ha suoi scopi precipui, costi e tempi di realizzazione rispetto ai quali ne viene valutata la convenienza. Nella maggioranza dei casi le tecniche quantitative sono di tipo formalizzato; esse richiedono cioè l’impiego di metodologia statisticomatematica a livello più o meno elevato. Metodi quantitativi: è disponibile sufficiente informazione quantitativa. ANALISI DELLE SERIE STORICHE (TIME SERIES): prevede la ripetizione, nel futuro, del sentiero storico (es. andamento delle vendite, del PIL, ecc.). METODI ESPLICATIVI: impiegano modelli di regressione per misurare quanto una variabile esplicativa influenza la variabile da prevedere (es. effetti sulle vendite della promozione pubblicitaria e/o del prezzo). Metodi qualitativi: limitata o nessuna informazione quantitativa ma esiste sufficiente informazione di tipo qualitativo (es. quale sarà la rapidità di calcolo di un PC nel 2010?). E’ importante soffermarci sulla categorizzazione interna ai metodi quantitativi fra modelli di analisi delle serie storiche e modelli esplicativi. Questi ultimi assumono che la variabile da prevedere possa essere messa in relazione con una o più variabili indipendenti o esplicative. Ad esempio, la domanda di beni di consumo di una famiglia dipende dal reddito percepito, dall’età dei componenti, ecc. Tali tecniche di previsione impiegano i metodi di regressione e quindi la fase principale dell’analisi consiste nella specificazione e stima di un modello che mette in relazione la variabile da prevedere (variabile risposta) e le variabili esplicative. Queste, spesso, hanno la funzione di variabili strumentali rispetto alle quali si esplicita l’andamento del fenomeno da prevedere. La fase di previsione vera e propria richiede la conoscenza dei livelli futuri delle variabili esplicative che, sostituiti nella formula stimata del modello, forniscono la previsione per la variabile che interessa (la variabile dipendente del modello). I metodi esplicativi sono di particolare utilità ed efficacia quando la variabile esplicativa è direttamente manipolabile dal decisore (ad es. il prezzo del prodotto). Nell’analisi delle serie storiche il fenomeno da prevedere viene trattato come una scatola nera in quanto non si cerca di individuare i fenomeni che lo possono influenzare. L’obiettivo di questo approccio consiste nell’identificazione dell’evoluzione passata del fenomeno e nella Cap 1 Analisi preliminare 3 estrapolazione del sentiero passato per ottenere la previsione. In altre parole, il fenomeno da prevedere viene modellato rispetto al tempo e non rispetto ad una variabile esplicativa. Questa impostazione si rivela senz’altro utile quando: 1. il fenomeno è poco conosciuto oppure è difficile individuare (misurare) le relazioni che questo ha con altri fenomeni; 2. siamo interessati a conoscere ciò che accadrà e non il modo in cui accadrà. Gli approcci o metodi di tipo qualitativo non richiedono dati o informazioni formalizzate. Essi si basano soprattutto su giudizi e sull’esperienza accumulata e sono prevealentemente usati per indicare tendenze più che per prevedere specifici valori numerici. Si ritiene che questi metodi possano essere usati con successo in congiunzione con i metodi quantitativi, nelle aree dello sviluppo di prodotto, degli investimenti di capitale, nella formulazione di strategie, ecc. Concludiamo questo paragrafo sottolineando che il decisore ha a sua disposizione un vasto armamentario di strumenti di previsione che variano per: l’informazione necessaria, il livello di formalizzazione e di trattamento statistico-matematico, l’orizzonte temporale di previsione, il costo. 1.2 Fasi di un’analisi di previsione e struttura delle dispense Un’analisi di previsione basata su dati quantitativi si sviluppa in cinque fasi. 1. 2. 3. 4. 5. Definizione del problema Raccolta di informazioni Analisi preliminare dei dati Scelta e adattamento del modello Valutazione del modello e suo impiego a fini previsivi. La fase 2 concerne sia informazioni di tipo quantitativo sia di tipo qualitativo (es. giudizi). E’ in genere necessario raccogliere dati storici sul fenomeno di interesse (ad esempio: fatturato mensile). La fase 3 riguarda l’impiego di metodi statistici grafici e descrittivi, che vengono discussi nel capitolo 2. Lo scopo è quello di cercare di individuare eventuali regolarità nell’andamento temporale del fenomeno di interesse. Per la fase 4, vedremo l’impiego di approcci empirici di analisi delle serie storiche come i metodi di scomposizione (capitolo 3) basati sulle medie mobili e anche approcci che richiedono l’impiego di metodi di regressione (capitolo 4). 4 Cap. 1 Capitolo introduttivo Sono disponibili numerosi criteri per la valutazione della bontà del modello, a seconda dell’approccio di analisi che è stato scelto (fase 5). A questo proposito è importante fare distinzione fra fitting error o errore di stima e forecasting error o errore di previsione. Il primo fa riferimento a come il modello si adatta ai dati passati; il secondo riguarda la capacità del modello nel prevedere i dati futuri. Nelle dispense viene dato ampio spazio ai metodi quantitativi, tuttavia nell’ultimo capitolo (capitolo 5) viene fatto un cenno anche ai metodi di previsione di tipo qualitativo. 5 Cap 2 Metodi e strumenti di base 2. Metodi e strumenti di base 2.1 Serie storica e dati cross section E’ importante fare innanzi tutto una distinzione fra serie storica e dati cross section o dati sezionali. Una serie storica è una sequenza di osservazioni ordinate rispetto al tempo (ad esempio: il fatturato mensile, i prezzi giornalieri delle azioni, il tasso di interesse settimanale, il profitto annuo, ecc.). Lo scopo dell’analisi delle serie storiche consiste nello studio dell’evoluzione passata del fenomeno rispetto al tempo; la previsione viene ottenuta ipotizzando che tali regolarità di comportamento di ripetano nel futuro. A tale scopo noi assumiamo, in queste note, che i tempi di osservazione siano equispaziati. Questa non è una grossa restrizione poiché molti fenomeni di interesse aziendale vengono registrati in corrispondenza di tempi equispaziati o di intervalli di medesima ampiezza. Un esempio di serie storica è riportato nella Tab. 2.1, che contiene il dato sulla popolazione residente in Italia dal 1979 al 2000. Tab. 2.1 – Popolazione residente in Italia a metà anno (migliaia di unità) Anno 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Fonte: Istat Popolazione 56.318 56.434 56.510 56.544 56.564 56.577 56.593 56.596 56.602 56.629 56.672 Anno 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Popolazione 56.719 56.751 56.859 57.049 57.204 57.301 57.397 57.512 57.588 57.646 57.728 La Tab. 2.2 contiene dati sezionali (o trasversali) che sono riferiti ad un medesimo periodo di tempo. In particolare, si tratta del PIL delle venti regioni italiane, prodotto nel 1999. 6 Cap. 2 Metodi e strumenti di base Tab. 2.2 - PIL regionale anno 1999 (miliardi di Lire) Regione PIL Regione PIL Piemonte 186328,9 Marche 55344,1 V. d’Aosta 5806,1 Lazio 216629,9 Lombardia 436875,2 Abruzzo 39631,8 Trentino A.A. 45347,1 Molise 9544,2 Veneto 195651,8 Campania 139188,6 Friuli V.G. 49461,6 Puglia 100616,6 Liguria 64664,1 Basilicata 16154,3 Emilia R. 188508,8 Calabria 47131,2 Toscana 144547,6 Sicilia 124999,4 Umbria 29973,9 Sardegna 47438,3 Fonte: Istat 2.2 Analisi grafiche preliminari La prima cosa importante da fare quando ci accingiamo ad analizzare una serie storica è quello di visualizzare i dati mediante una rappresentazione grafica. Lo scopo è quello di individuare eventuali regolarità di comportamento che sono utili nel suggerire l’approccio modellistico. Il grafico più semplice è il cosiddetto time plot (oppure line plot) che consiste nella rappresentazione dei dati rispetto al tempo. Il time plot dei dati di Tab. 2.1 è mostrato nella Fig. 2.1. La Fig. 2.2 riporta invece il time plot delle vendite mensili di birra in Australia, per il periodo 1991-1994 (dati in Tab. 2.3). Fig. 2.1 – Time plot per i dati di Tab. 2.1 57.500 57.000 56.500 56.000 55.500 19 79 19 81 19 83 19 85 19 87 19 89 19 91 19 93 19 95 19 97 19 99 Popolazione (migliaia) 58.000 Anno 7 Cap 2 Metodi e strumenti di base Fig. 2.2 – Time plot dei dati di Tab. 2.3 200.000 190.000 Migliaia di litri 180.000 170.000 160.000 150.000 140.000 130.000 120.000 1991 1992 1993 1994 Tab. 2.3 – Vendite mensili di birra in Australia (migliaia di litri) Anno Mese Quantità Anno Mese Quantità 1991 Gennaio 164.000 1993 Gennaio 139.000 Febbraio 148.000 Febbraio 143.000 Marzo 152.000 Marzo 150.000 Aprile 144.000 Aprile 154.000 Maggio 155.000 Maggio 137.000 Giugno 125.000 Giugno 129.000 Luglio 153.000 Luglio 128.000 Agosto 146.000 Agosto 140.000 Settembre 138.000 Settembre 143.000 Ottobre 190.000 Ottobre 151.000 Novembre 192.000 Novembre 177.000 Dicembre 192.000 Dicembre 184.000 1992 Gennaio 147.000 1994 Gennaio 151.000 Febbraio 133.000 Febbraio 134.000 Marzo 163.000 Marzo 164.000 Aprile 150.000 Aprile 126.000 Maggio 129.000 Maggio 131.000 Giugno 131.000 Giugno 125.000 Luglio 145.000 Luglio 127.000 Agosto 137.000 Agosto 143.000 Settembre 138.000 Settembre 143.000 Ottobre 168.000 Ottobre 160.000 Novembre 176.000 Novembre 180.000 Dicembre 188.000 Dicembre 182.000 Fonte: Makridakis, Wheelwright, Hyndman (19xx) 8 Cap. 2 Metodi e strumenti di base Un time plot immediatamente rivela tendenze o oscillazioni regolari, e altri andamenti di tipo sistematico rispetto al tempo. La Fig. 2.1 riporta dati annuali che evidenziano un andamento sistematicamente crescente nel lungo periodo (trend crescente). La serie di Fig. 2.2 presenta una andamento meno liscio; essendo i dati a cadenza mensile, in essi è presente il fenomeno denominato stagionalità. Si può notare (aiutandoci anche con la Tab. 2.3) che i picchi elevati si registrano sempre nei mesi caldi (novembre e dicembre; attenzione: i dati si riferiscono all’Australia!) e vicini alle feste natalizie. In generale, possono essere individuati quattro tipi di andamento (o pattern) rispetto al tempo. 1. Pattern orizzontale. In questo caso la serie oscilla intorno ad un valore costante (media della serie). Tale serie è detta stazionaria in media. E’ il caso tipico che si presenta nel controllo di qualità on line quando il processo si mantiene sotto controllo rispetto alla media. 2. Pattern stagionale. Questo esiste quando la serie è influenzata da fattori stagionali (es. mensile, semestrale, trimestrale, ecc.). Prodotti come gelati, bibite analcoliche, consumo di elettricità sono soggette al fenomeno stagionale (v. Figg. 2.2 e 2.3). Le serie influenzate dalla stagionalità sono dette anche serie periodiche poiché il ciclo stagionale si ripete in un periodo fisso. Nei dati di tipo annuale la stagionalità non è presente (v. Fig. 2.1). 3. Pattern ciclico. Questo tipo di andamento è presente quando la serie presenta aumenti e diminuzioni che non sono di periodo fisso. Questa è la principale differenza fra le fluttuazioni cicliche e quelle stagionali. Inoltre, l’ampiezza delle oscillazioni cicliche è generalmente più grande di quella dovuta alla stagionalità. Nelle serie economiche il pattern ciclico è determinato dalle espansioni e contrazioni dell’economia dovuti a fenomeni congiunturali. 4. Trend o tendenza di fondo. E’ caratterizzato da un andamento crescente o decrescente di lungo periodo. La serie della popolazione residente in Italia è un esempio di andamento tendenziale o trend di tipo crescente; la serie delle vendite mensili di birra, invece, non presenta alcun trend. Ha un pattern di fondo di tipo orizzontale Molte serie evidenziano una combinazione di questi pattern. Ad esempio, la serie di Tab. 2.4 presenta sia trend sia stagionalità (v. Fig. 2.3). E’ proprio questo genere di complessità che rende l’operazione di previsione estremamente interessante. I metodi previsivi, infatti, devono essere in grado di riconoscere le varie componenti della serie in modo da riprodurle nel futuro, nell’ipotesi che il pattern passato continui a ripetersi, nelle sue caratteristiche evolutive, anche nel futuro. 9 Cap 2 Metodi e strumenti di base Tab. 2.4 – Vendite mensili di bottiglie di bibita QQQ (da ½ litro) Anno Mese t Nr. Anno Mese t Nr. Anno Mese 1999 1 1 189 2000 1 13 244 2001 1 1999 2 2 229 2000 2 14 296 2001 2 1999 3 3 249 2000 3 15 319 2001 3 1999 4 4 289 2000 4 16 370 2001 4 1999 5 5 260 2000 5 17 313 2001 5 1999 6 6 431 2000 6 18 556 2001 6 1999 7 7 660 2000 7 19 831 2001 7 1999 8 8 777 2000 8 20 960 2001 8 1999 9 9 915 2000 9 21 1152 2001 9 1999 10 10 613 2000 10 22 759 2001 10 1999 11 11 485 2000 11 23 607 2001 11 1999 12 12 277 2000 12 24 371 2001 12 Fonte: dati fittizi di nostra elaborazione t Nr. 25 298 26 378 27 373 28 443 29 374 30 660 31 1004 32 1153 33 1388 34 904 35 715 36 441 Fig. 2.3 – Time plot della serie di Tab. 2.4 1400 1200 Nr. bottiglie 1000 800 600 400 200 35 31 33 27 29 23 25 19 21 15 17 9 11 13 7 5 3 1 0 t Se una serie storica esibisce un’oscillazione stagionale è utile eseguire un seasonal plot o grafico stagionale, che consiste nella rappresentazione dei valori della serie (in ordinata) versus i periodi stagionali come: mesi, trimestri, semestri, ecc. (in ascissa). I punti corrispondenti al medesimo anno vengono uniti da segmenti lineari di modo che si formano tante spezzate quanti sono gli anni della serie. Il seasonal plot per la serie di Tab. 2.4 è rappresentato nella Fig. 2.4. Si può apprezzare la presenza di oscillazioni stagionali in espansione durante i mesi estivi con inizio da giugno, in contrazione a partire da ottobre. 10 Cap. 2 Metodi e strumenti di base Fig. 2.4 – Seasonal plot della serie di Tab. 2.4 1400 1999 1200 2000 2001 Nr. bottiglie 1000 800 600 400 200 0 0 1 2 3 4 5 6 mesi 7 8 9 10 11 12 Il seasonal plot è in grado di mostrare anche l’eventuale presenza del trend. Nella Fig. 2.4, ad esempio, notiamo che la spezzata relativa al 1999 è la più bassa mentre quella del 2001 è la più elevata. E’ evidente che il livello annuo della serie è aumentato nei tre anni. Nella fase di analisi preliminare di una serie storica, può essere di utilità anche il grafico in cui i valori della serie (in ordinata) sono rappresentati rispetto ai periodi annuali (in ascissa). La Fig. 2.5 riporta questo tipo di grafico per i dati di Tab. 2.4. Fig. 2.5 – Grafico della serie di Tab. 2.4 rispetto agli anni 1400 Nr. bottiglie 1200 1000 800 600 400 200 0 1998 1999 2000 anni 2001 11 Cap 2 Metodi e strumenti di base La Fig. 2.5 è in grado di dare indicazioni riguardo a: la presenza del trend; si nota come le tre ‘colonne’di punti tendono, con gli anni, ad essere posizionate leggermente più in alto; il tipo di oscillazione stagionale interna all’anno; si nota come, all’aumentare del trend, il range di variazione dei valori stagionali è più ampio. 2.3 Sintesi numeriche In aggiunta ai grafici, è utile approfondire l’analisi statistica, calcolando indici sintetici quali: media, mediana, campo di variazione, varianza, deviazione standard (standard deviation), ecc. Indici di posizione e di variabilità frequentemente usati Serie storica: y1, y2, …, yt, …, yn, t=1,…,n Media aritmetica y= 1 n ∑ yt n t =1 R=Max(yt)−min(yt) Campo di variazione (range) Varianza Deviazione standard S2 = 1 n ( yt − y )2 ∑ n − 1 t =1 S = + S2 =+ 1 n ∑ ( yt − y )2 n − 1 t =1 Altre misure statistiche impiegate nell’analisi delle serie storiche sono: la covarianza e la correlazione che, nella fattispecie, vengono denominate rispettivamente autocovarianza e autocorrelazione dal momento che sono calcolate fra coppie di punti della medesima serie, distanti k periodi. La costante k è detta lag temporale. Le formule dell’autocovarianza e dell’autocorrelazione sono illustrate nel quadro di seguito riportato. Autocovarianza e autocorrelazione Autocovarianza ck = 1 n−k ∑ ( yt − y )( yt + k − y ) n − 1 t =1 n−k Autocorrelazione rk = ∑( y t =1 t − y )( y t + k − y ) n ∑( y t =1 t − y )2 = ck c0 12 Cap. 2 Metodi e strumenti di base Consideriamo i dati di Tab. 2.4, relativi alle vendite di bottiglie di bibita QQQ, dove n=36. Se poniamo k=1, otteniamo n-k=n-1=35 coppie di valori (yt, yt+1), t=1,…,n-1, per calcolare l’autocovarianza e l’autocorrelazione. Se poniamo k=2, otteniamo n-k=n-2=34 coppie di valori (yt, yt+2), t=1,…,n-2, e così via. I valori di rk con k=1,2,…,24, sono rappresentati nella Fig. 2.6 che è denominata correlogramma ed è molto utile per l’identificazione dell’ampiezza delle oscillazioni cicliche o stagionali presenti nei dati. Fig. 2.6 – Correlogramma per i dati di Tab. 2.4 1 0,8 autocorrelazione 0,6 0,4 0,2 0 -0,2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 -0,4 -0,6 lag Dal correlogramma di Fig. 2.6, possiamo dedurre la ciclicità del legame di autocorrelazione dovuto al marcato fenomeno stagionale che influenza i dati. Da notare che l’autocorrelazione è negativa per periodi di 6, 18 mesi, e infatti mentre di giugno-luglio si registrano impennate nelle vendite, i mesi dicembre-gennaio vedono un fatturato al minimo. Al contrario è positive ed elevata la correlazione di lag 12 mesi. Tutto ciò è una conferma della presenza di una marcata stagionalità di ampiezza 12 periodi (mesi). C’è da osservare che l’autocorrelazione rk (e lo stesso discorso vale per l’autocovarianza ck) viene calcolata su n-k coppie di valori; pertanto all’aumentare di k si riduce la numerosità dei dati ovvero la consistenza delle informazioni. 2.4 Misure di bontà di adattamento e di accuratezza della previsione In molte analisi statistiche in cui un modello viene adattato a un set di dati (ad es. nell’analisi di regressione), il termine accuratezza si riferisce alla capacità del modello di riprodurre i dati sui quali è stato stimato e cioè della 13 Cap 2 Metodi e strumenti di base bontà di adattamento del modello (goodness of fit). L’accuratezza nella previsione (forecast accuracy), invece, misura la capacità del modello a riprodurre i dati futuri della serie. Se il metodo di previsione si propone un orizzonte temporale di più periodi, la verifica della sua capacità previsiva può avvenire come di seguito indicato: 1) si utilizzano i primi m dati della serie per la stima del modello; 2) si usano i successivi m+1,…,n dati per la verifica dell’accuratezza previsiva. Per capire quanto appena detto introduciamo un po’ di simbologia: y1, y2, …, yn indica la serie di dati disponibile; y1, y2, …, ym m<n, indica la serie di dati che viene usata per la stima del modello di previsione (training sample); ym+1, ym+2, …, yn , indica la serie di dati che viene usata per la verifica della capacità previsiva (test sample); ŷ1 , ŷ 2 ,..., ŷ m sono le stime dei valori del training sample ottenute tramite il modello stimato; Fm+1, Fm+2,…,Fn sono le previsioni (forecast) riferite al periodo di tempo da t=m+1 a t=n (test sample), ottenuto tramite il modello stimato sul training sample. La differenze fra l’errore di stima et e l’errore di previsione ft, può essere apprezzata dalle formule seguenti: et = y t − ŷ t , t=1,…,m; f t = y t − Ft , t=m+1,…,n. Spesso il decisore è interessato a conoscere il valore della serie, relativo al periodo immediatamente successivo all’ultimo dato disponibile. Si tratta della previsione a un passo (one-step forecast) che consiste nella previsione di un periodo in avanti rispetto all’ultima osservazione (ad esempio si hanno dati fino al mese di giugno 2001 e si vuole prevedere il dato per il mese di luglio 2001). Ogni previsione Ft viene determinata pertanto usando i t-1 dati precedenti: y1, y2,…,yt-1; e cioè impiegando un modello di previsione che è stato stimato sui primi t-1 elementi della serie. Il procedimento è esemplificato facendo riferimento al quadro riportato qui di seguito. Partendo da un punto t=H>1 il modello viene stimato via via aggiungendo un nuovo elemento fino a t=n-1; si ottengono complessivamente n-H previsioni in corrispondenza dei periodi a partire da H+1 fino a n. In presenza di stagionalità, questo procedimento necessita di una serie adeguatamente lunga. Infatti, l’individuazione e la modellazione della 14 Cap. 2 Metodi e strumenti di base stagionalità richiede di norma almeno cinque anni completi. Nel caso di dati mensili, ad esempio, H deve essere per lo meno superiore a 60 (12x5). Passi 1 2 : : n−1 Serie per la stima y1, …, yH y1, …, yH, yH+1 : : y1, …, yH, yH+1, …, yn-1 One-step forecast FH+1 FH+2 : : Fn Errore di previsione yH+1−FH+1 yH+2−FH+2 : : yn−Fn Vediamo infine le misure di bontà di adattamento/previsione usate più frequentemente. Tali misure sono: errore medio (mean error: ME): media aritmetica degli errori; errore quadratico medio (mean squared error: MSE): media aritmetica dei quadrati degli errori; errore medio assoluto (mean absolute error: MAE): media aritmetica degli errori presi in valore assoluto; errore medio assoluto percentuale (mean absolute percentage error: MAPE): media aritmetica degli errori relativi, presi in valore assoluto e moltiplicati per 100. Nel quadro qui sotto sono riportate le formule dei quattro indici calcolate sugli errori di stima di una serie di m elementi, e sugli errori di previsione per un intervallo di previsione di m periodi. Infatti, quando tali indici vengono calcolati su et, si ottiene una misura di goodness of fit; quando sono calcolati su ft, viene quantificato l’errore di previsione. Bontà di adattamento ME = 1 m ∑ et m t =1 Accuratezza della previsione ME = 1 m ∑ ft m t =1 MSE = 1 m 2 ∑ e m t =1 t MSE = 1 m 2 ∑ f m t =1 t MAE = 1 m ∑ et m t =1 MAE = 1 m ∑ m t =1 MAPE = 1 m ∑ m t =1 et yt 100 MAPE = ft 1 m ∑ m t =1 ft yt 100 Brevemente commentiamo il tipo di informazione che viene offerta da questi indici. Cap 2 Metodi e strumenti di base 15 ME è l’unico indice che può assumere anche valori negativi. Il MAE avrà valori bassi perché elementi positivi e negativi, nella sommatoria, tenderanno a compensarsi. Il segno di ME ci dice se si tende, in media, a sopravvalutare (ME<0) o sottovalutare (ME>0) il fenomeno. MSE e MAE rendono positivi i singoli addendi della sommatoria. Per la presenza dell’esponente, MSE è meno agevole da interpretare da persone non specialiste. I tre indici ME, MSE e MAE forniscono un valore che dipende dall’unità di misura della serie. Il MAPE elimina questo problema in quanto l’errore viene relativizzato dividendolo per il valore osservato. Il MAPE può però essere usato solo se il fenomeno è misurabile su scala a rapporto. Per il calcolo del MAPE sorgono difficoltà quando la serie osservata contiene valori nulli o molto prossimi a zero. A scopo puramente esemplificativo, vediamo l’impiego di questi indici per valutare un semplice metodo di previsione sul la serie di Tab. 2.4. I dati fino a t=24 (training sample) sono utilizzati per la stima del modello di previsione; i dati del 2001 (test sample) sono impiegati per la verifica della capacità previsiva del metodo che consiste nel prevedere il dato del mese j (j=1,…,12) del 2001, mediante la media aritmetica semplice dei valori dello stesso mese j nei due anni precedenti. Denominiamo come M1 questo metodo di previsione. I risultati sono mostrati nella Tab.2.5. Tab. 2.5 – Previsioni con M1 per il 2001 (dati di Tab. 2.4) Ft ft Mese yt 1 298 217 82 2 378 263 116 3 373 284 89 4 443 330 114 ME=171,2 5 374 287 88 MSE=36614,2 6 660 494 167 MAE=171,2 7 1004 746 259 MAPE=25,5% 8 1153 869 285 9 1388 1034 355 10 904 686 218 11 715 546 169 12 441 324 117 In questo caso ME=MAE poiché tutti gli errori di previsioni sono positivi. Ciò è determinato dal fatto che, essendo presente un trend crescente, la media dei dati relativi ai due anni precedenti fornisce una previsione sistematicamente inferiore a quanto osservato nel 2001. Come si vede dai valori di Tab. 2.5, questi indici possono presentare delle difficoltà interpretative innanzi tutto perché non abbiamo un valore di 16 Cap. 2 Metodi e strumenti di base riferimento per decidere se il metodo di previsione è soddisfacente o no. Non c’è dubbio qui che un MAPE pari a 25% è inaccettabile. Ma se otteniamo un MAPE uguale a 3%, come deve esesre valutato il metodo di previsione? Un procedimento molto semplice consiste nel confrontare i valori ottenuti col metodo M1 con quelli derivanti dall’impiego di un metodo cosidetto naive. Un metodo naive è, ad esempio, il seguente: prendere come previsione per il periodo t il dato del periodo t-1. La previsione per il mese di gennaio 2001 è uguale al valore della serie in corrispondenza di dicembre 2000, e così via. I risultati di questo metodo naive sono riportati nella Tab. 2.6. Tab. 2.6 – Previsioni per il 2001 col metodo naive (dati di Tab. 2.4) Mese yt Ft ft 1 298 371 -73 2 378 298 80 3 373 378 -5 4 443 373 70 ME=5,8 5 374 443 -69 MSE=53668,8 6 660 374 286 MAE=188,2 7 1004 660 344 MAPE=27,6% 8 1153 1004 149 9 1388 1153 235 10 904 1388 -484 11 715 904 -189 12 441 715 -274 Vediamo che, a parte ME che risente del fenomeno di compensazioni degli errori, tutti gli altri indici presentano valori più elevati. Pertanto il metodo M1 (seppure anch’esso piuttosto naive) è leggermente migliore. Un altro problema interpretativo concerne il fatto che questi indici esprimono funzioni di distanza, fra valori osservati e previsti, che sono molto diverse fra loro e che possono essere anche discordanti (nell’esempio sopra riportato abbiamo visto un ME più basso per il metodo naive rispetto a M1, e valori più elevati per gli altri indici). Occorre quindi decidere in via preliminare l’indice da usare per misurare l’accuratezza della previsione. Al fine di valutare le prestazioni del metodo di previsione, è buona regola condurre anche analisi grafiche degli errori, per esaminare il loro andamento rispetto al tempo. Su questo punto torneremo nei prossimi paragrafi. 17 Cap 2 Metodi e strumenti di base 2.5 Trasformazioni e aggiustamenti Talvolta l’aggiustamento o la trasformazione dei valori della serie originale produce dati più facilmente interpretabili. In questo paragrafo consideriamo tre tipi di aggiustamenti: (i) trasformazioni matematiche; (ii) aggiustamenti per rimuovere le oscillazioni dovute a effetti di calendario; (iii) aggiustamenti per rimuovere oscillazioni dovute a mutamenti nella popolazione oppure nei prezzi. Trasformazioni matematiche. Tenuto conto che le serie storiche di natura economica presentano valori positivi, le trasformazioni più frequentemente usate sono: la radice quadrata e la funzione logaritmica. Vediamo un esempio di trasformazioni logaritmica. La serie rappresentata in Fig. 2.5 evidenzia un’oscillazione stagionale che aumenta con l’aumentare del livello della serie. Nel primo anno della serie il range dei valori mensili è uguale a 726 (nr. di bottiglie) mentre, nell’ultimo, sale a 1090. Il metodo di previsione deve tenere conto: del trend crescente e della marcata oscillazione stagionale che aumenta col livello della serie. In questo caso può essere utile procedere ad una trasformazione logaritmica. Vediamo dall Fig. 2.7, come questa trasformazione renda l’oscillazione stagionale dello stesso ordine di grandezza per i tre anni, evidenziando meglio anche la presenza di un leggero trend crescente. Fig. 2.7 – Dati trasformati (logaritmi naturali) di Tab. 2.3 7,5 7 ln (Nr. bottiglie) 6,5 6 5,5 5 4,5 34 31 28 25 22 19 16 13 10 7 4 1 4 t Se operiamo la trasformazione dei dati, il metodo di previsione lavorerà sui valori trasformati. Ciò significa che, nel caso esemplificato, il metodo farà la previsione Ft=ln(yt) anziché di yt. Sarà pertanto necessario operare la trasformazione inversa che è exp(Ft) per riportarci alla scala originale. 18 Cap. 2 Metodi e strumenti di base Anche per la valutazione dell’accuratezza previsiva occorre lavorare con la scala originale della serie. Rimozione degli effetti di calendario. Alcune oscillazioni della serie sono determinate dalla variabilità dei giorni mensili (nr. totale di giorni, nr. giorni lavorativi, ecc.). Il numero mensile di giorni è molto variabile (da 31 a 29 negli anni bisestili; da 31 a 28 negli anni non bisestili); se questa variabilità non è rimossa, c’è il rischio che la serie esibisca oscillazioni difficili da interpretare. Il dato yt, relativo al mese t, viene quindi aggiustato moltiplicandolo per un peso wt. ottenendo così il dato aggiustato yt,agg, dove: y t ,agg = y t wt wt = nr . medio di giorni mensili nr . di giorni del mese t dove nr. medio di giorni mensili è pari a 365/12=30,4167 negli anni non bisestili; a 366/12=30,5 negli anni bisestili. Un aggiustamento simile avviene su dati riferiti, ad esempio, alla produzione mensile, allo scopo di tenere conto dei giorni effettivamente lavorati. In tale caso wt sarà: wt = nr . medio di giorni lavorativi mensili nr . di giorni lavorativi nel mese t Nelle serie storiche economiche espresse in valori monetari, un’evidente fonte di variabilità è costituita dalla variazione dei prezzi. In tali circostanze è necessario riportarci a valori costanti mediante l’operazione di deflazionamento. I dati della serie vengono così resi comparabili. Aggiustamenti della serie per tenere conto di variazioni nella popolazione di riferimento sono simili a quello appena illustrato. Ad esempio, nel valutare la situazione economica di una nazione sarebbe più corretto esaminare la serie del PIL procapite anziché quella del PIL totale aggregato. Ci sono studi demografici che forniscono previsioni della popolazione (v. il sito www.istat.it) che possono essere utili, appunto, in fase previsiva per riportarci al dato originale. 2.6 Aggiustamenti della serie per tener conto delle variazioni dei prezzi Le serie di tipo economico sono costituite spesso da grandezze aggregate espresse in valore monetario. E’ il caso, ad esempio, del fatturato totale risultante dalla vendita di prodotti diversi, che hanno prezzi unitari diversi. Indicando con qht e pht , rispettivamente, la quantità e il prezzo unitario del prodotto h-esimo al tempo t, il valore dell’aggregato al tempo t è: 19 Cap 2 Metodi e strumenti di base H (2.1) y t = ∑ p ht q ht h =1 dove H indica il numero di prodotti (merci, elementi) coinvolti. Le serie a prezzi correnti sono espresse ai prezzi del periodo t e quindi l’evoluzione temporale del dato yt è influenzata anche dalla variazione dei prezzi che può verificarsi nel tempo. Quando abbiamo a che fare con una serie espressa in termini monetari a prezzi correnti, è opportuno trasformare tali dati in valori ‘virtuali’ a prezzi costanti, capaci cioè di esprimere la misura del volume fisico (quantità) del fenomeno. Supponendo di volere esprime l’aggregato yt ai prezzi dell periodo 0, scelto come base, sono disponibili tre metodi: 1. il metodo diretto; 2. il deflazionamento di yt con un indice dei prezzi che misura la variazione dei prezzi dell’aggregato fra tempo 0 (tempo base) e il tempo t; 3. la proiezione di y0 nel futuro, mediante un indice delle quantità che misura la variazione delle quantità dell’aggregato fra il tempo 0 (tempo base) e il tempo t. Il metodo diretto. Il metodo diretto può essere applicato quando si dispone di dati relativi alle singole quantità e ai singoli prezzi per ogni periodo t e per tutti gli H elementi dell’aggregato. Scelto t=0 come anno base, si costruiscono i valori a prezzi costanti impiegando i prezzi dell’anno base. La serie a prezzi costanti 0yt viene quindi calcolata come: H (2.2) 0 y t = ∑ p h 0 q ht h =1 I dati interni all’azienda che sono del tipo prezzixquantità (es. costi totali, fatturato), possono essere espressi a prezzi costanti utilizzando il metodo diretto. Per problemi di risorse, spesso non conviene impiegare il metodo diretto perché esso richiede informazioni relative ai prezzi (dell’anno baso) di tutti gli H elementi dell’aggregato. Inoltre, il metodo diretto non può essere applicato quando l’aggregato è una grandezza puramente monetaria (come ad esempio l’ammontare di un debito o di un credito finanziario) che non può essere espressa come prodotto di prezzoxquantità. In tali casi si ricorre all’operazione di deflazionamento per la quale è necessario dispone di un adeguato indice dei prezzi. Esso deve essere rappresentativo delle variazione dei prezzi degli elementi che costituiscono l'aggregato da deflazionare. In generale, un indice dei prezzi costruito per deflazionare un aggregato coinvolge solo una parte degli H elementi (prodotti, beni, merci, 20 Cap. 2 Metodi e strumenti di base ecc.) che compongono l’aggregato stesso. Indicando con 0Ip,t il valore dell’indice dei prezzi al tempo t con anno base 0, l’operazione di deflazionamento è: yt (2.3) 0 yt = 0 I p ,t dove 0Ip,t misura la variazione dei prezzi dell’aggregato dal tempo 0 al tempo t. Impiego dell’indice di quantità. Se l’aggregato è del tipo prezzixquantità come in (2.1), e si dispone di un indice delle quantità degli elementi dell'aggregato, si può ottenere il valore a prezzi costanti moltiplicando il dato y0 (dato dell'anno base a prezzi correnti dell’anno base) per l'indice in questione e cioè: (2.4) 0 yt = y 0 0 I q ,t dove 0Iq,t misura la variazione delle quantità dell’aggregato fra il tempo 0 e il tempo t. Anche per l’indice di quantità vale quanto affermato per l’indice dei prezzi: nel suo calcolo è coinvolta una parte degli H elementi componenti l’aggregato. Come si può vedere, nelle tre formule (2.2)-(2.4) abbiamo usato lo stesso simbolo 0yt per indicare il dato espresso ai prezzi dell’anno base. Ciò non deve far credere che i tre approcci producano la stessa serie e cioè gli stessi valori a prezzi costanti. Il risultato del metodo diretto sarà in generale diverso da quello del deflazionamento, ecc. Nel seguito di queste note illustreremo meglio il metodo del deflazionamento, approfondendo il concetto di indice o numero indice. 2.6.1 I numeri indici elementari I numeri indice consentono lo studio della dinamica temporale di un fenomeno quantitativo in quanto misurano le variaizoni relative intercorse fra due punti nel tempo. Il vantaggio di usare la variazione relativa anziché quella assoluta risiede nel fatto che quest’ultima risente dell’unità di misura in cui il fenomeno è espresso. Con riferimento ai prezzi, siano pt e p0 i prezzi di un bene al tempo t e al tempo 0. La variazione assoluta, la variazione relativa e l’indice elementare con anno base t=0, sono rispettivamente: variazione assoluta variazione relativa numero indice elementare (pt–p0) (pt–p0)/p0 0ip,t=pt/p0. Come si può facilmente verificare, il numero indice misura la variazione relativa in quanto quest’ultima equivale a 0ip,t–1. La grandezza 0it 21 Cap 2 Metodi e strumenti di base rappresenta un numero indice elementare poiché H=1; quando si ha a che fare con un aggregato con H elementi e quindi con H prezzi, si usa un indice sintetico o composto. Il numero indice elementare qui introdotto è detto a base fissa in cui il tempo 0 (che non corrisponde necessariamento al periodo iniziale della serie) è il periodo cosiddetto base. L’indice elementare a base mobile è definito come: t-1ip,t=pt/pt-1 . Esso misura la variazione relativa fra il tempo t e il periodo immediatamente precedente t-1. Gli indici elementari hanno alcune proprietà interessanti che sono riportate nel quadro seguente qui sotto, che contiene anche indicazioni sulla simbologia usata in questo paragrafo. Simbologia usata e proprietà dei numeri indici elementari Simbologia Serie dei prezzi: p1, p2, …, pt, …, pn, t=1,…,n Serie delle quantità: q1, q2, …, qt, …, qn, Serie dei valori: v1, v2, …, vt, …, vn, t=1,…,n t=1,…,n Valore vt=pt qt Generico indice elementare in base b: bit Indice dei prezzi in base b: bip,t Indice delle quantità in base b: biq,t Indice dei valori in base b: biv,t t=1,2,…,n Proprietà 1. Identità. tit=1, 2. Reversibilità delle basi. 3. Transitività (circolarità). t=1,…,n bit =1/ tib bia ait= bit 4. Scomposizione delle cause. biv,t= bip,t biq,t E’ di particolare interesse la proprietà di transitività poiché permette di trasformare una serie espressa a prezzi costanti dell’anno base a in una serie a prezzi costanti dell’anno base b. Un’altra proprietà di rilievo è quella della scomponibilità delle cause (detta anche di reversibilità dei fattori) che scompone la variazione di una grandezza in valore nel prodotto fra la variazione di prezzo e la variazione di quantità. 22 Cap. 2 Metodi e strumenti di base 2.6.2 I numeri indici sintetici Dovendo esprimere a prezzi costanti un aggregato economico e non potendo applicare il metodo diretto, una possibile soluzione è, come abbiamo detto, quella del deflazionamento mediante un adeguato indice sintetico dei prezzi. E’ sintetico nel senso che sintetizza le variazioni dei prezzi degli H elementi dell’aggregato. I principali problemi connessi alla costruzione di un indice sintetico dei prezzi sono i seguenti. 1. Scelta del paniere di elementi/beni. Accade che non tutti gli elementi coinvolti nell’aggregato sono utilizzati per la costruzione dell’indice sintetico. Il suo calcolo è basato su un numero limitato di prodotti: quelli ritenuti più rappresentativi della variazione dei prezzi. Si procede, infatti, ad un campione ragionato degli elementi da includere: un’attenta scelta degli elementi è infatti più importante del numero degli stessi. 2. Scelta del periodo base. Di norma si sceglie un periodo normale, in cui, cioè, non si sono verificati eventi che abbiano determinato andamenti eccezionali per la grandezza da deflazionare. 3. Scelta del metodo di aggregazione degli indici elementari. Per i prezzi viene norma usata una media ponderata degli indici dei prezzi elementari, scegliendo come pesi i valori riferiti ad un prefissato tempo. I principali indici sintetici dei prezzi sono i seguenti. K p K K jt p q i p q p jt q j 0 ∑ j j 0 0 ∑ ∑ j0 j0 0 j , p ,t j =1 p j 0 j =1 j =1 L = K = K 0 I p ,t = K ∑ p j0 q j0 ∑ p j0 q j0 ∑ p j0 q j0 j =1 j =1 0 I pP,t = ∑ 0 i j , p ,t p j 0 q jt j =1 K ∑ j =1 p j 0 q jt p jt K K = j =1 ∑p j =1 K p j 0 q jt j0 K ∑ j =1 p j 0 q jt = ∑p j =1 jt q jt K ∑ j =1 p j 0 q jt dove 0 I pL,t è l’indice di Laspeyres e 0 I pP,t è l’indice di Paasche. Si noti che: i) nelle formule, la sommatoria è estesa fino a K<H per indicare che non tutte le merci dell’aggregato da deflazionare vengono coinvolte nella costruzione dell’indice dei prezzi; ii) l’indice di Laspeyres impiega, come pesi, dei valori reali ovvero i valori al tempo 0; l’indice di Paasche impiega dei valori fittizi: le quantità al tempo t valutate ai prezzi dell’anno 0. 23 Cap 2 Metodi e strumenti di base Vale la pena osservare che, in modo analogo, sono definiti gli indici di Laspeyres e di Paasche delle quantità: 0 I = L q ,t ∑ 0 i j ,q ,t p j 0 q j 0 j =1 K ∑ j =1 = p j0q j0 0 I P q ,t = j =1 0 j =1 i 0 j ,q ,t p jt q j 0 = K ∑ p jt q j 0 K p j0 q j0 = j0 K ∑ p j0 q j0 q jt K j =1 dove ∑q j =1 K ∑ q jt K K ∑q j =1 j =1 I qL,t è l’indice di Laspeyres e 0 j =1 j0 q jt j0 q j0 K ∑p j =1 K p jt q j 0 j0 K ∑ ∑p = p jt q j 0 ∑p j =1 jt q jt jt q j0 K ∑p j =1 I qP,t è l’indice di Paasche delle quantità. Esiste anche l’indice sintetico di valore che è: K (2.5) 0 I v ,t = ∑p h =1 K ∑p h =1 ht q ht h0 qh0 = 0 I pL,t 0 I qP,t = 0 I qL,t 0 I pP,t Dall’espressione (2.5), si può facilmente verificare come gli indici di Laspeyres e di Paasche, dei prezzi e della quantità vadano a comporre l’indice di valore. Le proprietà auspicabili per un indice sintetico generico (dei prezzi o delle quantità), che indichiamo con 0It , sono elencate nel quadro di seguito riportato. Proprietà desiderate per i numeri indici sintetici 1. Identità. tIt=1, 2. Reversibilità delle basi. t=1,…,n bIt =1/ tIb 3. Commensurabilità. L’indice non varia al variare dell’unità di misura fisica usata per le quantità. 4. Determinatezza. L'indice non deve annullarsi né tendere all'infinito se uno dei termini elementari della formula si annulla o tende all'infinito. 5. Proporzionalità. Se dal tempo 0 al tempo t tutti i prezzi variano della stessa proporzione, anche l'indice deve variare secondo lo stesso coefficiente di proporzionalità. 6. Transitività (circolarità). bIa aIt= bIt 7. Scomposizione delle cause. bIv,t= bIp,t bIq,t 24 Cap. 2 Metodi e strumenti di base E’ stato dimostrato che le proprietà non possono essere tutte soddisfatte tutte; ad esempio, se per un indice valgono le proprietà 3, 4 e 5, non può valere la proprietà 6. Di norma, la scelta dell'indice sintetico avviene combinando criteri formali e considerazioni pratiche. Gli indici di Laspeyres e di Paasche non soddisfano le proprietà di: reversibilità delle basi, transitività, scomposizione delle cause. Quest’ultima è verificata in senso debole come mostrato nella espressione (2.5). Una variazione di valore (indice di valore) viene scomposta nel prodotto di un indice di prezzi tipo Laspeyres (Paasche) e di un indice di quantità di tipo Paasche (Laspeyres) Nella ricerca di un indice che soddisfi le proprietà sotto indicate, è stato proposto l’indice di Fisher che è definito come media geometrica dei corrispondenti indici di Paasche e di Laspeyres. Gli indici di Fisher dei prezzi e delle quantità sono: 0 I pF,t = 0 I pL,t 0 I pP,t 0 I qF,t = 0 I qL,t 0 I qP,t L’indice di Fisher verifica tutte le proprietà tranne quella di transitività. Tuttavia, esso viene raramente usato perché richiede informazioni sia sui prezzi sia sulle quantità al tempo base e al tempo t (per i pesi usati dagli indici di Laspeyres e Paasche). Al contrario l’indice di Laspeyres è il più parsimonioso in termini di informazione necessaria in quanto i pesi impiegati sono costituiti da quantità e prezzi dell’anno base. L’indice di Laspeyres è di fatto quello più usato anche se deve sottostare ad un continuo aggiornamento della base perché è sottoposta ad un rapido invecchiamento. 2.6.3 I principali numeri indici costruiti in Italia Fra i principali numeri indice costruiti dall’Istat ricordiamo, per i prezzi: quello dei prezzi (alla produzione) dei prodotti industriali, dei prezzi al consumo per l’intera collettività nazionale (IPC), dei prezzi al consumo per le famiglie di operai e impiegati (FOI). Fra i numeri indici delle quantità citiamo: quello della della produzione industriale, del fatturato e degli ordinativi dell’industria, i numeri indici riguardanti il commercio estero, quelli riguardanti il commercio al minuto. Nella pratica delle indagini statistiche condotte dall’Istat, esistono anche i cosiddetti numeri indici impliciti dei prezzi. Essi sono ricavati direttamente mediante il rapporto fra aggregato a prezzi correnti e aggregato a prezzi costanti. Ciò accade per quelle variabili economiche per le quali si ha a disposizione anche il dato a prezzi costanti. E’ questo il caso del PIL. Il PIL a prezzi costanti viene calcolato come differenza fra produzione totale a prezzi costanti e consumi intermedi a prezzi costanti, elementi che sono deflazionati separatamente. Cap 2 Metodi e strumenti di base 25 Diamo ora uno sguardo agli indici dei prezzi al consumo calcolati dall’Istat. Gli indici dei prezzi al consumo misurano le variazioni nel tempo, rispetto al periodo scelto come base, dei prezzi di beni e servizi (paniere), acquistabili sul mercato e destinati al consumo finale delle famiglie presenti sul territorio del paese. Il sistema degli indici dei prezzi è costituito da: indice nazionale dei prezzi al consumo per l’intera collettività (NIC); indice armonizzato dei prezzi al consumo per i paesi dell’Unione europea (IPCA); indice nazionale dei prezzi al consumo per le famiglie di operai ed impiegati (FOI). Gli indici nazionali NIC e FOI sono prodotti anche nella versione che esclude dal calcolo i tabacchi, ai sensi della legge n.81 del 1992. Tale versione è utilizzata, ad esempio, per l’aggiornamento annuale dei canoni di locazione delle abitazioni. I tre indici sono basati su un’unica raccolta di dati. Essa viene svolta in tutte le città capoluogo di provincia dagli Uffici comunali di statistica presso diverse unità di vendita. In complesso gli indici vengono calcolati su oltre 300.000 quotazioni di prezzo ogni mese, rilevate in 25.000 unità di vendita e 12.000 abitazioni. Le quotazioni di prezzo si riferiscono ad un paniere comune costituito da circa 930 prodotti, raggruppati in 568 posizioni rappresentative, 209 voci di prodotto, 107 categorie, 38 gruppi e 12 capitoli di spesa. Il calcolo degli indici sintetici (per ogni livello di aggregazione dei prodotti) avviene mediante la formula di Laspeyres. I tre indici differiscono per alcuni aspetti. 1. Il concetto di prezzo considerato. Nel caso in cui il prezzo di vendita di alcuni beni e servizi sia diverso da quello effettivamente pagato dal consumatore (è il caso, ad esempio, di quei medicinali per i quali una parte del prezzo è a carico del Sistema sanitario nazionale), gli indici NIC e FOI considerano nel calcolo il prezzo pieno di vendita, mentre l’indice IPCA considera come prezzo quanto effettivamente pagato dal consumatore (compresi eventuali tickets o contributi determinati in misura fissa). 2. La popolazione di riferimento. Mentre gli indici NIC e IPCA si riferiscono ai consumi interni dell’intera popolazione presente in Italia, l’indice FOI si riferisce ai consumi interni delle sole famiglie residenti in Italia facenti capo ad un lavoratore dipendente extra-agricolo. 3. I sistemi di ponderazione(pesi) utilizzati. i tre indici sono calcolati secondo strutture di ponderazione diverse, proporzionali ai consumi delle rispettive popolazioni di riferimento. 26 Cap. 2 Metodi e strumenti di base Ulteriori informazioni sui metodi di calcolo degli indici sono rintracciabili nei seguenti documenti Istat: Nota Rapida, a. 4, n.2, del 15 marzo 1999 e nelle Statistiche in breve del 26 gennaio 2000 e del 25 gennaio 2001. Vediamo, a questo punto, la principale utilizzazione dei numeri indice dei prezzi al consumo. Si tratta della misura, su base annua, dell’inflazione che viene definita come ‘processo generalizzato di aumento dei prezzi’. Il fenomeno inflazionistico viene attualmente misurato mediante l’indice NIC. Indicando con 0Im,t il numero indice dei prezzi riferito al mese m dell’anno t, e con 0Im,t-1 il numero indice dei prezzi riferito al mese m dell’anno t-1, con base t=0, si ha: I tasso tendenziale di inflazione 0 m ,t − 1 0 I m ,t −1 tasso di inflazione media annua 1 12 ∑ 0 I m ,t Mt 12 m =1 −1 = −1 12 1 M t −1 ∑ 0 I m ,t −1 12 m =1 Una interessante espressione per misurare l’inflazione media annua è la seguente: ⎛ M t ⎞ ⎛ 0 I 12 ,t −1 ⎞ Mt ⎟⎜ ⎟ = ⎜⎜ (2.6) M t −1 ⎝ 0 I 12 ,t −1 ⎟⎠ ⎜⎝ M t −1 ⎟⎠ dove: ⎛ Mt ⎞ ⎜ ⎟ ⎜ I ⎟ ⎝ 0 12 ,t −1 ⎠ è detta inflazione propria dell’anno t, mentre ⎛ 0 I 12 ,t −1 ⎞ ⎜⎜ ⎟⎟ ⎝ M t −1 ⎠ è detta inflazione ereditata nell’anno t (o importata dall’anno t). L'inflazione media offre una visione retrospettiva del fenomeno; infatti secondo la (2.6): Coeff. inflaz. media = coeff. inflaz. propria x coeff. inflaz. ereditata La misura di inflazione tendenziale relativa al mese m=12 (dicembre) può essere riscritta in modo analogo: ⎛ I ⎞⎛ Mt ⎞ 0 I 12 ,t ⎟ (2.7) = ⎜⎜ 0 12 ,t ⎟⎟ ⎜⎜ ⎟ I M I 0 12 ,t −1 t ⎠ ⎝ 0 12 ,t −1 ⎠ ⎝ dove: 27 Cap 2 Metodi e strumenti di base ⎛ 0 I 12 ,t ⎜⎜ ⎝ Mt ⎞ ⎟⎟ ⎠ è l’inflazione trasmessa (ovvero lasciata in eredità) all’anno t+1, mentre ⎛ Mt ⎞ ⎜ ⎟ ⎜ I ⎟ ⎝ 0 12 ,t −1 ⎠ è l’inflazione propria dell’anno t. L'inflazione tendenziale offre pertanto una visione prospettica del fenomeno, secondo la quale si ha: coeff. inflaz. tendenziale = coeff. inflaz. trasmessa x coeff. inflaz. propria Il confronto fra inflazione media e inflazione tendenziale può dare indicazione sull’evoluzione del livello generale dei prezzi. In particolare: - se l’inflazione tendenziale è maggiore di quella media, l’inflazione è in fase crescente; - se l’inflazione tendenziale è minore di quella media, l’inflazione è in fase decrescente. Il grafico seguente mostra l’andamento del tasso tendenziale di inflazione (in %) dal gennaio 1980 al dicembre 2001. Fig. 2.8 – Andamento tasso di inflazione tendenziale in Italia (1980-2001) Inf.tend.% 20 10 0 1980 2001 2.6.4 Esempi di aggiustamento di una serie storica Nei paragrafi precedenti abbiamo introdotto le formule dei principali numeri indici e abbiamo accennato al procedimento di deflazionamento mediante 28 Cap. 2 Metodi e strumenti di base un indice dei prezzi. In questo paragrafo vediamo l’applicazione di questo procedimento. Prima di procedere con i dati numerici, è importante distinguere il tipo di grandezza che deve essere deflazionata: 1. aggregato di beni: l’espressione monetaria è la risultante di un prodotto di somme per quantità (es. grandezze economiche: fatturato, costi, ecc.) 2. grandezze puramente monetarie composte da elementi ai quali non corrispondono transazioni di beni (es. grandezze finanziarie). Se un aggregato non ha a disposizione il suo indice dei prezzi, si dovrà usarne un altro che misura un fenomeno logicamente connesso al primo aggregato. Questa strada è l’unica possibile per le grandezze puramente finanziarie (punto 2). Vediamo un esempio di aggiustamento di una serie, utilizzando i dati sui consumi nazionali dal 1979 al 2000 (Tab. 2.7) rappresentati nelle Figg. 2.9 e 2.10. Si può notare come l’andamento della serie dipenda dalla variazione dell’indice dei prezzi (il deflatore), mentre risente meno dell’aumento della popolazione residente (i dati relativi alla popolazione residente sono quelli di Tab. 2.1). 2.000.000 1.800.000 1.600.000 1.400.000 1.200.000 1.000.000 800.000 600.000 400.000 200.000 0 Prezzi correnti Prezzi costanti 1995 19 79 19 81 19 83 19 85 19 87 19 89 19 91 19 93 19 95 19 97 19 99 Consumi nazionali Fig. 2.9 – Consumi nazionali anni 1979-2000 (miliardi L.) Anni 29 Cap 2 Metodi e strumenti di base Fig. 2.10 – Consumi nazionali procapite anni 1979-2000 (miliardi L.) 35 Procapite prezzi 1995 Procapite prezzi correnti Consumi nazionali 30 25 20 15 10 5 99 19 97 19 95 19 93 19 91 19 89 19 87 19 85 19 83 19 81 19 19 79 0 Anni Tab. 2.7 – Consumi nazionali a prezzi correnti e a prezzi anno 1995 Consumi a prezzi correnti Anno (miliardi L.) 225.598 1979 288.755 1980 353.134 1981 417.891 1982 485.198 1983 555.901 1984 626.140 1985 690.420 1986 761.756 1987 845.599 1988 930.973 1989 1.026.769 1990 1.128.607 1991 1.203.544 1992 1.225.462 1993 1.290.037 1994 1.368.863 1995 1.453.191 1996 1.531.885 1997 1.605.675 1998 1.676.760 1999 1.769.990 2000 Fonte: Istat Deflatore prezzi base anno 1995 0,2346 0,2849 0,3408 0,3970 0,4560 0,5085 0,5559 0,5912 0,6270 0,6690 0,7161 0,7727 0,8278 0,8689 0,9106 0,9495 1,0000 1,0491 1,0786 1,1033 1,1280 1,1605 Consumi procapite a Consumi a prezzi 1995 prezzi correnti (milioni L.) (miliardi L.) 4,006 961.502 5,117 1.013.530 6,249 1.036.342 7,391 1.052.620 8,578 1.064.114 9,826 1.093.119 11,064 1.126.426 12,199 1.167.840 13,458 1.214.986 14,932 1.263.929 16,427 1.300.090 18,103 1.328.757 19,887 1.363.379 21,167 1.385.131 21,481 1.345.715 22,552 1.358.588 23,889 1.368.863 25,318 1.385.142 26,636 1.420.277 27,882 1.455.317 29,087 1.486.466 30,661 1.525.192 Consumi procapite a prezzi 1995 (milioni di L.) 17,073 17,960 18,339 18,616 18,813 19,321 19,904 20,635 21,465 22,319 22,941 23,427 24,024 24,361 23,589 23,750 23,889 24,133 24,695 25,271 25,786 26,420 30 Cap. 2 Metodi e strumenti di base La rappresentazione di grandezze a prezzi costanti è utile pure per confrontare nel tempo dati di bilanci aziendali. Il problema di confrontabilità temporale si pone anche per i ratio di bilancio se il numeratore e il denominatore del ratio risentono in modo diverso dell’evoluzione dei prezzi. Infatti, poiché un ratio di bilancio è costruito su grandezze espresse in valore monetarie, il suo valore Vt al tempo t si può rappresentare in modo estremamente semplificato come: Vt = Qt Pt qt pt dove col carattere maiuscolo abbiamo indicato la quantità e prezzo del termine posto al denominatore. Le variazioni che il ratio sperimenta nel tempo possono essere determinate sia dalle variazioni delle quantità Qt, qt, sia dalle variazioni dei prezzi Pt, pt. Si veda, a titolo di esempio, un ratio costruito sui dati di contabilità nazionale: il rapporto fra consumi nazionali (visti prima) e PIL, valutati sia a prezzi correnti sia a prezzi costanti. Negli anni di forte calo dell’inflazione (v. anche Fig. 2.8) è maggiore la discrepanza fra i due time plot. Fig. 2.11 – Andamento del rapporto consumi naz./PIL 0,82 0,81 0,80 Prezzi correnti Prezzi 1995 0,78 0,77 0,76 0,75 0,74 0,73 Anni 19 99 19 97 19 95 19 93 19 91 19 89 19 87 19 85 19 83 19 81 0,72 19 79 Consumi/PIL 0,79 31 Cap 3 Metodi di scomposizione 3. Metodi di scomposizione 3.1 Introduzione Molti metodi di previsione si basano sul fatto che, se esiste un pattern sistematico, questo possa essere individuato e separato da eventuali oscillazioni accidentali, mediante metodi di perequazione o smussamento (lisciamento, smoothing) dei dati della serie storica. L’effetto dello smussamento è quello di eliminare disturbi casuali cosicché, una volta individuato il pattern, questo possa essere proiettato nel futuro per produrre la previsione. I metodi di scomposizione tendono, di norma, a individuare due pattern: il trend-ciclo e la stagionalità. Il trend-ciclo può essere scomposto, a sua volta, in componente di fondo (trend) e oscillazioni congiunturali (ciclo)(*). In questo capitolo sarà illustrato il metodo classico di scomposizione. Come si vedrà, tale procedimento è più che altro uno strumento di analisi della serie storica, e necessita pertanto di alcuni perfezionamenti per poter produrre la previsione. I metodi di scomposizione hanno costituito il primo approccio di analisi delle serie storiche. Il metodo classico risale agli anni 20 e costituisce ancora oggi la base per i metodi più frequentemente usati. Attualmente il metodo di scomposizione più diffuso è quello denominato Census II che viene usato per numerose serie economiche sia in ambito privato sia in ambito pubblico (Makridakis, Wheelwright, Hyndman, 19XX). E’ importante precisare che, nel seguito, se non viene specificato diversamente, useremo il simbolo yt, t=1,…,n per indicare la serie storica, eventualmente aggiustata per le variazioni dei prezzi, per le oscillazioni di calendario, ecc.. (*) In queste note non affronteremo il problema della stima del ciclo. 32 Cap. 3 Metodi di scomposizione 3.2 Il modello di scomposizione Il modello matematico ipotizzato nel metodo classico di scomposizione è: (3.1) yt=f(St, Tt, Et) dove yt è il dato riferito al periodo t St è la componente stagionale al periodo t Tt e la componente trend-ciclo al periodo t Et è la componente irregolare al tempo t. La forma di f() dipende dall’approccio seguito. Una forma molto comune è la seguente: (3.2) yt=St+Tt+Et che viene definita modello additivo. Un’altra forma altrettanto frequente è il modello moltiplicativo: (3.3) yt=St x Tt x Et Un modello additivo è appropriato quando l’ampiezza dell’oscillazione stagionale non varia col livello della serie. Se invece la fluttuazione stagionale aumenta (o diminuisce) proporzionalmente con l’aumento (diminuzione) del livello della serie, allora è più adeguato un modello moltiplicativo. Molte serie economiche esibiscono fluttuazioni stagionali che crescono all’aumentare del livello della serie; per tale motivo, in ambito economico, il modello moltiplicativo trova più larga applicazione. Nel modello additivo, le componenti St,Tt, Et sono espresse nella stessa unità di misura di yt; nel modello moltiplicativo, solo Tt (per convenzione) viene espresso nell’unità di misura di yt; Et e St sono numeri puri. Nel modello additivo l’errore può assumere valori positivi o negativi; 0 è il valore neutrale, nel senso che non influenza la serie. Nel modello moltiplicativo l’errore può assumere solo valori non negativi e ha 1 come valore neutrale. Si noti che, col modello moltiplicativo, potrebbe essere utile ricorrere alla trasformazione della serie. Poiché la funzione logaritmica trasforma una espressione moltiplicativa in una additiva si ha: (3.4) ln yt=ln(St x Tt x Et) ÅÆ ln yt=lnSt + lnTt + lnEt Quindi, invece del modello moltiplicativo sui dati originari della serie, si potrebbe applicare il modello additivo sulle trasformate logaritmiche. Cap 3 Metodi di scomposizione 33 3.3 Rappresentazioni grafiche negli approcci di scomposizione La Fig. 3.1 mostra i principali grafici derivanti da una analisi di scomposizione mediante un modello additivo. I risultati fanno riferimento ai dati di Tab. 2.4 (vendite di bottiglie della bibita QQQ). Richiamiamo l’attenzione soprattutto sui seguenti grafici: (i) il time plot della serie destagionalizzata ovvero depurata dalla stagionalità (seasonally adjusted data), riportato in Fig, 3.1; (ii) il time plot della componente stagionale (Fig. 3.2); (iii) la serie storica dei residui (Fig. 3.3); (iv) il time plot della serie originale e della serie stimata (Fig. 3.5). L’andamento dei dati destagionalizzati dovrebbe mostrare una linea abbastanza liscia, priva di quelle oscillazioni regolari e marcate tipiche della stagionalità della serie. La Fig. 3.1 mostra che la destagionalizzazione mediante il modello additivo non è soddisfacente: si tende a destagionalizzare ‘troppo’ nel primo anno (infatti, si può notare una inversione delle punte per il mese di giugno e di settembre); si destagionalizza ‘poco’ nell’ultimo anno (si nota, infatti, che rimane un picco molto elevato). Il motivo risiede nel fatto che il modello additivo assume implicitamente che il range di variazione delle oscillazioni stagionali all’interno dell’anno rimanga costante mentre, nel caso in esame, tende ad aumentare dal 1999 al 2001 (Fig. 2.5). Pertanto la stima della stagionalità, rappresentata nella Fig. 3.2, non è da ritenersi valida. Un’altra verifica sul modello di scomposizione adottato ci proviene dal grafico dei residui. Se la scomposizione è valida allora i residui devono presentare un andamento accidentale rispetto al tempo. Dalla Fig. 3.3 si nota invece la presenza di una certa ciclicità degli stessi: i residui sono più vicini a zero nella parte centrale della serie mentre sono maggiori (in valore assoluto) alle estremità. L’andamento dei residui può essere apprezzato anche dalla Fig. 3.4, in cui si riporta la serie osservata e quella stimata, nell’ipotesi di aver stimato il trend mediante una funzione lineare di t (su questo punto di vedrà più avanti il procedimento). Nel seguito, quando verrà illustrato in dettaglio il procedimento di scomposizione della serie, vedremo anche i risultati del modello moltiplicativo. 34 Cap. 3 Metodi di scomposizione Fig. 3.1 – Dati destagionalizzati con modello additivo (dati di Tab. 2.4) 900 Dati destagionalizzati 800 700 600 500 400 t 10 20 30 Fig. 3.2 – Stagionalità stimata con modello additivo (dati di Tab. 2.4) 600 500 Stagionalità 400 300 200 100 0 -100 -200 -300 t 10 20 30 35 Cap 3 Metodi di scomposizione Fig. 3.3 – Residui del modello additivo (dati di Tab. 2.4) Residui 100 0 -100 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930313233343536 t Fig. 3.4 – Dati stimati e osservati (serie di Tab. 2.4; modello additivo) Actual 1400 Predicted 1200 Actual Predicted 1000 Yt 800 600 400 200 0 0 10 t 20 30 40 36 Cap. 3 Metodi di scomposizione A conclusione di questo paragrafo, vogliamo puntualizzare il significato di serie destagionalizzata. Nel caso di un modello additivo, il dato destagionalizzato Dt è derivato come: (3.1) Dt=yt–St=yt+Et mentre nel modello additivo: (3.2) Dt=yt/St=yt x Et una volta che è stata stimata la componente stagionale St. 3.4 La media mobile La media mobile è un semplice metodo che smussa (liscia, perequa) la serie storica. Tale procedura è basilare nei metodi di scomposizione. Se la serie è composta solo da trend e dalla componente residua, la media mobile elimina gli effetti dei disturbi. Se nella serie originaria è presente anche il fenomeno stagionale di periodo p, allora una media mobile di ampiezza p è in grado di eliminare anche la stagionalità. Nei due casi, la media mobile si propone di isolare il trend-ciclo. Vediamo un esempio di serie che presenta trend e stagionalità (Tab. 3.1). Si tratta delle vendite mensili di shampoo (litri) venduti in tre anni. Il time plot della serie (Fig. 3.6) evidenzia la presenza di un marcato trend crescente e di disturbi di un certo rilievo; non si individuano ciclicità periodiche tipiche della stagionalità. La Fig. 3.6 riporta l’evoluzione delle medie mobili a 3 termini (MM3) e a 7 termini (MM7); come si vede, la media mobile elimina una certa quota di oscillazioni perturbatrici. La media mobile a tre termini ci dà una stima del trend T2 del mese di Febbraio 1999, mediante la media aritmetica dei dati di Gennaio, Febbraio, Marzo 1999: T2=(y1+y2+y3)/3 Generalizzando, la media mobile a tre termini centrata su t è: (3.3) Tt=(yt-1+yt+yt+1)/3, t=2,…,n-1 Si notino, nella Tab. 3.1, i valori della media mobile a tre termini: non c’è stima del trend per i tempi t=1 e t=n perché mancano le osservazioni al tempo 0 e al tempo n+1. Come si sarà capito, questa procedura è denominata media mobile perché ogni successiva media viene calcolata eliminando il valore ‘più vecchio’ e inserendone un nuovo. La media mobile è un metodo di adattamento locale in quanto crea una serie di valori smussati di lunghezza pari alla serie originaria, ognuno in corrispondenza del punto di osservazione t. 37 Cap 3 Metodi di scomposizione Tab. 3.1 – Esempio di serie con trend e disturbi casuali Mese yt MM3 MM5 1 266,0 2 145,9 198,3 3 183,1 149,4 178,9 4 119,3 160,9 159,4 5 180,3 156,0 176,6 6 168,5 193,5 184,9 7 231,8 208,3 199,6 8 224,5 216,4 188,1 9 192,8 180,1 221,7 10 122,9 217,4 212,5 11 336,5 215,1 206,5 12 185,9 238,9 197,8 1 194,3 176,6 215,3 2 149,5 184,6 202,6 3 210,1 211,0 203,7 4 273,3 224,9 222,3 5 191,4 250,6 237,6 6 287,0 234,8 256,3 7 226,0 272,2 259,6 8 303,6 273,2 305,6 9 289,9 338,4 301,1 10 421,6 325,3 324,4 11 264,5 342,8 331,6 12 342,3 315,5 361,7 1 339,7 374,1 340,6 2 440,4 365,3 375,5 3 315,9 398,5 387,3 4 439,3 385,5 406,9 5 401,3 426,0 433,9 6 437,4 471,4 452,2 7 575,5 473,5 500,8 8 407,6 555,0 515,6 9 682,0 521,6 544,3 10 475,3 579,5 558,6 11 581,3 567,8 12 646,9 Fonte: Makridakis, Wheelwright, Hyndman (19XX) MM7 185,0 179,1 185,8 177,2 208,2 209,0 212,7 200,9 198,9 210,4 220,1 213,1 218,8 234,4 254,5 284,7 283,4 305,0 312,5 343,1 344,9 366,2 363,3 388,0 421,4 431,1 465,6 488,3 508,6 543,7 38 Cap. 3 Metodi di scomposizione Il numero di termini coinvolti nella media mobile influenza il risultato della perequazione. All’aumentare dei termini, la spezzata che unisce i punti individuati dalle medie mobili si fa più smussata. Nella Fig. 3.6 compare l’andamento della media mobile a 7 termini, che è calcolata come: Tt=(yt-3+yt-2+ yt-1+yt+yt+1+yt+2+yt+3)/7, t=4,…,n-3 Fig. 3.5 – Valori osservati e medie mobili (MM) per i dati di Tab. 3.1 800,0 700,0 Osservati MM3 MM7 600,0 500,0 400,0 300,0 200,0 100,0 0,0 0 5 10 15 20 25 30 35 40 Come si può facilmente verificare, una media mobile a k termini, con k dispari, fa perdere (k–1)/2 termini all’inizio e altrettanti termini alla fine della serie (Tab. 3.1). La perdita dei primi termini ha poca importanza; al contrario la perdita degli termini più recenti ha conseguenze rilevanti ai fini della operazione di previsione. Una possibile soluzione consiste nell’effettuare, agli estremi, delle medie mobili con un numero inferiore di termini. Ad esempio, nel caso di media mobile a tre termini si può calcolare T1 come T1=(y1+y2)/2 e Tn come Tn=(yn-1+yn)/2. Le medie mobili fin qui introdotte hanno un numero dispari di termini e perciò risultano automaticamente centrate su un punto t di osservazione. Tali medie sono dette semplici poiché tutti i termini della media hanno associato lo stesso peso. Supponiamo che si voglia calcolare una media mobile con numero pari di termini. Ad esempio, posto k=4, sui dati di Tab. 3.1 si ha: T’ =(y1 +y2 +y3+y4)/4= (266,0+145,9+183,1+119,3)/4 T” = (y2 +y3 +y4+y5)/4= (145,9+183,1+119,3+180,3)/4 La prima media sarebbe centrata fra il secondo e il terzo termine; la seconda media centrata fra il terzo e il quarto. Per risolvere la questione della Cap 3 Metodi di scomposizione 39 centratura, si effettua una media mobile a 2 termini sulle due successive medie mobili a termini pari. Con questo procedimento la media aritmetica delle due medie mobili a 4 termini sopra calcolate, viene ad essere centrata nel punto t=3. Quindi: T3=(T’+T”)/2 Sostituendo a T’ e T” le espressioni precedenti, la formula di T3 diventa: (3.4) T3=(y1+2y2+2y3+2y4+y5)/8 che è una media ponderata: i termini centrali hanno peso 2, i termini estremi peso 1; il denominatore è, ovviamente, la somma dei pesi. Essa è detta media mobile centrata a k termini (k pari). Medie mobili con numero pari di termini sono usate per eliminare l’oscillazione stagionale. Su dati mensili si userà k=12; k=4 su dati trimestrali e k=2 su dati semestrali. Ovviamente, con k pari, si perdono k/2 termini all’inizio e alla fine della serie. 3.5 Scomposizione classica: il modello additivo Riferendoci ai dati mensili sulle vendite di bottiglie QQQ, supponiamo che il modello di scomposizione sia additivo: yt=St+Tt+Et La scomposizione classica viene condotta svolgendo le fasi seguenti. 1. Calcolo del trend-ciclo di prima approssimazione. Si tratta di una fase strumentale che non produce una stima definitiva della componente trendciclo. Il trend-ciclo di prima approssimazione viene calcolato con una media mobile centrata a 12 termini. Indichiamo con MMt il valore di detta media, dove t=7,…,n-6 a causa della perdita di dati all’inizio e al termine della serie. 2. Calcolo della componente (SE)t: serie della stagionalità mista e errore. Anche questa è una fase strumentale. La serie (SE)t è calcolata sottraendo dalla serie originale, la grandezza MMt: (SE)t=yt–MMt 3. Stima della componente stagionale. Dalla componente (SE)t si elimina il disturbo e si perviene alla stima di St. Nell’approccio classico si ipotizza che l’oscillazione stagionale sia costante da anno in anno, per cui, con dati 40 Cap. 3 Metodi di scomposizione mensili, St=St+12=St+24=…. Si parla di modello di stagionalità costante1. Il coefficiente di stagionalità Sm per il mese m (m=1,…,12) viene calcolato effettuando la media aritmetica dei termini (SE)t dove t=m, m+12, m+24,…. In altre parole la stima della stagionalità per gennaio è data dalla media aritmetica dei valori (SE) riferiti a gennaio. Il risultato di questa operazione produce 12 coefficienti di stagionalità Ŝ m , m=1,..,12 (dove m indica il mese), che si ripetono per ogni anno. I valori Ŝ m devono verificare la seguente proprietà: 12 ∑ m =1 Ŝ m = 0 Infatti, per definizione di stagionalità nel modello additivo, le oscillazioni stagionali esauriscono il loro effetto all’interno dell’anno. 4. Derivazione della serie destagionalizzata Dt. Il dato destagionalizzato Dt è calcolato nel modello additivo come: Dt = y t − Ŝ t e Ŝ t = Ŝ m se t si riferisce al mese m. La serie Dt contiene dunque il pattern del ciclo-trend e l’effetto del disturbo. Essa è pertanto utile per lo studio del ciclo-trend. 5. Stima del ciclo-trend. La stima T̂t del ciclo-trend è ottenuta mediante una media mobile a 3 termini sui dati Dt. 6. Stima dell’intera componente sistematica della serie. Mediante le stime della stagionalità e del trend-ciclo si ottiene la stima ŷt , che contiene solo il pattern sistematico della serie, dove: ŷ t = T̂t + Ŝ t 7. Calcolo del residuo del modello. Il residuo del modello Ê t è, infine: Êt = yt − ŷt La Tab. 3.2 riporta i risultati delle fasi sopra elencate, per la serie delle vendite di bottiglie della bibita QQQ. 1 Si può condurre un’analisi grafica per controllare la validità dell’ipotesi di stagionalità costante. Si costruisce, per ognuno dei 12 mesi, un plot di (SE)t in ordinata versus gli anni (in ascissa). Se i punti individuati si trovano collocati parallelamente all’asse delle ascisse, allora il modello di stagionalità costante è adeguato. 41 Cap 3 Metodi di scomposizione Tab. 3.2 – Risultati del modello additivo (vendite bibita QQQ) Ê t ANNO MESE t yt Stima St Stima Dt Stima Tt Stima yt 1999 2000 2001 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 189 229 249 289 260 431 660 777 915 613 485 277 244 296 319 370 313 556 831 960 1152 759 607 371 298 378 373 443 374 660 1004 1153 1388 904 715 441 -267,0 -216,0 -224,7 -180,1 -253,9 2,3 249,0 366,7 526,0 172,7 27,1 -202,1 -267,0 -216,0 -224,7 -180,1 -253,9 2,3 249,0 366,7 526,0 172,7 27,1 -202,1 -267,0 -216,0 -224,7 -180,1 -253,9 2,3 249,0 366,7 526,0 172,7 27,1 -202,1 456,0 445,0 473,7 469,1 513,9 428,7 411,0 410,3 389,0 440,3 457,9 479,1 511,0 512,0 543,7 550,1 566,9 553,7 582,0 593,3 626,0 586,3 579,9 573,1 565,0 594,0 597,7 623,1 627,9 657,7 755,0 786,3 862,0 731,3 687,9 643,1 450,5 450,5 458,2 462,6 485,6 470,6 451,2 416,7 403,4 413,2 429,1 459,1 482,7 500,7 522,2 535,3 553,6 556,9 567,5 576,3 600,4 601,9 597,4 579,8 572,7 577,3 585,6 604,9 616,2 636,2 680,2 733,0 801,1 793,2 760,4 665,5 184 235 234 282 232 473 700 783 929 586 456 257 216 285 298 355 300 559 817 943 1126 775 625 378 306 361 361 425 362 639 929 1100 1327 966 788 463 5,50 -5,50 15,46 6,51 28,38 -41,91 -40,22 -6,31 -14,42 27,09 28,82 19,96 28,34 11,31 21,46 14,84 13,38 -3,24 14,44 17,02 25,58 -15,58 -17,51 -6,71 -7,66 16,65 12,13 18,17 11,71 21,42 74,78 53,35 60,92 -61,91 -72,51 -22,43 42 Cap. 3 Metodi di scomposizione Come si vede, si perdono 6 dati all’inizio e 6 alla fine della serie. I dati sono recuperati attraverso la stima della stagionalità mediante l’ipotesi di modello stagionale costante. Si può notare, infatti, che la sequenza dei coefficienti di stagionalità si ripete nei tre anni. Il segno e l’entità del coefficiente di stagionalità esprime l’importanza e la direzione dell’effetto: quando il segno del coefficiente è negativo significa che la stagionalità provoca una contrazione (rispetto al livello che avrebbe il trend-ciclo senza l’effetto dell’oscillazione stagionale); il segno è positivo, quando la stagionalità amplifica il fenomeno. Coefficienti di stagionalità positivi ed elevati si presentano nei mesi più caldi. Il trend-ciclo è stato stimato con una media a tre termini dei dati destagionalizzati, con eccezione dei due termini estremi (v. valori in grassetto) per i quali è stata impiegata una media a due termini. In base al procedimento descritto nella Tab. 3.2 si ottiene un MAPE pari al 2,8%. Tuttavia (v. Fig. 2.1, che si riferisce a questo stesso procedimento, ma si veda anche la Fig. 3.6), il modello additivo non realizza una soddisfacente destagionalizzazione dei dati. 3.6 Scomposizione classica: il modello moltiplicativo Utilizzando ancora i dati mensili sulle vendite di bibita QQQ, deriviamo la scomposizione mediante il modello moltiplicativo: yt=St x Tt x Et La scomposizione classica viene condotta svolgendo le fasi seguenti. 1. Calcolo del trend-ciclo di prima approssimazione. Come accade per il modello moltiplicativo, esso viene calcolato con una media mobile centrata a 12 termini. Indichiamo con MMt il valore di detta media, t=7,…,n-6 (stesso procedimento del modello additivo). 2. Calcolo della componente (SE)t: serie della stagionalità mista e errore. La serie (SE)t, composta da stagionalità ed errore, è calcolata dividendo la serie yt per MMt: (SE)t=yt /MMt 3. Stima della componente stagionale. Dalla serie (SE)t si elimina il disturbo e si perviene alla stima di St. Si ipotizza, anche qui, che l’oscillazione stagionale sia costante di anno in anno per cui, con dati mensili, St=St+12=St+24=…. Il coefficiente di stagionalità Sm per il mese m (m=1,…,12) viene calcolato effettuando la media aritmetica dei termini (SE)t dove t=m, m+12, m+24,…. Ancora, la stima della stagionalità per gennaio è data dalla media aritmetica dei valori (SE)t riferiti a gennaio. Il Cap 3 Metodi di scomposizione 43 risultato sarà dato da 12 coefficienti di stagionalità che si ripetono per ogni anno. Si ricava quindi la stima Ŝ m m=1,…,12 dove m indica il mese. I valori Ŝ m devono verificare la seguente proprietà: 1 12 ∑ Ŝ m = 1 12 m =1 Infatti, per definizione di stagionalità, le oscillazioni stagionali esauriscono il loro effetto all’interno dell’anno. 4. Derivazione della serie destagionalizzata Dt. Il dato destagionalizzato Dt si ricava come: Dt = y t / Ŝ t Questa grandezza contiene il pattern del ciclo-trend e l’effetto del disturbo. Essa è utile per il successivo studio del ciclo-trend. 5. Stima del ciclo-trend. La stima del ciclo-trend T̂t è ottenuta mediante una media mobile a 3 termini sui dati Dt. 6. Stima dell’intera componente sistematica della serie. Mediante le stime della stagionalità e del trend-ciclo, si ricava la stima ŷt che contiene solo il pattern sistematico della serie, dove: ŷ t = T̂t × Ŝ t 7. Calcolo del residuo del modello. Si ricava, infine, il residuo del modello Ê t come: Êt = y t / ŷ t Tuttavia, per consentire un confronto con l’adattamento del modello additivo, ai fini del calcolo degli indici MAPE, MAE, ecc., conviene utilizzare i residui calcolati nel modo consueto: Rest = y t − ŷ t I dettagli della scomposizione mediante il modello moltiplicativo sono riportati in Tab. 3.3. Vale la pena notare che il modello moltiplicativo realizza un miglioramento del MAPE che è uguale a 1,8% e, soprattutto, una più che soddisfacente destagionalizzazione dei dati. Ciò non ci sorprende in quanto, già l’analisi preliminare della serie aveva messo in luce la maggiore adeguatezza della forma moltiplicativa. 44 Cap. 3 Metodi di scomposizione Tab. 3.3 – Risultati del modello moltiplicativo (vendite bibita QQQ) ANNO MESE 1999 1 2 3 4 5 6 7 8 9 10 11 12 2000 1 2 3 4 5 6 7 8 9 10 11 12 2001 1 2 3 4 5 6 7 8 9 10 11 12 t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 yt Stima Sm StimaDt 189 0,493 383 229 0,595 385 249 0,595 419 289 0,679 425 260 0,564 461 431 0,985 438 660 1,466 450 777 1,692 459 915 1,988 460 613 1,306 469 485 1,028 472 277 0,600 462 244 0,493 495 296 0,595 497 319 0,595 536 370 0,679 545 313 0,564 555 556 0,985 565 831 1,466 567 960 1,692 568 1152 1,988 579 759 1,306 581 607 1,028 591 371 0,600 619 298 0,493 605 378 0,595 635 373 0,595 627 443 0,679 652 374 0,564 663 660 0,985 670 1004 1,466 685 1153 1,692 682 1388 1,988 698 904 1,306 692 715 1,028 696 441 0,600 736 Stima Tt 384 384 396 410 435 441 450 449 457 463 467 468 476 485 510 526 545 555 562 566 571 576 584 597 605 620 622 638 647 662 673 679 688 691 695 716 Stima yt 189 229 235 278 245 435 659 760 908 605 480 280 235 289 303 357 307 546 824 958 1136 752 600 358 298 369 370 433 365 652 986 1148 1368 902 715 429 Rest -0,326 0,394 13,642 10,744 14,735 -3,666 0,828 17,348 7,108 8,315 4,853 -3,424 9,247 7,475 15,852 12,603 5,550 9,677 6,875 2,001 16,081 6,650 7,046 13,183 -0,009 9,306 2,798 9,511 8,966 8,227 17,742 4,574 19,564 1,963 0,341 11,979 45 Cap 3 Metodi di scomposizione Fig. 3.6 – Dati destagionalizzati (vendite di bibita QQQ) 900,0 800,0 Modello moltiplicativo Modello additivo Dt 700,0 600,0 500,0 400,0 300,0 t 3.6 Valutazione della scomposizione ottenuta Abbiamo già accennato (par. 2.4) che la valutazione dell’adattamento ottenuto mediante il modello di scomposizione può essere condotta mediante indici quali MSE, MAE, MAPE, riferiti alla serie storica disponibile. Oltre al calcolo di tali indici, è buona norma condurre anche delle analisi grafiche dei residui Êt . L’idea che sta alla base di questi controlli è la seguente: se la scomposizione è valida allora il residuo non dovrebbe evidenziare oscillazioni sistematiche di nessun tipo e il suo line plot dovrebbe oscillare intorno al valore neutrale (0 per il residuo del modello additivo, 1 per il residuo del modello moltiplicativo), in modo accidentale. Vediamo il caso del modello additivo dove il residuo è: Ê t = y t − ŷ t I grafici che ci possono interessare sono i seguenti. 1. Andamento di Ê t rispetto al tempo t. L’ideale è che non si presentino oscillazioni sistematiche, come avviene in Fig. 3.7. Situazione dubbia è quella di Fig. 3.8 (la scomposizione ottenuta è più valida per periodi più remoti). La Fig. 3.9, infine, evidenzia che non siamo stati in grado di individuare un andamento ciclico (o comunque curvilineo) 2. Correlogramma di Ê t . L’ideale è quello di non avere valori elevati dell’ autocorrelazione tuttavia, difficilmente da un’analisi di scomposizione, si ottengono residui ottimali. 46 Cap. 3 Metodi di scomposizione 3. Normal probability plot di Ê t . L’idea che giustifica questo tipo di analisi è la seguente: se siamo stati in grado di scomporre bene la serie e abbiamo colto in modo adeguato la componente sistematica, il residuo dovrebbe comportarsi approssimativamente come un errore accidentale. Nel caso di modello moltiplicativo, resta in massima parte valido quanto affermato nei punti 1 e 2. Non ha senso, invece, costruire un normal probability plot perché il residuo moltiplicativo Ê t può assumere solo valori non negativi mentre una v.c. normale assume valori sia negativi, sia positivi. E’ più corretto, se mai, costruire il normal probability plot delle trasformate logaritmiche dei residui. La Fig. 3.10 riporta il line plot dei residui del modello additivo, per i dati relativi alle vendite della bibita QQQ. Si nota un risultato un po’ insoddisfacente per il periodo iniziale e finale; sappiamo che ciò è dovuto al fatto che il modello additivo tende a destagionalizzare male agli estremi della serie quando questa è meglio rappresentata da un modello moltiplicativo. Fig. 3.8 – Esempio di residui privi di andamenti sistematici 100 80 60 Residui 40 20 0 -20 1 6 11 16 21 -40 -60 -80 -100 t 26 31 36 47 Cap 3 Metodi di scomposizione Fig. 3.9 – Esempio di residui con variabilità più alta per periodi recenti 200 150 Residui 100 50 0 -50 1 6 11 16 21 26 31 36 -100 -150 -200 t Fig. 3.10 – Esempio di residui con andamento curvilineo 2000 1500 Residui 1000 500 0 -500 1 6 11 16 21 -1000 -1500 -2000 t 26 31 36 48 Cap. 3 Metodi di scomposizione Fig. 3.11 – Residui del modello additivo di Tab. 3.2 100,000 80,000 60,000 40,000 20,000 34 31 28 25 22 19 16 13 10 7 1 -20,000 4 0,000 -40,000 -60,000 -80,000 3.7 Alcune osservazioni ulteriori sui metodi di scomposizione A conclusione di questo capitolo, vogliamo soffermarci a discutere alcune tematiche riguardanti i metodi di scomposizione e precisamente: 1) l’impiego della trasformazione logaritmica per il modello moltiplicativo; 2) come eseguono la scomposizione procedure contenute nei pacchetti statistici Statistica (www.statsoft.com) e Minitab (www.minitab.com); 3) come si eseguono le previsioni una volta che si è condotta un’analisi di scomposizione. Abbiamo già accennato al fatto che si può passare da un modello moltiplicativo rispetto alla serie originarie yt, (t=1,…,n) ad uno additivo rispetto alla serie ln yt. Quindi, volendo adottare per yt il modello moltiplicativo, si potrebbe decidere di eseguire la scomposizione con modello additivo sui logaritmi poiché si ha: ln yt=ln(St x Tt x Et) ÅÆ ln yt=lnSt + lnTt + lnEt E’ bene precisare, tuttavia, che la scomposizione di yt mediante modello moltiplicativo conduce a risultati diversi alla scomposizione di ln yt mediante modello additivo (come descritto nel paragrafo 3.4). Per capire quanto appena affermato, vediamo nel dettaglio l’espressione della media mobile nei due approcci. Ad esempio, la media mobile a 2k+1 termini (dispari) centrata sul tempo t è, sui dati originari: 1 t +k 1 t +k y = Ti × S i × Ei ∑ i 2k + 1 i ∑ 2k + 1 i =t − k =t − k Invece, se si usano dati trasformati: 49 Cap 3 Metodi di scomposizione (3.5) 1 t +k 1 t +k ln y = (ln Ti + ln S i + ln Ei ) ∑ i 2k + 1 i ∑ 2k + 1 i =t − k =t − k Quest’ultima espressione equivale al logaritmo della media geometrica dei valori originali: (3.6) 1 t +k 1 /( 2 k +1 ) (ln Ti + ln S i + ln Ei ) = ln(∏ i Ti × S i × Ei ) ∑ 2k + 1 i =t − k Dal confronto fra (3.5) e (3.6) si capisce che i due approcci conducono, in generale, a risultati diversi. Vediamo, a questo punto, le procedure di scomposizione classica delle serie storiche, contenute nei pacchetti statistici, Statistica e Minitab. Il pacchetto Statistica, nella procedura Time Series>Decomposition Census1, esegue i passi esattamente come da noi descritti. Nel pacchetto Minitab, la procedura Time series>Decomposition, esegue le fasi dell’analisi secondo un ordine diverso da quello da noi presentato. Come prima fase, Minitab stima il trend mediante interpolazione di una retta rispetto al tempo t: T̂t = a + b t Successivamente determina il dato detrendizzato Dt che è: Dt = ( S + E )t = y t − T̂t Dt = ( S × E )t = y t / T̂t per il modello additivo per il modello moltiplicativo Vengono poi calcolati i coefficienti di stagionalità come da noi descritto, ipotizzando il modello di stagionalità costante. Si nota che la procedura Minitab non tiene conto dell’eventuale presenza del ciclo, in quanto stima il solo trend con una retta (la retta non ha andamenti oscillatori!). Si può, tuttavia, risolvere questo problema lavorando con Minitab in modo più flessibile e cioè ricorrendo a diverse procedure. In particolare, la sequenza di fasi indicata per condurre l’analisi di scomposizione può essere realizzata in Minitab nel seguente modo: i) mediante la procedura Time series>Decomposition adattare un modello senza trend e memorizzare i dati destagionalizzati; ii) mediante la procedura Time series>Moving average procedere alla stima del ciclo-trend. Veniamo infine al tema della previsione. Ci sono stati molti tentativi di sviluppare previsioni basate direttamente sul risultato di una analisi di scomposizione mediante medie mobili. Generalmente si procede alla 50 Cap. 3 Metodi di scomposizione previsione della singola componente (trend, ciclo, ecc.) per poi ricomporre il dato futuro della serie (come prodotto dei valori delle singole componenti nel caso del modello moltiplicativo, come somma nel caso del modello additivo). Non sempre questo procedimento produce risultati soddisfacenti. In generale, il trend-ciclo è la componente più difficile da prevedere soprattutto a causa dell’oscillazione ciclica che non ha andamenti regolari periodici. Il procedimento può avere successo se il ciclo è assente oppure ha intensità trascurabile rispetto all’ordine di grandezza del trend. In tale circostanza, il trend può essere validamente stimato mediante una funzione analitica del tempo f(t). La previsione T̂n +1 per il tempo futuro t=n+1 (dove n è la lunghezza della serie disponibile) viene ottenuta estrapolando la retta, per cui T̂n +1 =f(n+1). La componente stagionale è relativamente semplice da prevedere nell’ipotesi di stagionalità costante. Infatti, l’effetto stimato della stagionalità del mese (trimestre, semestre, ecc.) m (m=1,…,12) è Ŝ m , che è costante negli anni. Quindi, supponendo che il tempo n+1 sia riferito al mese di gennaio, la previsione dell’effetto stagionale è Ŝ 1 . Per la componente irregolare viene adottato, come previsione, il valore neutrale, che è pari a 0 per il modello additivo, a 1 per il modello moltiplicativo. La previsione Fn+1 per il fenomeno in esame, si ottiene ricomponendo le previsioni per le tre componenti. Supponendo che il tempo n+1 sia riferito al mese di gennaio, si ottiene Fn +1 = T̂n +1 + Ŝ1 per il modello additivo Fn +1 = T̂n +1 × Ŝ1 per il modello moltiplicativo Nel capitolo seguente affronteremo la stima del trend mediante adattamento di una forma analitica e deriveremo le previsioni per le vendite della bibita QQQ. Anche se per la previsione sono stati sviluppati numerosi metodi più sofisticati e più efficaci, i procedimenti di scomposizione restano un valido strumento per comprendere le caratteristiche evolutive passate della serie. La scomposizione costituisce la fase preliminare per decidere sul metodo di previsione da adottare. 51 Cap. 4 Studio del trend 4. Studio del trend mediante forma analitica 4.1 Introduzione L’evoluzione di lungo periodo di una serie storica è denominata trend. Nell’economia, ad esempio, il trend è determinato dal lento sviluppo delle tecnologie, dei fenomeni demografici e sociali, ecc. L’esistenza di una evoluzione di lungo periodo può essere evidenziata dall’andamento dei dati destagionalizzati risultanti da un’analisi di scomposizione, oppure dalla serie di dati annuali (anch’essi privi della stagionalità). Nel capitolo precedente abbiamo illustrato la stima del trend mediante le medie mobili; tale procedimento è denominato adattamento locale del trend o stima locale. In questo capitolo affronteremo la stima del trend mediante specificazione e stima di una funzione analitica del tempo t. Questo procedimento è denominato analisi globale poiché la funzione stimata definisce come una sorta di legge di dipendenza del trend dal tempo t. Varie forme funzionali sono utilizzate per rappresentare il trend. Quelle che vedremo in queste note sono: la forma lineare, la quadratica e l’esponenziale. 4.2 Forme analitiche per rappresentare il trend Ipotizziamo che yt=Tt+et, dove yt qui rappresenta o il dato annuale o quello destagionalizzato e et la componente di disturbo. La forma lineare in t è: (4.1) Tt=β0+β1 t t=1,…,n dove β0 è l’intercetta e β1 è la pendenza della retta. Se β1>0 il trend è crescente; se β1<0, il trend è decrescente; se β1=0 esiste un pattern orizzontale. Un modo per capire se il trend lineare è appropriato per rappresentare la nostra serie, consiste nel verificare se le differenze successive della serie (destagionalizzata o annuale) sono approssimativamente costanti rispetto a t. Ciò scaturisce dal fatto che, se vale la (4.1), si ha che: (4.2) ∆ t = Tt − Tt −1 = β 0 + β 1t − β 0 − β 1 ( t − 1 ) = β 1 costante in t. 52 Cap. 4 Studio del trend Talvolta il trend può esibire andamenti non lineari rispetto al tempo. Allora può essere appropriata la forma quadratica: (4.3) Tt=β0+β1 t+β2 t2 t=1,…,n La (4.2) può assumere una varietà di forme a seconda del segno dei coefficienti β1 e β2; da notare, ad esempio, che quando β2=0 si ottiene una forma lineare in t. Un modo per verificare l’adeguatezza di un modello quadratico consiste nell’effettuare le seconde differenze fra termini successivi della serie (cioè le differenze successive della serie ∆t definita in (4.2)). Se i valori di tali differenze appaiono approssimativamente costanti rispetto a t, può essere valido un modello quadratico. Ciò scaturisce dal fatto che, se vale la (4.3), allora ∆t+1-∆t è costante in t. Infatti, se vale la (4.3), si ha: ∆t+1-∆t=2 β2 costante in t dove: ∆ t = Tt − Tt −1 = β 0 + β 1t + β 2 t 2 − β 0 − β 1 ( t − 1 ) − β 1 ( t − 1 ) 2 ∆ t +1 = Tt +1 − Tt = β 0 + β 1 ( t + 1 ) + β 2 ( t + 1 ) 2 − β 0 − β 1t − β 1t 2 Un’altra forma spesso usata è quella esponenziale: (4.4) Tt=β0 exp(β1 t) t=1,…,n Se vale la (4.4), si verifica la seguente espressione: β 0 exp( β 1t ) Tt = = exp( β 1 ) Tt −1 β 0 exp( β 1 ( t − 1 )) costante in t Un modo per verificare l’adeguatezza di un modello esponenziale consiste pertanto nell’effettuare i rapporti fra termini successivi della serie e verificare se questi sono approssimativamente costanti rispetto a t. 4.3 Stima del trend Una volta che è stata scelta una forma analitica per rappresentare il trend, è necessario passare alla sua stima a partire da dati di osservazione. I dati sui quali viene stimato il trend dovrebbero essere privi di andamento stagionale e ciclico. In altre parole, l’unica componente sistematica presente nei dati deve essere quella tendenziale di lungo periodo. In assenza di significative oscillazioni cicliche, i dati più idonei all’analisi del trend sono: i valori destagionalizzati oppure la serie di dati annuali. 53 Cap. 4 Studio del trend A scopi di esemplificazione, viene condotta un’analisi del trend sui dati relativi alle vendite di bibita QQQ. In aprticolare, dalla Fig. 3.6, si nota che i dati destagionalizzati mediante il modello moltiplicativo, possono essere rappresentati mediante una funzione lineare nel tempo. Anziché procedere alla media mobile a 3 termini, decidiamo quindi di adottare la stima di una funzione analitica, lineare in t. Mediante il metodo dei minimi quadrati ordinari, la funzione analitica che rappresenta il trend è in tal caso: (4.5) Tˆt = 380 ,3 + 9 ,505 t che registra un indice di determinazione lineare R2 pari a 0,985. Nello studio del trend mediante funzione analitica, viene usato il metodo dei minimi quadrati come in una consueta analisi di regressione. Tuttavia non si procede alla verifica delle ipotesi sui coefficienti dal momento che la stima del modello ha lo scopo di descrivere l’andamento del trend rispetto al tempo e non quello di valutare l’effetto di t sul trend, nel senso causale o esplicativo. 4.4 Stima della componente sistematica e previsione Mediante la stima della stagionalità ottenuta per il modello moltiplicativo (v. Tab. 3.3) e la stima del trend mediante la funzione (4.5), è possibile proporre una stima dell’intera componente sistematica del modello moltiplicativo che è (v. Tab. 4.1): yˆ t = Tˆt × Sˆ t = ( 380 ,3 + 9 ,505 t )× Sˆ t A questo punto è possibile pervenire ad una determinazione di Et, componente casuale del modello, mediante la grandezza Êt dove: y y Eˆ t = t = t yˆ t Tˆt Sˆ t Tuttavia, per proporre un confronto con altri metodi di scomposizione e con altri modelli, si usa frequentemente il residuo consueto: Rest = y t − yˆ t mediante il quale si può calcolare ad esempio il MAPE. In questo caso, il MAPE è pari a 1,93%, valore leggermente più alto di quello ottenuto mediante l’impiego della media mobile a 3 termini per la stima del trend (v. paragrafo 3.6). 54 Cap. 4 Studio del trend Tab. 4.1 – Risultati del modello moltiplicativo (vendite bibita QQQ). Trend stimato mediante funzione lineare del tempo ANNO MESE 1999 1 2 3 4 5 6 7 8 9 10 11 12 2000 1 2 3 4 5 6 7 8 9 10 11 12 2001 1 2 3 4 5 6 7 8 9 10 11 12 t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 yt Stima Sm StimaDt 189 0,493 383 229 0,595 385 249 0,595 419 289 0,679 425 260 0,564 461 431 0,985 438 660 1,466 450 777 1,692 459 915 1,988 460 613 1,306 469 485 1,028 472 277 0,600 462 244 0,493 495 296 0,595 497 319 0,595 536 370 0,679 545 313 0,564 555 556 0,985 565 831 1,466 567 960 1,692 568 1152 1,988 579 759 1,306 581 607 1,028 591 371 0,600 619 298 0,493 605 378 0,595 635 373 0,595 627 443 0,679 652 374 0,564 663 660 0,985 670 1004 1,466 685 1153 1,692 682 1388 1,988 698 904 1,306 692 715 1,028 696 441 0,600 736 Stima Tt 390 399 409 418 428 437 447 456 466 475 485 494 504 513 523 532 542 551 561 570 580 589 599 608 618 627 637 646 656 665 675 684 694 703 713 722 Stima yt 192 238 243 284 241 431 649 772 926 621 498 296 248 306 311 362 306 543 815 965 1153 770 616 365 305 373 379 439 370 655 981 1158 1380 919 733 433 Rest -3,13 -8,64 5,77 4,79 18,79 0,34 10,57 5,09 -11,29 -7,89 -13,40 -19,40 -4,34 -9,53 7,91 8,30 7,48 13,02 15,80 -4,84 -1,09 -10,87 -8,65 6,21 -6,56 4,59 -5,95 3,80 4,17 4,70 23,02 -4,78 8,11 -14,86 -17,89 7,82 Questo tipo di scomposizione, che utilizza una forma analitica per rappresentare il trend, ci consente in modo estremamente semplice di proporre delle previsioni per i periodi futuri. E’ necessario, però, ipotizzare che il modello stimato sui dati passati rimanga valido anche nel futuro. Per Cap. 4 Studio del trend 55 non rischiare troppo conviene limitarsi ad effettuare delle previsioni nel breve periodo. A titolo esemplificativo, proponiamo qui le previsioni delle vendite di bibita QQQ, per i primi tre mesi del 2002: gennaio, febbraio e marzo ai quali corrisponde t=37, 38, 39 e coefficienti di stagionalità pari a 0,493, 0,595, 0,595. Le previsioni che indichiamo come F37, F38, F39 sono: F37=(380,3+9,505 x 37) x 0,493= 361 F38=(380,3+9,505 x 38) x 0,595= 441 F39=(380,3+9,505 x 39) x 0,595= 447 Come si vede le ipotesi di validità nel futuro del modello riguardano: - la stabilità dei valori dei parametri della forma analitica usata per rappresentare il trend; - la stabilità dei coefficienti stagionali per i tre mesi futuri, per i quali si costruisce la previsione.