Capitolo 04
Transcript
Capitolo 04
QUARTA UNITA’ Misure della dispersione o della variabilità Abbiamo visto che un punteggio di per sé non ha alcun significato e lo acquista solo quando è posto a confronto con altri punteggi o con una statistica. Così se conosciamo la media della distribuzione di una data variabile, possiamo determinare se un dato punteggio è inferiore o superiore alla media stessa. Ma quanto superiore o quanto inferiore? E chiaro a questo punto che una misura della tendenza centrale, quale può essere la media, fornisce informazioni che acquistano maggior peso se completate da un quadro più complessivo. Per descrivere più completamente una data distribuzione, o per interpretare più compiutamente un dato punteggio, è necessario disporre di informazioni ulteriori riguardanti la dispersione dei punteggi intorno alla media. La dispersione o variabilità di una distribuzione di dati o punteggi è la sua seconda caratteristica fondamentale, dopo la media. a) b) Fig 4.1 - Due distribuzioni di frequenza con uguale media ma diversa dispersione o variabilità. Considerando la parte (a) e la parte (b) della figura, osserviamo che in ambedue i casi la media delle distribuzioni è la stessa. Tuttavia, possiamo dare al punteggio 128 due diverse interpretazioni. Nella curva (a) il punteggio 128 può essere considerato moderatamente elevato, proprio e causa dell’alta dispersione dei punteggi intorno alla media. Sono pochi infatti gli individui al di sopra di 128 nella distribuzione di frequenza, come è possibile osservare mediante il confronto dell’area a destra di 128 con l’area totale. Nel caso (b), d’altra parte i punteggi sono piuttosto ravvicinati allo stesso punteggio medio. e ci troviamo di fronte ad una distribuzione più omogenea. Di conseguenza il punteggio 128 si trova praticamente al limite superiore della distribuzione e può essere considerato pertanto come un punteggio assai elevato. Si può vedere dunque che per interpretare un dato punteggio è necessario trovare un’informazione complementare alla media o alla mediana. Questa informazione complementare in certo qual modo esprime il grado di dispersione dei punteggi intorno alla misura della tendenza centrale. Verranno qui presentate cinque misure di dispersione o di variabilità: il campo di variazione, la differenza interquartile, la deviazione media, la varianza e lo scarto quadratico medio (detto più comunemente deviazione standard). 40 Tra le cinque misure elencate troveremo che lo scarto quadratico medio costituisce il migliore indice della dispersione sia nella statistica descrittiva, sia nella statistica induttiva o inferenziale. Tuttavia, nella statistica più avanzata, come nell’analisi della varianza, la varianza si mostrerà l’indice di dispersione o di variabilità più utile. Il campo di variazione o gamma (range) Nel calcolare i diversi tipi di misure della tendenza centrale abbiamo individuato un certo punto della scala dei punteggi e lo abbiamo identificato come media aritmetica, mediana oppure moda. Passando a considerare gli indici di dispersione tuttavia siamo interessati e costruire un indice di variabilità che indichi la distanza nella scala del punteggi. Una delle prime misure di distanza che ci possono venire in mente è il cosiddetto campo di variazione o gamma della variabile. Esso è in ogni caso il più semplice e il più immediato indice di variabilità e si calcola sottraendo dal punteggio più alto il punteggio più piccolo. Sebbene il campo di variazione sia significativo per scopi descrittivi, esso si presenta di poca utilità a causa della sua alta instabilità. Infatti, se si ha un punteggio molto elevato in una distribuzione, la dispersione dei punteggi apparirà maggiore di quella che si otterrebbe se si eliminasse questo ultimo punteggio, in quanto la sua eliminazione rende la distribuzione più compatta. In altri termini il campo di variazione dipende solamente dai due punteggi estremi di una distribuzione. Per questo in alcuni metodi di calcolo si tende a eliminare i punteggi estremi. La differenza interquartile (interquartile range) Al fine di superare il problema della poca utilità del campo di variazione come misura di variabilità in una distribuzione è stata introdotta la differenza interquartile o scarto interquartile. A essa abbiamo già accennato parlando di posizione percentile. La differenza interquartile viene calcolata semplicemente sottraendo il punteggio corrispondente alla posizione del venticinquesimo percentile (denominato primo quartile o Q1) dal punteggio corrispondente alla posizione del settantacinquesimo percentile (il terzo quartile o Q3). Fig 4.2 - Differenza interquartile = 3° interquartile – 1° interquartile = Q3 - Q1. Sebbene questa misura di variabilità sia molto più significativa del campo di variazione, presenta tuttavia due difetti sostanziali: 1) alla stessa maniera del campo di variazione, non consente di per sé una precisa interpretazione di un punteggio in una data distribuzione, 2) come la mediana, non gioca alcun ruolo nella metodologia statistica avanzata, così come nella statistica inferenziale. Abbiamo anche accennato a quali siano i contesti nei quali essa acquista significato. 41 Gli scarti medi (o dalla media) Abbiamo sottolineato precedentemente che quando si ha e che fare con dati provenienti da popolazioni approssimativamente distribuite normalmente (quindi distribuite approssimativamente in modo simmetrico), la media aritmetica si presenta come l’indice descrittivo della tendenza centrale più utile. Si ottiene la media aritmetica semplicemente sommando tutti i punteggi e quindi dividendoli per N. Se si porta avanti questa procedura, possiamo sottrarre la media così ottenuta da ogni punteggio, sommare gli scarti, che così si ottengono, per ottenere infine una stima dell’ammontare della variabilità dalla media nella distribuzione. Dividendo per N il risultato del precedente calcolo, otteniamo una misura che ha le stesse caratteristiche della media aritmetica ad eccezione del fatto che essa rappresenta la dispersione dei punteggi dalla media aritmetica stessa. E’ quello che si definisce scarto medio1, la somma degli scarti (o scostamenti) dalla media divisa per N. Tuttavia, si va incontro a una difficoltà precisa: la somma degli scarti di tutti i punteggi dalla media è sempre uguale a zero. Proprio per come è stata definita la media aritmetica. Quindi anche lo scarto medio è sempre uguale a zero. Per superare questa difficoltà si potrebbero considerare tutti gli scarti nel loro valore assoluto, cioè senza tener conto del loro segno, e dividere la somma che si ottiene per N. Otteniamo una misura descrittiva dello scarto medio dalla media aritmetica. La statistica che si ottiene è in questo caso basata sui valori assoluti degli scarti stessi. Tuttavia questo elemento di confronto della dispersione di una distribuzione si presenta poco utilizzato nella pratica statistica. Più significativo e largamente valorizzati sono invece due misure dalla variabilità che prendono il nome di varianza e di scarto quadratico medio. La prima si ottiene elevando al quadrato i singoli scarti (o scostamenti) dalla media, sommandoli tra di loro e dividendo il risultato per il numero totale dei punteggi N. La seconda, estraendo la radice quadrata del precedente risultato. La varianza (variance) e lo scarto quadratico medio (standard deviation) La varianza2 viene definita, informalmente, come la somma degli scarti, al quadrato, dalla media aritmetica divisa per N. Simbolicamente si scrive: Lo scarto quadratico medio, detto anche deviazione standard, è dato dalla radice quadrata della varianza. 1 Lo scarto medio è anche definito come primo momento rispetto alla media, in quanto la parola “momento” in fisica indica il punto di equilibrio tra le diverse forze in gioco. La media è sempre il punto di equilibrio tra i punteggi più alti e più bassi. 2 La varianza viene anche definita come secondo momento rispetto alla media, in quanto anch’essa esprime il punto di equilibrio tra le variazioni dalla media. 42 Lo scarto quadratico medio, basato sui quadrati degli scarti, dimostra di possedere un’enorme utilità nella statistica, per tre motivi fondamentali. 1) Lo scarto quadratico medio riflette la dispersione dei punteggi così che la variabilità di diverse distribuzioni può essere messa a confronto in termini di scarto quadratico medio. 2) Lo scarto quadratico medio consente un’interpretazione precisa dei punteggi entro la distribuzione. 3) Lo scarto quadratico medio, come la media aritmetica, fa parte di un insieme di teorie matematiche che ci consentono di usarlo in metodologie statistiche più complesse. Così, a esempio, useremo misure o indici complessi basati su di esso allorché ci addentreremo nella statistica inferenziale. La considerazione dello scarto medio è stata fatta sostanzialmente per facilitare il calcolo dello scarto quadratico medio, come si può vedere nella tabella 4.1. Tab. 4.1 - Procedure per il calcolo dello scarto quadratico medio basata sulla considerazione dello scarto medio. Data l’importanza dello scarto quadratico medio nell’analisi statistica dei dati, sono state elaborate formule equivalenti rispetto a quella precedente e procedure appropriate per i vari casi: dati raggruppati e dati non raggruppati in classi, ecc. Intanto è possibile dimostrare matematicamente l’equivalenza tra la formula precedente e la seguente. La procedura per calcolare lo scarto quadratico medio seguendo quest’ultima formula è quella della tabella 4.2. Nel calcolo dello scarto quadratico medio, basato sui dati iniziali x, è corrente per lo studente la confusione tra Σ X2 e (Σ X)2. È importante ricordare che la prima rappresenta la somma dei quadrati di ciascun punteggio, mentre la seconda rappresenta il quadrato della somma dei punteggi. Per definizione, è impossibile ottenere una somma di quadrati o uno scarto 43 quadratico medio negativo. Nel caso si ottenga un valore negativo sotto il segno di radice, probabilmente è stato commesso un errore, confondendo le due espressioni. A occhio e croce, lo scarto quadratico medio oscilla tra un mezzo ed un sesto del campo di variazione. Nell’esempio precedente, il rapporto tra campo di variazione e scarto quadratico medio è 9/2,19 = 4,11. Se si ottiene un rapporto al di fuori dei limiti già accennati, si è probabilmente commesso un errore. Tab. 4.2 - Procedura per il calcolo di s per punteggi non raggruppati. Se consideriamo le frequenze f di ciascun dato, occorre utilizzare le formule seguenti. La prima deriva direttamente dalla definizione di scarto quadratico medio; la seconda adatta la formula equivalente a questo caso, moltiplica per f ciascun valore della variabile al quadrato. Il procedimento da usare è quello della tabella 4.3. Tab. 4.3 - Procedura per il calcolo di s su dati di cui si considera la frequenza f. Se ora consideriamo una distribuzione di dati raggruppata in classi o intervalli, occorre procedere nel modo illustrato dalla tabella 4.4. 44 Tab.4.4 - Procedura per il calcolo della varianza e dello scarto quadratico medio per una distribuzione di punteggi raggruppati in classi o intervalli. L’uso dello scarto quadratico medio o deviazione standard acquista un significato più interessante e pieno quando si consideri il rapporto tra scarto quadratico medio e distribuzione normale: per questo nell’unità seguente indagheremo sulla relazione intercorrente tra punteggi originali, scarti quadratici medi e curva normale. Interpretazione della deviazione standard o scarto quadratico medio Fig. 4.3 - Distribuzione dei punteggi ottenuti da tre gruppi o sezioni di studenti in un corso introduttivo di psicologia. 45 Osservando la Fig. 4.3 è facile constatare il significato congiunto della media e della deviazione standard come misure che descrivo bene la distribuzione dei punteggi. Nella distribuzione rappresentata dalla figura (a) si nota facilmente come i punteggi siano raccolti vicino alla media. La deviazione standard in questo caso è abbastanza piccola. . Nella distribuzione rappresentata dalla figura (b) si nota facilmente come i punteggi siano meno raccolti vicino alla media. La deviazione standard in questo caso è maggiore della precedente. Nella distribuzione rappresentata dalla figura (c) si nota facilmente come i punteggi siano assai distanziati rispetto alla media. La deviazione standard in questo caso è elevata. Maggiore è la deviazione standard e più grande è la dispersione dei dati. Inoltre si può subito segnalare, ma la cos verrà chiarita nella prossima unità, che l’insieme dei punteggi compresi tra il valore che ottiene sottraendo alla media il valore della deviazione standard e aggiungendo a essa lo stesso valore comprende sempre circa il 68% dei punteggi. In statistica si distingue con cura la descrizione della distribuzione di una popolazione dalla descrizione di un suo campione. L’uso dei simboli facilita la comprensione di quale dei due casi è preso in considerazione. Nel primo caso si usano le lettere greche per indicare ma media, µ, e per indicare lo scarto quadratico medio, σ. Nel secondo caso si usano le lettere latine. In questa unità abbiamo usato le lettere latine per segnalare un uso generico delle formule. La forma di una distribuzione: asimmetria (skew) e curtosi (kurtosis). Abbiamo già introdotto il concetto di asimmetria e di asimmetria positiva e negativa. Quando la media è maggiore della mediana (la differenza tra le media e la mediana è positiva) la distribuzione è asimmetrica positivamente. Quando la mediana è maggiore della media ( le differenza tra la media e la mediana è negativa) la distribuzione è asimmetrica negativamente. Esiste una formulA (un po’ complessa) per valutare l’intensità di tali asimmetria. Essa è data dal valore si s3. E’ facile tuttavia ottenere il valore dell’asimmetria (skew) mediante un programma di calcolo statistico per computer (es. Excel). Esiste una formula che approssima il suo valore proposta da E.S.Pearson. Essa è cioè una stima del valore dell’asimmetria. 3 (media – mediana) s3 ≈ ------------------------deviazione standard La curtosi è invece un indicatore di quanti i punteggi si addensano verso la media, oppure si addensano verso gli estremi della distribuzione. Essa è data dal valore si s4. E’ facile tuttavia ottenere il valore della curtosi (kurtosis)3 mediante un programma di calcolo statistico per computer (es. Excel). Esiste anche in questo caso una formula che approssima il suo valore. Essa è cioè una stima del valore della curtosi. Q3 – Q1 s4 ≈ 3 + ---------------------------------------(90° percentile) – (10° percentile) Se ricordiamo che una curva è detta leptocurtica, platicurtica o mesocurtica a seconda che 3 Essa è nota anche come il quarto momento rispetto alla media. 46 essa sia a forma campanulate con addensamento di punteggi al centra, oppure essa si presenti appiattita al centro, ovvero sia distribuita abbastanza normalmente, possiamo concludere che una curva mesocurtica ha una curtosi approssimativamente di valore 3, mentre una leptocurtica ha un valore superiore va 3 e una platicurtica ha un valore inferiore a 3. Tab. 4.5 - Quattro distribuzioni, ciascuna con un differente s2, s3, s4. Sintesi Abbiamo visto che al fine di dare una descrizione di una distribuzione è necessario disporre di qualche cosa in più della semplice misura della tendenza centrale. Dobbiamo cioè essere in grado di dare una misura della dispersione dei punteggi intorno ai valori medi. In questo ambito, abbiamo trattato cinque misure di dispersione, cioè il campo di variazione, le differenze interquartili, lo scarto medio, lo scarto quadratico medio e la varianza. Nel caso di variabili distribuite normalmente le due misure basate sul quadrato degli scarti dalla media (cioè le varianza e lo scarto quadratico medio) si mostrano particolarmente utili nelle statistica. Abbiamo discusso altresì e mostrato concretamente come calcolare lo scarto quadratico medio facendo uso dello scarto medio, nonché direttamente, operando cioè sui dati originali nel caso di distribuzioni di frequenza di punteggi non raggruppati in classi. Abbiamo infine posto in evidenza i tipi più comuni di errore che si possono incontrare nel calcolo dello scarto quadratico medio. 47 Termini da ricordare Valore assoluto di un numero - Il numero senza tener conto del suo segno. Dispersione (dispersion - spread) - La variabilità dei punteggi intorno alla rispettiva misura della tendenza centrale. Scarto medio - Somma degli scarti di ciascun punteggio dalla media, senza tener conto del segno, diviso per il numero di punteggi. Campo dl variazione (gamma – range) - Misura della dispersione; la distanza intercorrente tra il punteggio più piccolo ed il punteggio più grande della scala dei punteggi. Scarto quadratico medio (deviazione standard – standard deviation) - Misura della dispersione estremamente utile definita come la radice quadrata della somma degli scarti quadratici dalla media aritmetica, divisa per N. Varianza (variance)- Somma degli scarti quadratici medi dalla media divisa per N. Asimmetria (skewness) Forma che assume la distribuzione quanto a simmetria rispetto alla media. Curtosi (kurtosis) Modalità di addensamento dei punteggi vicino alla media o distante da essa. 48 Esercizi 1. Calcola per i seguenti punteggi 3 4 5 5 6 7 a) b) c) d) e) la media la mediana la moda la varianza s2 la deviazione standard s 2. Aggiungi 2 a ciascun valore e ricalcola a. b. c. d. e. la media la mediana la moda la varianza s2 la deviazione standard s 3. Ora calcola gli stessi valori del punto 1) togliendo 2 4. Quale differenza noti tra i risultati che ottieni? Che cosa puoi concludere? 49
Documenti analoghi
Coefficiente di variazione e scarto quadratico medio Per effettuare
Ora sembra abbastanza evidente che le fluttuazioni del prezzo del bene A sono superiori rispetto a
quelle del bene B sebbene le misure di variabilità considerate siano tutte superiori per il second...
Quartili. Indici di variabilità.
Dato un insieme di n valori osservati (X1, X2, ....., Xn), si definisce campo di variazione la differenza tra il più
grande e il più piccolo di tali valori.
Range (peso) = Xmax – Xmin = 85 – 48 = 38
1 Medie - Dipartimento di Matematica e Informatica
è opportuno usare la media geometrica. Per es. i dati numerici dell’esempio 1.3 sono
distribuiti in modo vistosamente asimmetrico rispetto alla loro media aritmetica; si
constata invece che i corr...