Appunti 1 ANOVA
Transcript
Appunti 1 ANOVA
X1 X2 X3 Quando un confronto venga effettuato per tre livelli di un fattore, sembrerebbe intuitivo effettuare il confronto con il test t di Student a più livelli: X1 vs X 2 X 2 vs X3 X1 vs X3 Metodologia per l’analisi dei dati sperimentali L’analisi di studi con variabili di risposta multiple Quando i livelli del fattore allo studio siano più di due (quali ad esempio trattamenti diversi, protocolli di intervento diversi…) sembrerebbe intuitivo effettuare a due a due i confronti utilizzando il test t di Student. Pagina 1 Se la probabilità di commettere un errore di I tipo per 1 confronto è α, la probabilità per C confronti diviene: (1 − α ) ⋅ (1 − α ) ⋅ (1 − α ) ⋅ (1 − α ) ⋅ ....(1 − α ) = C = 1 − (1 − α ) C α 2 0.10 3 0.14 5 0.23 10 0.40 Se si effettuano più confronti, tuttavia, la probabilità di errore di primo tipo aumenta proporzionalmente al numero di confronti (C) e, anche se nominalmente è pari a 0.05, per tre confronti essa è pari a 0.14, per cinque confronti a 0.25. Pagina 2 L'analisi della varianza (ANOVA) L'ipotesi nulla diviene: H0 : µ1 = µ2 = µ3 = .... = µp e saggia l'ipotesi che tutte le medie non differiscano tra loro La tecnica corretta per confronto di più livelli della variabile di risposta è l’analisi della varianza. Il modello più semplice di analisi della varianza (ANOVA) è l’analisi della varianza ad un criterio di classificazione (detta anche “ad una via” con brutta traduzione dell’”one-way” inglese). Pagina 3 La scomposizione della varianza Fonte di variazione Devianza Gradi di libertà Varianze SS(a) p-1 MS(a) Entro gruppi SS(e) nT-p MS(e) TOTALE SS(y) nT-1 Tra gruppi La varianza totale viene scomposta in due quote. Pagina 4 Indicatori di tabelle bidimensionali Quando la variabile Y sia inserita in una matrice, cioé in una tabella a due dimensioni, occorrono due deponenti per identificare una specifica Y: Yij sta ad indicare l'elemento della riga i-esima e della colonna j-esima. L'ordine degli elementi è importante, perché: Y12 # Y21 I dati sono rappresentani con una colonna per ciascun livello del fattore analizzato, e i valori nei singoli soggetti come righe: Pagina 5 Doppia sommatoria p n ∑∑ X Y j =1 i =1 3 3 i =1 j =1 ij ij ∑ ∑ Y = (4 + 5 + 1) + (11+ 9 + 3) + (2 + 7 + 4) ij Pagina 6 Sommatoria di prodotti p p n n ∑ ∑ X Y = ∑ X ∑Y j =1 i =1 j ij j =1 j i =1 ij Pagina 7 La scomposizione della varianza 2 ( ) x − x ∑ i i (x i − x) (x ij − x) (x ij − x) = x ij − x + x i - x i = (x ij − x i ) + (x i − x ) Consideriamo il termine che viene elevato al quadrato e poi sommato per calcolare la devianza: se aggiungiamo e togliamo la media del gruppo i-esimo, compiamo un’operazione algebricamente neutra. Inserendo le parentesi, individuiamo due termini: uno decrive lo scostamento della singola osservazione dalla media del suo gruppo i-esimo, l’altro lo scostamento della media del gruppo i-esimo dalla grande media (media di tutti i valori). Pagina 8 La scomposizione della varianza (x − x i ) + (x i − x ) ij ∑∑ [(x i ∑∑ (x i ij 2 j − x ) + ∑∑ (x ij − x i ) + 2∑∑ (x i − x )(x ij − x i ) = 2 ij ] − x i ) + (x i − x ) 2 i j j i j = ∑ ni ⋅ (x i − x ) + ∑∑ (x ij − x i ) + 2∑∑ (x i − x )(x ij − x i ) = 2 2 i i j ∑ n ⋅ (x − x ) + ∑∑ (x i 2 i i i i j j − x i ) + 2∑ (x i − x )∑ (x ij − x i ) 2 ij i j Eleviamo al quadrato e sommiamo il binomio così ottenuto. Il prodotto dei due termini contiene la somma dello scostamento di un valore dalla sua media. Pagina 9 ∑ (x − x) = ∑ x − n ⋅ x = i = ∑ xi − n ⋅ i ∑x n i = ∑ xi − ∑ xi = 0 Si dimostra che la somma dello scostamento di un valore dalla sua media è nullo per definizione. Pagina 10 La scomposizione della varianza ∑∑ (x i − x ) = ∑ ni ⋅ (x i − x ) + ∑∑ (x ij − x i ) + 2∑ (x i − x )∑ (x ij − x i ) 2 ij j 2 2 i ∑ ∑ (x i i i j i j ij − x ) = ni ⋅ ∑ (x i − x ) + ∑∑ (x ij − x i ) 2 2 2 i i j Il termine quindi scompare, e la devianza risulta scomposta in due quote. Pagina 11 La scomposizione della varianza ∑ ∑ (x i i − x ) = ni ⋅ ∑ (x i − x ) + ∑∑ (x ij − x i ) 2 ij 2 2 i i j devianza TRA gruppi SS(a) Pagina 12 La scomposizione della varianza ∑ ∑ (x i i − x ) = ni ⋅ ∑ (x i − x ) + ∑∑ (x ij − x i ) 2 ij 2 2 i i j devianza ENTRO gruppi devianza residua SS(e) Pagina 13 La scomposizione della varianza: formule semplificate 2 2 ∑ x ij ∑∑ x ij j − i j SS(a) = ∑ n n i i T 2 ∑ x ij j SS(e) = ∑∑ x ij2 − ∑ i j i ni Per il calcolo esistono formule semplificate, che richiedono solo il calcolo della somma per ciascun gruppo delle x, del loro quadrato, e di un termine di correzione costituito dal rapporto tra il quadrato della somma delle x e la numerosità del gruppo. Pagina 14 La scomposizione della varianza Fonte di variazione Devianza Gradi di libertà Varianze SS(a) p-1 MS(a) Entro gruppi SS(e) nT-p MS(e) TOTALE SS(y) nT-1 Tra gruppi La devianza così calcolata andrà divisa per i gradi di libertà, che sono pari al numero di gruppi meno 1 (p-1) per la varianza tra gruppi, e al numero totale delle osservazioni meno il numero di gruppi per la varianza entro gruppi. Pagina 15 Il test d'ipotesi La statistica test è: F= MS(a) MS(e) che è distribuita come F di Fisher con (p-1) ed (nT-p) gradi di libertà Il rapporto tra la varianza tra gruppi e la varianza entro gruppi costituisce il test F, che segue la distribuzione F di Fisher. Pagina 16 La distribuzione F di Fisher Per la significatività, si possono consultare le apposite tabelle. Pagina 17 In alternativa, è possibile usare la funzione DISTRIB.F di Excel. Pagina 18 Med Sci Sports Exerc 2006;38:1367 Prendiamo come esempio uno studio che confronta gruppi di pazienti secondo il recupero della frequenza cardiaca dopo test da sforzo. Pagina 19 Inseriamo media, deviazione standard e numerosità di ciascun gruppo in un file Excel. Pagina 20 X ∑ x= ∑X i n i = x ⋅n [∑ X ] − 2 s² ⋅ (n − 1) = ∑ Xi2 i n [∑ x] = s² ⋅ (n − 1) + 2 ∑X 2 i n Da media e deviazione standard si può risalire alla somma delle X e dei quadrati delle x. Pagina 21 ∑X i = x ⋅ n = 1.81⋅ 34 = 61.54 Pagina 22 [∑ x] = s² ⋅ (n − 1) + 2 ∑X 2 i n 2 61.45 ] [ = 2.2308 + 34 = 113.6182 Pagina 23 [∑ X ] − 2 s² ⋅ (n − 1) = ∑ X SD = 2 i i n 2 [ 126.3 ] = 180.1799 − 98 = 17.407 17.407 = 0.423 (98 - 1) Le somme possono essere sommate tra gruppi, e dalle somme si può fare il percorso inverso, calcolando media e deviazione standard. Questo sistema può essere utile quando si disponga solo delle statistiche descrittive, come in dati pubblicati, per ottenere le statistiche descrittive di più gruppi uniti. Pagina 24 2 2 ∑ x ij ∑∑ x ij j i j = SS(a) = ∑ − nT i ni (126.3)² = 176.9738 − = 14.20 98 Calcolando poi il fattore di correzione per ciascun gruppo, e sommandolo tra i gruppi, disponiamo di tutti i termini per il calcolo della devianza tra gruppi. Pagina 25 2 ∑ x ij j = 2 SS(e) = ∑∑ x ij − ∑ i j i ni 180.1799 − 176.9738 = 3.2061 Analogamente per la devianza entro gruppi. Pagina 26 [∑ X ] − 2 ss(totale) = s² ⋅ (n − 1) = ∑ Xi2 2 [ 126.3 ] 180.1799 − = 17.407 i n = 98 Il calcolo della devianza totale risulta superfluo, visto che corrisponde alla somma delle due devianze calcolate, ma può essere utile verificare per l’esattezza del calcolo. Pagina 27 Fonte di variazione Tra gruppi Devianza SS(a) 14.20 Entro gruppi SS(e) 3.20 TOTALE SS(y) 17.40 Pagina 28 La scomposizione della varianza Fonte di variazione Devianza Gradi di libertà Varianze 14.20 2 7.10 Entro gruppi 3.20 95 0.033 TOTALE 17.40 97 Tra gruppi Dividendo per i gradi di libertà, si ottengono le varianze. Pagina 29 La scomposizione della varianza Fonte di variazione Devianza Gradi di libertà Varianze 14.20 2 7.10 Entro gruppi 3.20 95 0.033 TOTALE 17.40 97 F=210.4 Tra gruppi Il rapporto è il test F. Pagina 30 La significatività è molto alta, per cui possiamo rifiutare l’ipotesi nulla. Pagina 31 L'analisi della varianza (ANOVA) Il rifiuto dell'ipotesi nulla : H0 : µ1 = µ2 = µ3 = .... = µp implica che tutte le medie non differiscono tra loro Lo sperimentatore può però essere interessato al confronto a due a due dei valori. Pagina 32 Confronti multipli H0 : µ1 = µ2 = µ3 = .... = µp Se si vogliono effettuare confronti tra due o più medie: Confronti pre-pianificati Test a priori Confronti non pianificati "Data snooping" Tests a posteriori Per i confronti multipli esistono due tipi di test: i confronti a priori, pianificati nel disegno dello studio, e i confronti a posteriori, non pianificati ma generati dall’osservazione dei risultati. I due tipi di confronto richiedono diversi tipi di test. Pagina 33 Data snooping: cerca cerca, qualcosa risulterà significativo… Il livello di protezione del 5% fa sì che su 20 confronti effettuati, 1 risulterà significativo PER SOLO EFFETTO DEL CASO. Le considerazioni sui confronti multipli non si applicano ai confronti pre-definiti ma solo a quelli generati dall'osservazione dei risultati. Pagina 34 Confronti multipli Tests a priori Tests a posteriori Test di Dunnett Test di Scheffé Test di Bonferroni Test di Newman-Keuls ….. …… Test t di Student Pagina 35 Confronti multipli: contrasti lineari Si utilizzano coefficienti ci che per convenzione hanno somma 0 e somma dei valori assoluti 2: [1 0 -1] [1 -1/2 -1/2] Pagina 36 Test di Dunnett Il test di Dunnett si applica quando il confronto di interesse sia tra le singole medie ed una che costituisca il valore di riferimento. tD = c i y i + c i' y i' c i2 c i'2 MS(e) + ni ni' Attenzione, però: questo test vale solo per ipotesi formulate a priori!!! Pagina 37 tD = c i y i + c i' y i' c2 c2 MS(e) i + i' ni ni' = − 0.77 = 17.28 0.0377 ⋅ 0.0588 Pagina 38 Esistono tabelle apposite per il test di Dunnett, qui riportate. La statistica test eccede ampiamente il valore tabulato, per cui si può rifiutare l’ipotesi nulla. Pagina 39 Test di Scheffé Tra i test a posteriori, il più robusto, ma anche il più conservativo, è il test di Scheffé 2 ∑ c iyi F= i c2 MS(e)∑ i i ni F'=(p-1)F Pagina 40 2 ∑ c i yi (0.77)2 = F= i = 0.340 c i2 0.0337 ⋅ 0.0588 MS(e)∑ i ni Pagina 41 Test di Scheffé F'=(p-1)F(p-1),(nT-p)=3.090.2=6.180 Il livello di significatività del test di Scheffé è un multiplo della F di Fisher, dove il multiplo è il numero di gruppi meno 1. Pagina 42 Il test di Bonferroni (Dunn) tD = c 1y1 + c 2 y 2 + ..... + c p y p c 12 c 22 c p2 MS(e) + + .... + n n np 2 1 α (reale) = α (nominale) ⋅ p Il test di Bonferroni è un test a priori. La denominazione viene adottata anche per la correzione di Bonferroni, che è un metodo molto semplice, che viene utilizzato spesso sulle maggiori riviste scientifiche. Il metodo è molto semplice: dato il valore nominale della p ottenuta da un test di Student, questa va moltiplicata per il numero di confronti che si effettuano. Ad esempio, se la significatività è p=0.03 ma si effettuano tre confronti, la p diviene p=0.09, quindi non più significativa. Pagina 43 Quando le misure non hanno distribuzione gaussiana L’equivalente non parametrico dell’analisi della varianza è il test di Kruskal-Wallis 12 2 KW = n j R j − 3(N + 1) ∑ N(N + 1) Dove: R= (N + 1) 2 Se tutti i gruppi hanno almeno 5 casi, il test segue la distribuzione χ² con (k-1) gradi di libertà. Il test di Kruskal Wallis è l’equivalente non parametrico dell’analisi della varianza. I dati vengono trasformati in ranghi, non considerando il gruppo di appartenenza; i ranghi corrispondenti vengono poi ricollocati nel gruppo corrispondente, e sommati per ciascun gruppo. Pagina 44 12 2 12 KW = n j Rj − 3(N + 1) = ⋅ 968.125 − 3 ⋅ 16 = 0.406 ∑ N(N 1) 15 ⋅ 16 + Per il calcolo occorre sostituire i valori originali con i relativi ranghi, tenendo conto che in caso di valori uguali (ties) si usa come rango per tutti i valori la media dei ranghi corrispondenti. Pagina 45 Modelli dell’analisi della varianza • Gli esempi fin qui riportati costituiscono applicazioni di un modello fisso dell’analisi della varianza • Nel modello fisso i livelli del fattore incluso nell’esperimento (usualmente i trattamenti) sono appositamente scelti dallo sperimentatore, ed obiettivo dell’analisi è il confronto tra le medie. • E’ atteso che una ripetizione dell’esperimento porti alle stesse stime degli effetti α del fattore. Pagina 46 Modelli dell’analisi della varianza • Nel modello ad effetti casuali o random gli effetti α sono un campione casuale estratto da una popolazione di α con media 0 e varianza σ²α. • In altri termini lo sperimentatore non è espressamente interessato a determinati livelli del fattore in esame, ma li ha scelti come rappresentativi di un fattore di cui vuole stimare la variabilità. • Il calcolo di devianze e varianze è lo stesso che nel modello fisso. Pagina 47 Analisi della varianza a due criteri di classificazione Fattore B (colonne) Fattore A (righe) Totale 1 … j … c Totale 1 y11 … y1j …. y1c R1 … … … … … … … i Yi1 … Yij … yic Ri … … … … … … … r Yr1 … Yrj … yrc Rr C1 … Cj … Cc T Quando i fattori di cui si intende analizzare l’effetto sono due, si passa all’analisi della varianza a due criteri di classificazione. Pagina 48 Medians, interquartiles and 5th and 95th percentiles are given in Figs. 2. Running times were investigated by two-way ANOVA (factors: age and sex). Significance level was chosen as p<0.01. Int J Sports Med 2007;28:513 Pagina 49 La scomposizione della varianza Fonte di variazione Devianza Gradi di libertà Varianze Celle SS(yij) pq-1 Fattore A (sesso, righe) SS(a) (p-1) MS(a) Fattore B (età, colonne) SS(b) (q-1) MS(b) Interazione AxB SS(AB) (p1)(q-1) MS(ab) Errore SS(e) pq(n-1) MS(e) TOTALE SS(y) pqn-1 Nella tabella dell’analisi della varianza compaiono qui il fattore A, il fattore B, ma anche la loro interazione. Pagina 50 La scomposizione della varianza Fonte di variazione Gradi di libertà Varianze Celle pq-1 Fattore A (sesso, righe) (p-1) MS(a) F(p−1),pq(n−1) = MS(a) MS(e) Fattore B (età, colonne) (q-1) MS(b) F(q−1),pq(n−1) = MS(b) MS(e) Interazione AxB (p1)(q-1) MS(ab) Errore pq(n-1) MS(e) TOTALE pqn-1 F(p −1)(q-1),pq(n−1) = MS(ab) MS(e) Per ciscuno di questi fattori c’è un test F apposito, con i corrispondenti gradi di libertà. Pagina 51 Interazione quantitativa 40 35 30 25 20 15 10 5 0 A1 A2 L’interazione è presente quando, in presenza di un livello di un fattore, la differenza tra i due livelli dell’altro fattore è diversa che in presenza dell’altro livello del primo fattore. Quando la differenza è nell’entità ma non nella direzione della differenza, si parla di interazione quantitativa. Pagina 52 Interazione qualitativa 40 35 30 25 20 15 10 5 0 A1 A2 L’interazione qualitativa, nella quale differisce anche la direzione della differenza, è rarissima in biologia. Pagina 53 Disegno split-plot b1 b2 b3 a1 Blocco 1 . . Blocco n Y11 Y12 Y13 a2 Blocco 1 . . Blocco n Y21 Y22 Y23 Un disegno molto utilizzato è il disegno split-plot, che deriva dall’agricoltura. Nell’applicazione più comune il blocco è il paziente, diviso in due livelli secondo un fattore tra pazienti. Il fattore b, nell’applicazione più comune, è rappresentato dal fattore tempo. Pagina 54 Attivo Controllo tempo L’uso di questo disegno è comune quando l’interesse è per la differenza nell’andamento temporale secondo i livelli del fattore tra pazienti. Pagina 55 Statistical evaluation of the data was performed using a 2 x 2 (between-within) analysis of variance [time (pre and post-test) x group (PT and TRT)] Eur J Appl Physiol 2007;99:257 Pagina 56 La scomposizione della varianza Fonte di variazione Tra blocchi Gradi di libertà np-1 Varianze Fattore A (p-1) MS(a) Blocchi entro A p(n-1) MS(e1) Entro blocchi np(q-1) Fattore B (q-1) MS(b) Interazione AxB (p-1)(q-1) MS(ab) B per blocchi entro A p(n-1)(q-1) MS(e2) TOTALE pqn-1 F(p−1),p(n−1) = MS(a) MS(e1 ) F(q−1),p(n-1)(q−1) = MS(b) MS(e 2 ) F(p−1)(q-1),p(n−1)(q-1) = MS(ab) MS(e 2 ) L’analisi che si utilizza è l’analisi della varianza per misure ripetute, che è una tecnica statistica che tiene conto del fatto che misure ripetute sul medesimo soggetto non sono, ovviamente, indipendenti tra loro. L’ipotesi che l’andamento temporale sia diverso nei due gruppi è saggiata dal test per l’interazione. Pagina 57 Chest press Muscle power PT (power training) TRT (traditional resistance training) Baseline 10 weeks 235.27±57.90 322.18±82.25 233.89±62.35 264.78±59.16 Eur J Appl Physiol 2007;99:257 Pagina 58
Documenti analoghi
Esercitazioni ANOVA
costituita da materiale plastico, viene inizialmente estrusa a forma di tubo. In corrispondenza della filiera
dell’estrusore viene insufflata dell’aria; il tubo aumenta così di diametro e, nel cont...
Interpretazione del test F (distribuzione F di Fisher)
E’ su questa distribuzione di probabilità, studiata da Fisher, che si basa l’F- test utilizzato nella
ANOVA.
ANALISI VARIANZA ad un
fattore
Origine
variazione
SS
Tra gruppi