ANOVA gerarchica (hierarchic or nested anova)
Transcript
ANOVA gerarchica (hierarchic or nested anova)
CAPITOLO 5 – ANALISI DELLA VARIANZA GERARCHICA E BIFATTORIALE 5.1. ANOVA gerarchica (hierarchic or nested anova) Si applica a quei casi in cui un gruppo è suddiviso in due o più sottogruppi scelti a caso. Se il gruppo iniziale è anch’esso costituito a caso si parla di “Modello II” altrimenti di “Modello misto”. Questo tipo di analisi si può considerare una estensione di quella monofattoriale in cui sia necessario introdurre una più fine analisi dei dati per poterli interpretare. In genetica quantitativa spesso si analizzano i caratteri di “n” animali che derivano da madri (Mi) diverse, ciascuna delle quali a sua volta è stata accoppiata con maschi diversi (Pj). La variabilità morfotipica osservata nei vari individui dipende quindi da tre livelli di variazione annidati uno dentro l'altro: 1°livello la variabilità genetica tra padri, 2° quella delle madri che si accoppiano con un determinato maschio, e 3° quella tra i discendenti di una stessa coppia. P1 Ma (na) Mb (nb) P2 Mc (nc) Md (nd) Me (ne) Mf (nf) In indagini faunistiche, quando si voglia considerare la distribuzione sul territorio di determinati animali (o piante), si scelgono alcune località rappresentative, all'interno delle quali si considerano delle aree di campionamento distribuite a caso. In questi due esempi possiamo trovarci in un modello II o misto a seconda che il primo livello sia scelto a caso oppure no, ovvero se i maschi o le località fanno parte di un campione casuale di un pool di possibili maschi o località, oppure se il nostro interesse era focalizzato in modo particolare solo su quei maschi o su quelle località. Analogamente in zootecnia quando, per esempio, tre metodologie di allevamento di conigli vengono messe a confronto sulla base dell'incremento ponderale osservato su un certo numero n di animali appartenenti a tre nidiate scelte a caso tra quelle allevate con ciascuna metodologia. (vedi Camussi pag 195) Anche questo tipo di analisi può essere rappresentato con una funzione lineare utilizzando la solita simbologia (lettere maiuscole latine, per fattori casuali, lettere greche per fattori fissi) per cui: Yijk = + Ai + Bj(i)+ ijk Yijk = + i + Bj(i)+ijk (Modello misto) (Modello II) 1 Ritornando all' esempio zootecnico: Fattore A (fisso) con i = 3 livelli: metodologie metodologia 1 metodologia 2 metodologia 3 Fattore B (casuale) con j = 3 livelli: nidiate 1 2 3 1 2 3 1 2 3 Repliche (casuale) con k = n livelli: animali n n n n n n n n n 1 Ricordiamo che in un modello II non siamo interessati a valutare le differenze tra le medie dei vari gruppi, ma a stimare qual è il contributo (in termini di %)dovuto alla presenza di effetti casuali nei vari livelli. 78 Dato che le metodologie sono un fattore sotto controllo delle sperimentatore, (fattore fisso) mentre le nidiate potrebbero essere state scelte a caso tra quelle presenti in un determinato allevamento, siamo in un modello misto dove il valore di una data osservazione, Yijk, ovvero: individuo k (da 1 a n), nel sottogruppo j (fattore B, nidiate, con 3 livelli) del gruppo i (fattore A, metodologie, 3 livelli)] dipende da: Yijk = + i + Bj(i)+ijk 1) valore della media parametrica 2) ai = deviazione fissa della media del gruppo i dalla media parametrica, dovuta al trattamento fisso subito dal gruppo i; 3) da una deviazione casuale Bj(i) tra i sottogruppi j (nidiate scelte a caso e pertanto fattore casuale), annidata negli i trattamenti.; 4) da una deviazione casuale i j k dell'individuo k nel sottogruppo j del gruppo i (variabilità individuale o errore) Si noti che gli ultimi tre termini dovrebbero essere distribuiti normalmente, con media 0 e varianza: 2A, 2 B A 2. Essendo nidiate tutte diverse tre loro, risulta che la variabilità tra le metodologie include anche la variabilità tra nidiate: fattore B gererchizzato nei livelli di A, B A o meglio Bj(i). Esempio di Modello II, a due livelli di annidamento della varianza con un ugual numero di osservazioni nei sottogruppi: Variazioni fenotipiche relative allo sviluppo delle ali (lunghezza) in 12 pupe (dello stesso sesso) di zanzare catturate a caso e suddivise in 3 differenti contenitori, ciascuno contenente 4 pupe. Su ogni pupa sono state fatte 2 misurazioni dello stesso parametro (lunghezza ali). Gruppi di pupe, a = 3 Pupe dentro ciascun contenitore (sottogruppo) b = 4 Misure ripetute (errore), n = 2 Cage 1 Cage 2 Cage 3 Gruppo , i = 3 1 2 3 4 1 (5) 2 (6) 3 (7) 4 (8) 1 (9) 2 (10) 3 (11) 4 (12) Sottogruppo, j = 4 58,5 77,8 84 70,1 69,8 56 50,7 63,8 56,6 77,8 69,9 62,1 Errore 59,5 80,9 83,6 68,3 69,8 54,5 49,3 65,8 57,5 79,2 69,2 64,5 Misurazioni, k = 2 La variabilità tra i 12 individui dipende da due livelli: 1) varianza tra gli individui che sono stati allevati in contenitori separati (varianza tra gruppi) dovuta ad una possibile differenza tra i microambienti dei diversi contenitori; 2) varianza tra individui di uno stesso contenitore (varianza dei sottogruppi dentro i gruppi); 3) varianza all’interno di ciascun individuo (varianza d’errore, dovuta alla misurazione ripetuta due volte). Per eseguire pertanto una corretta analisi della varianza presente tra i 12 individui occorre scorporare i due livelli di variabilità, attraverso una semplice analisi monofattoriale della varianza eseguita due volte utilizzando una differente ripartizione dei dati. Questa procedura si rende necessaria perché l’analisi dei dati fatta con excel non prevede l’anova gerarchica 2 . 2 Ovviamente i software di statistica fanno direttamente questo tipo di analisi impostando la giusta sintassi 79 STEP 1. Si considera la totalità degli individui ed il numero di misurazioni eseguite su ciascuno di essi, senza tenere conto della variabilità dovuta alla loro suddivisione in 3 gruppi (cage) ed in 4 sottogruppi (individui entro ciascun cage); a, gruppi = 12; n, misurazioni = 2. Gruppi Conteggio Somma Media devianza Individuo 1 Individuo 2 Individuo 3 Individuo 4 Individuo 5 Individuo 6 Individuo 7 Individuo 8 Individuo 9 Individuo 10 Individuo 11 Individuo 12 2 2 2 2 2 2 2 2 2 2 2 2 118 158,7 167,6 138,4 139,6 110,5 100 129,6 114,1 157 139,1 126,6 59 79,35 83,8 69,2 69,8 55,25 50 64,8 57,05 78,5 69,55 63,3 0,5 4,805 0,08 1,62 0 1,125 0,98 2 0,405 0,98 0,245 2,88 = Varianza 0,5 4,805 0,08 1,62 0 1,125 0,98 2 0,405 0,98 0,245 2,88 15,62 Si verifica se ci sono i prerequisiti per eseguire l’anova: Test di Cochran, Rn, p = 0,3076; Crit val 0,05 R 2,12 =0,541; varianze omogenee ANALISI VARIANZA 1 ad un fattore Origine variazione SS gdl MS 216,9412 Tra gruppi 2386,353 11 12 1,301667 In gruppi 15,62 Totale 2401,973 23 Valore di significatività F F crit 166,6642 0,000 2,7173286 Tra gruppi = varianza tra i 12 individui, che comunque confonde due fonti di variabilità: i) quella tra gli individui che formano un sottogruppo (le 4 larve immesse in un determinato contenitore) e ii) quella tra gli individui dei 3 differenti contenitori. In gruppi = stima della varianza tra le due misurazioni eseguite su ogni individuo. Commento: esiste una elevata significatività fenotipica (P<0,001) tra la lunghezza delle ali delle pupe allevate. STEP 2. Si considera ora i tre contenitori (a, gruppi = 3), ciascuno contenente quattro individui misurati due volte (n = 8) Cage 1 58,5 59,5 77,8 80,9 84 83,6 70,1 68,3 Cage 2 69,8 69,8 56 54,5 50,7 49,3 63,8 65,8 Cage 3 56,6 57,5 77,8 79,2 69,9 69,2 62,1 64,5 Gruppi Cage 1 Cage 2 Cage 3 Conteggio 8 8 8 Somma 582,7 479,7 536,8 Media Varianza 72,8375 105,94268 59,9625 69,625536 67,1 72,474286 Si verifica se ci sono i prerequisiti per eseguire l’anova: Test di Cochran, Rn, p = 0,4271; Crit val 0,05 R 8,3 = 0,653; varianze omogenee 80 ad un fattore ANALISI VARIANZA 2 Origine variaz. SS gdl MS F 332,8379 4,0255753 Tra gruppi 665,6758333 2 1736,2975 21 82,68083 In gruppi Totale 2401,973333 23 Valore signific. F crit 0,03312 3,466795 Tra gruppi = varianza dovuta alla possibile differenza tra gli individui dei tre differenti contenitori (gruppi), che ingloba comunque anche quella tra individui di uno stesso contenitore (sottogruppo). In gruppi = stima della varianza tra gli individui di un contenitore, che comunque include anche la varianza d’errore, cioè quella dovuta alle misurazioni ripetute su uno stesso individuo. Commento: esiste una significatività fenotipica tra la lunghezza delle ali delle pupe allevate nei tre differenti contenitori. ANOVA gerarchica Per ottenere un’analisi della variabilità osservata tra la lunghezza delle ali di tutti gli individui, bisogna avere un’idea della variabilità annidata nei due livelli, ovvero la variabilità dovuta ai tre differenti contenitori e quella tra gli individui di uno stesso contenitore Se consideriamo la variabilità 3 (SS) tra gruppi risultante dalla prima analisi della varianza (Anova 1) ci accorgiamo che essa include due fonti di variazione: quella tra gli individui che formano un sottogruppo (individui di un contenitore) e quella tra i contenitori. Sottraendo, pertanto, da questa variabilità quella dovuta alla variabilità tra i contenitori, cioè quella risultante da SS tra gruppi, della seconda analisi della varianza (Anova 2), otteniamo una nuova misura della variabilità esistente tra gli individui di un sottogruppo, scevra da altre influenze, detta “SS dei sottogruppi entro i gruppi” 4 . In questo caso: 2386,353 -665,676 = 1720,677 . Dividendo questa SS per i rispettivi gradi di libertà, che si ottengono da una analoga sottrazione, 11-2 = 9, otteniamo la varianza (MS) imputabile ai sottogruppi (individui di uno stesso contenitore) che è 191,186. Abbiamo ora tutte le informazioni necessarie per impostare la seguente tabella: Source of variation Between Groups (tra contenitori) Between Subgroups within groups (tra individui dentro i contenitori) Within Subgroups (errore tra le misurazioni di un singolo individuo) Total SS 665,6759 1720,6775 15,62 2401,9734 df 2 (a - 1) 9 a(b – 1) 12 ab(n - 1) 23 abn - 1 MS 332,8380 F 1,741 ns 191,1864 146,88 vhs 1,3017 Expected MS 2 2 2 + n B A + nb A + n B A 2 2 2 a = numero di gruppi = 3; b = numero di individui in ogni gruppo = 4; n = numero di misurazioni su ogni individuo = 2. Dalla composizione della varianza associata alle varie componenti dell’analisi possiamo vedere che: in un analisi gerarchica della varianza, ogni livello include anche la varianza di quello che lo precede, pertanto il test di F va fatto utilizando questo valore al denominatore. Ricordiamo che per eseguire operazioni aritmetiche sulla variabilità bisogna considerare la devianza (SS) in quanto la varianza non è una grandezza addittiva. 3 4 In alternativa, la varianza tra gli individui di un contenitore, ovvero la “SS dei sottogruppi entro i gruppi”, poteva essere calcolata sottraendo dalla SS in gruppi dell’ Anova 2, che stima della varianza tra gli individui di un contenitore ma include anche la varianza d’errore, cioè quella dovuta alle misurazioni ripetute su uno stesso individuo, la varianza d’errore che si ottiene dalla SS in gruppi dell’ Anova 1. In questo caso (1736,297 – 15,62) = 1720,6775. I gradi di liberta, df, associati a questa nuova variabilità si ottengono da analoga sottrazione, ovvero: 21 –12 = 9, da cui MS imputabile ai sottogruppi risulta ancora 191,186. 81 Tenendo conto dei seguenti valori critici di F: F.05 [ 2, 9 ] = 4,26 e F.001 [ 9, 12 ] = 7,48, possiamo concludere che: c’e una variabilità fenotipica altamente significativa tra gli individui, per quanto riguarda la lunghezza delle ali, che non dipende dai differenti contenitori (F= 1,741; ns = not significant) bensì da differenze osservate tra individui all'interno dei singoli contenitori (subgroups, F= 146,88; vhs = very high significant). NB. Se il valore di MS dei sottogruppi non fosse risultato significativo si avrebbe potuto sommarlo con quello dentro i sottogruppi e testare il valore di MS fra gruppi con questo nuovo valore ma, per adottare questa procedura, bisogna che siano soddisfatte alcune condizioni (Sokal pag. 284). Nel nostro esempio, essendo un modello II, non siamo interessati a fare nessun altra considerazione (non ha senso individuare gli individui che differiscono significativamente tra loro, perché non sapremmo darne alcuna spiegazione), salvo individuare le percentuali di variazione ascrivibili a ciascun fattore. Vediamo ora di trasformare i dati assoluti della varianza (MS), osservata nei diversi livelli (expected MS), in valori relativi (%): Componenti della varianza (Expected MS) 1) Entro i sottogruppi (errore tra le misurazioni di un singolo individuo, = 2) Tra sottogruppi entro i gruppi (tra individui dentro i contenitori): 2 + n 2 B A = 191,1864, da cui, 2 B A = (191,1864 - 2) / n , ovvero: (MSsubgr – MSwithin)/n94,9424 3) Tra gruppi (tra contenitori): 2 + n 2 B A + nb 2A = 332,838, da cui ovvero: (MSgroup–MSsubgr)/nb = (332,838 -191,1864)/ 2*4 = 17,7064 1,3017 (MS di errore da anova1) 2A = (332,838 - 2 + n 2 B A) / nb, Somma delle componenti della varianza = 1,3017 + 17,7064 = 113,9505 % MS Entro i sottogruppi = 1,3017 x 100/ 113,9505 = 1,14 %MS Tra sottogruppi entro i gruppi = 94,9424 x 100/ 113,9505 = 83,32 % MS Tra gruppi = 17,7064 x 100/ 113,9505 = 15,54 da cui: Risulta pertanto che c'è una elevata percentuale di variabilità (83,3%) dovuta agli individui presenti nei tre contenitori. Ovviamente, tutta questa procedura alquanto farraginosa sarebbe stata sviluppata in automatico se si avesse un software statistico. Ad esempio con SPSS: var BY cage ind (si indica la variabile, var = lunghezza ali; BY: i gruppi, cage; i sottogruppi, ind=individui) /RANDOM = cage ind (si indica che i gruppi ed i sottogruppi sono casuali) /DESIGN = cage ind(cage). (si indica il tipo di anova, ovvero annidata, con i gruppi ed i sottogruppi che sono annidati nei gruppi) Tests of Between-Subjects Effects Dependent Variable: VAR Source Intercept CAGE IND(CAGE) Hypothesis Error Hypothesis Error Hypothesis Error Type III Sum of Squares 106560,0 665,676 665,676 1720,678 1720,678 15,620 df 1 2 2 9 9 12 Mean Square 106560,0 332,838a 332,838 191,186b 191,186 1,302c F 320,156 Sig. ,003 1,741 ,230 146,878 ,000 a. MS(CAGE) b. MS(IND(CAGE)) c. MS(Error) 82 Casi più complessi, ma concettualmente identici a quello sopra riportato, sono quelli che prevedono più livelli di annidamento. Esempio di Modello misto, a tre livelli con un ugual numero di osservazioni nei sottogruppi: variazioni del contenuto di glicogeno nel fegato di 6 topi sottoposti a 3 differenti diete. Le misurazioni sono state ripetute due volte (n = 2) per ciascuno dei tre preparati di fegato (c = 3) eseguiti su ognuno dei due topi (b = 2) sottoposti ad una delle tre differenti diete alimentari (a = 3). Essendo il livello più alto di classificazione costituito da gruppi non casuali, ma sottoposti ad un trattamento fisso (modello I), l’intero modello (dove i sottogruppi devono essere, comunque, casuali) è di tipo misto. TAB. 1 Trattamenti a = 3 1 2 3 gruppo Ratti b = 2 1 2 1 2 sottogruppo 1 2 (3) (4) (5) (6) Preparazioni, sottosottogruppo 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 c=3 Misurazioni, n = 2 131 131 136 150 140 160 157 154 147 151 147 162 134 138 135 138 139 134 130 125 142 148 143 150 145 142 153 155 147 152 125 138 136 140 138 127 errore La variabilità del contenuto di glicogeno (tra gruppi), osservata nei 6 (2t*3d) topi e dovuta alle tre diete, dipende da tre livelli annidati l'uno dentro l'altro: tra gruppi = 3 diete; 1. variabilità tra i 2 topi di ciascun gruppo (tra sottogruppi dentro gruppi); 2. variabilità tra i 3 preparati di fegato di ciascun topo (tra sottosottogruppi dento sottogruppi ); 3. variabilità d’errore all’interno di ciascun preparato (dentro sottosottogruppi) dovuta alle 2 misure ripetute. (Le frecce indicano che la variabilità di un fattore include anche quella del fattore gerarchizzato) Il valore di una data osservazione, Yijrk, ovvero: misurazione k (da 1 a 2), nel sottosottogruppo r (fattore C, preparati, con 3 livelli) del sottogruppo j (fattore B, ratti, 2 livelli), del gruppo i (fattore A, diete, 3 livelli) dipende da: Yijrk = + i + Bj(i) + Cr(ji)ijrk Volendo svolgere questo esempio con l’analisi dei dati di excel, che non prevede analisi di varianza annidata, occorre eseguire tre analisi monofattoriali separate e poi mettere insieme i dati. Nella prima anova si analizza la varianza i 18 preparati, ognuno composto dalle due misurazioni ripetute (6topi * 3 preparati = 18). ANALISI VARIANZA 1 variazione SS 2949,222 Tra gruppi In gruppi 381 Totale 3330,222 gdl MS F signific. F crit 17 173,48366 8,1960784 2,51E-05 2,232546592 18 21,166667 35 Tra gruppi: varianza del contenuto di glicogeno tra i 18 preparati di fegato, che non discrimina tra tre fonti di variabilità: i) quella dovuta alle tre preparazioni in ciascun topo; ii) quella dovuta ai 2 topi sottoposti alla medesima dieta; iii) quella dovuta alle 3 diete. In gruppi: varianza d’errore dovuta alla misurazione ripetuta 2 volte 83 Nella seconda anova si analizza la varianza tra i 6 topi, ciascuno dei quali contiene 6 osservazioni (3 preparati*2misurazioni). STEP 2 p1,m1 p1,m2 p2,m1 p2,m2 p3,m1 p3,m2 TAB.2 1 131 130 131 125 136 142 Topi 3 157 145 154 142 147 153 2 150 148 140 143 160 150 4 151 155 147 147 162 152 5 134 125 138 138 135 136 6 138 140 139 138 134 127 ANALISI VARIANZA 2 Variazione SS gdl MS F Signific. F crit Tra gruppi 2355,222 5 471,04444 14,493675 3,03E-07 2,533553811 In gruppi 975 30 32,5 Totale 3330,222 35 Tra gruppi: varianza del contenuto di glicogeno tra i 6 topi, che non discrimina tra due fonti di variabilità: i) quella dovuta ai 2 topi sottoposti alla medesima dieta; ii) quella dovuta alle 3 diete. In gruppi: varianza all’interno di ciascun topo data dai 3 preparati (ingloba anche la varianza d’errore delle 2 misurazioni) Nella terza anova si analizza la varianza tra le 3 diete, ciascuna delle quali contiene 12 osservazioni (2topi*3 preparati*2misurazioni). TAB. 3 1 diete 2 t1,p1,m1 131 157 134 t1,p1,m2 t1,p2,m1 130 131 125 136 142 150 148 140 143 160 150 145 154 142 147 153 151 155 147 147 162 152 125 138 138 135 136 138 140 139 138 134 127 STEP 3 dieta t1,p2,m2 t1,p3,m1 t1,p3,m2 t2,p1,m1 t2,p1,m2 t2,p2,m1 t2,p2,m2 t2,p3,m1 t2,p3,m2 ANALISI VARIANZA 3 Variazione SS Tra gruppi 1557,555556 In gruppi 1772,666667 Totale 3330,222222 3 gdl 2 33 35 MS F Signific F crit 778,7778 14,49774 3,03E-05 3,284924 53,71717 Tra gruppi: varianza del contenuto di glicogeno tra le 3 diete, fattore gerarchizzante che ingloba la varianza dei livelli precedenti. In gruppi: varianza all’interno di ciascun gruppo di 2 topi (ingloba anche la varianza dovuta ai 3 preparati di ciascun individuo e quella d’errore dovuta alle 2 misurazioni) 84 ANOVA gerarchica Considerando le fonti di variabilità che sono incluse in ciascuna analisi, abbiamo che: se sottraiamo dalla SS tra gruppi della prima anova quella tra gruppi della seconda anova, otteniamo una nuova misura della variabilità all’interno dei preparati di ciascun topo (SS tra sottosottogruppi entro i sottogruppi) 5 , scevra da altre influenze: 2949,222 – 2355,222 = 594,00. I gradi di liberta, df, associati a questa nuova variabilità si ottengono da un analoga sottrazione: 17 – 5 = 12. se sottraiamo dalla SS tra gruppi della seconda anova quella tra gruppi della terza anova, otteniamo una nuova misura della variabilità all’interno di ciascun gruppo di 2 topi (SS tra sottogruppi entro i gruppi) 6 , scevra da altre influenze: 2355,222 – 1557,556 = 797,667. I gradi di liberta, df, associati a questa nuova variabilità si ottengono da un analoga sottrazione: 5 - 2 = 3. Otteniamo così la seguente tabella dove ogni livello, oltre alla varianza dovuta al proprio effetto, include la varianza dei sottostanti livelli Source of variation Between Groups* (da Anova 3) (tra diete) Between Subgroups within groups (tra topi dentro le diete: An2 – An3) Between Subsubgroups within subgroups (tra preparati dentro i topi: An1 – An2) Within Subsubgroups (errore tra le misurazioni di un singolo preparato) (An.1) Total SS 1557,556 797,667 594,000 381.000 3330,22 df 2 (a - 1) 3 a(b – 1) 12 ab(p -1) MS 778,778 F 2,93 ns 265,89 5,37 s Expected MS 2 2 + n C B + n B A + 2 ncb /a – 1 2 2 2 + n C B + n B A 49,50 2,34 s! + n 18 abp(n -1) 35 abpn – 1 21,167 2 2 2 C B 2 *La componente aggiunta (dovuta alle diete) 2/a – 1 può essere schematizzata con K2A da cui: 2 + n2C B + n2B A + ncb2A a = numero di gruppi = 3; b = numero di topi in ogni gruppo = 2; p = numero di preparati in ogni topo = 3; n = numero di misurazioni su ogni individuo = 2. Valori critici di F: F.05 [ 12, 18 ] = 2,34 (F.001 [ 12,18 ] = 3,37); F.05 [ 3, 12 ] = 3,49 ( F.001 [ 3, 12 ] = 5,95 ); F.05 [ 2, 3 ] = 9,55 Conclusione: c’e una variabilità significativa tra i topi entro i gruppi (le diete) e tra i preparati di ogni individuo, per quanto riguarda il contenuto di glucosio nel fegato, che non dipende però dalle differenti diete. 7 Questa analisi suggerisce che, aumentando il numero di topi (ed eventualmente lavorando su gruppi più omogenei) ed utilizzando preparazioni più standardizate, potrebbe essere che le diete siano significative (cosa che qui non si osserva per l'elevata variabilità dovuta a questi due fattori. Essendo il primo livello un fattore fisso, se la differenza tra diete fosse risultata significativa avremmo potuto indagare ulteriormente, utilizzando dei test di confronti multipli, ricordando che l' 5 In alternativa possiamo calcolare quest’ultima fonte di variabilità sottraendo dalla SS Within, risultante da Anova 2, quella osservata in Anova 1: 975,00 – 381,00 = 594,00 con df = 30 – 18 = 12 6 In alternativa possiamo calcolare quest’ultima fonte di variabilità sottraendo dalla SS Within, risultante da Anova 3, quella osservata in Anova 2: 1772,667 – 975,00 = 797,667 con df = 33 – 30 = 3 7 Se i valori di MS nei due sottogruppi non risultassero significativi si potrebbe sommarli insieme al valore dentro i sottogruppi e testare il valore di MS fra gruppi con questo nuovo valore ma, per adottare questa procedura, bisogna che siano soddisfatte alcune condizioni. 85 MS da utilizzare nelle formule è quello su cui è stato determinato il valore di F (ovvero MS tra sottogruppi dentro i gruppi). Per i fattori random non siamo, comunque, interessati a stabilire quali sono i livelli (i tropi e/o i preparati) responsabili delle differenze significative osservate. Potremmo, invece, essere interessati a stimare le componenti della varianza. Vediamo ora di trasformare i dati assoluti della varianza (MS), osservata nei fattori di raggruppamento sottostanti il primo (fattore fisso), in valori relativi: 1) MS Within subsubgroups (errore tra le misurazioni di un singolo preparato) = s2 = 21,1267 2) MS Between Subsubgroups within subgroups (tra preparati dentro i topi) = s2C B = MSsubsubgroups – MSwithin/n = (49,50 –21,167) / 2 = 14,16 3) MS Between Subgroups within groups (tra topi dentro diete) = s2B A = MSsubgroups MSsubsubgroups/np = (265,89 – 49,50) / 6 = 36,06 Somma delle componenti della varianza = 21,167 + 14,16 + 36,06 = 71,387 da cui: 5) % MS Within Subgroups = 21,167 x 100/ 71,89 = 29,651 (letture dentro i preparati) 6) % MS Between Subsubgroups within subgroups = 14,16 x 100/ 71,89 = 19,836 (preparati dentro i topi) 7) % MS Between Subgroups within groups = 36,06 x 100/ 71,89 = 50,513 (topi dentro diete). E’ quindi supportato con un valore di varianza relativa il fatto che la fonte maggiore di variabilità è quella dovuta alle differenze tra i topi, la quale non ci permette di evidenziare eventuali differenze del contenuto di glicogeno dovuto alle diete. Se anche il primo livello fosse stato un fattore random (Anova gerarchica di tipo II) allora bisognava includere anche questo tra le componenti della varianza. 4) Between groups (tra diete) = MSgroups-MSsubgroups/bnp = (778,778 – 265,89)/12 = 42,741 Somma delle componenti della varianza = 21,167 + 14,16 + 36,06 + 42,741 = 114,128 da cui: 5) 7) 8) MS Within Subgroups % = 21,167 x 100/ 114,27 = MS Between Subsubgroups within subgroups % = MS Between Subgroups within groups % = MS Between groups % = 18,547 12,407 31,596 37,450 Letture dentro i preparati Preparati dentro topi Topi dentro diete Diete Anche in questo caso valgono le implicazione associate ai due tipi di anova gerachica. Nel tipo misto essendo il fattore principale di raggruppamento sotto controllo dello sperimentatore, le conclusioni non sono generalizzabili. Se il contenuto di glicogeno nel fegato dei topi sottoposti alle 3 diete fosse risultato significativamente differente, avremmo potuto concludere che quelle diete, e solo quelle, hanno influenza sull’assunzione di glicogeno. Diversamente, se fossero state tre diete a scelte a caso tra le tante possibili, anova gerarchica di tipo II, avremmo potuto concludere che il tipo di dieta, in generale, ha una influenza significativa sull’assunzione di glicogeno. L’utilizzo di software statistici appropriati avrebbe semplificato notevolmente questa procedura di calcolo. Utilizzando SPSS, ad esempio, era sufficiente adottare la seguente impostazione: Univariate Analysis of Variance THREE NESTED var BY trattam rats prepar /RANDOM = rats prepar /METHOD = SSTYPE(3) /INTERCEPT = INCLUDE /CRITERIA = ALPHA(.05) /DESIGN = trattam rats(trattam) prepar(rats(trattam)) . 86 Tests of Between-Subjects Effects Dependent Variable: VAR Source SPSS Random = Rats e Prepar; fixed = Trattam Type III SS df MS Intercept Hypothesis Error Hypothesis Error Hypothesis Error Hypothesis Error TRATTAM RATS(TRATTAM) PREPAR(RATS(TRATTAM)) a 728177,78 1 797,66667 3 1557,5556 2 797,66667 3 797,66667 3 594 12 594 12 381 18 MS(RATS(TRATTAM)) 728177,78 265,89a 778,778 265,89a 265,89 49,50b 49,50 21,167c F 2738,65 Sig. 1,54E05 2,93 0,197 5,37 0,0141 2,34 0,00503 b MS(PREPAR(RATS(TRATTAM))) c MS(Error) Queste procedure si riferiscono a gruppi caratterizzati da uguale numerosità. L’uso di gruppi sbilanciati crea ulteriori problemi sia di calcolo sia perché non esiste un test appropriato per svolgere questa analisi. Il problema sta nel fatto che la componente della varianza dovuta ai sottogruppi2B A ha coefficienti diversi, n ≠ n’nel caso che essa faccia parte della varianza tra gruppi o della varianza tra sottogruppi dentro i gruppi, per cui non c’è un appropriato valore di MS da utilizzare al denominatore dell’F-test per testare la MS tra gruppi Source Between groups (anova 2) SS df MS Between subgroups within group F ? Expected MS 2 + n’2B A + (nb)02A 2 + n 2B A Per risolvere questo problema bisogna utilizzare il metodo di approssimazione proposto da Satterthwaite che ci consente di calcolare dei particolari valori per i coefficienti dei componenti della varianza, che vengono usati per trovare un nuovo valore di MSsottogruppi con cui testare MSgruppi. Questo metodo ha comunque delle limitazioni per cui è utilizzabile solo se sono soddisfatte due particolari condizioni. Qui non ci addentreremo oltre nello sviluppare questo tipo di analisi, rimandando chi fosse interessato alla consultazione di testi specialistici (es.: Sokal e Rohlf, 1995, pg. 292-308). Pertanto, quando è possibile, è sempre bene evitare questi inconvenienti e lavorare su gruppi bilanciati. I modelli misti si usano spesso quando si voglia testare dell'ipotesi utilizzando degli "accorgimenti" sperimentali. Esempio 8 , se riteniamo che la percentuale di alghe marine filamentose dipenda dalla densità di ricci di mare presenti nello stesso ambiente, potremmo pensare ad un esperimento dove si tenga sotto controllo la densità di ricci, ovvero in un certo numero di aree, esempio 4 aree di 3-4 m2, rimuoviamo tutti i ricci, in altre 4 ne lasciamo una percentuale ridotta (33%), in altre una maggiore (66%) ed infine individuiamo 4 aree controllo dove lasciamo la concentrazione naturale (100%). Il numero di alghe potrebbe essere monitorato in 5 quadrati individuati all'interno di ciascuna area. In questo caso i trattamenti sono un fattore fisso con 4 livelli, le aree sono un fattore random, anch'esso con 4 livelli ed i 5 quadrati presenti in ogni area 8 Esempio tratto da: “Experimental design” (Quinn& Keough, p.209) 87 rappresentano le unità sperimentali (che forniranno anche la varianza d'errore). Dato che le 4 aree assegnate casualmente ad un dato trattamento sono differenti da quelle di un altro trattamento è ovvio che la variabilità tra trattamenti include al suo interno anche quella dovuta alle aree, secondo fattore gerarchizzato (e quindi necessariamente random) nel primo (fattore gerarchizante in questo caso fisso perché le densità dei ricci sono sotto il controllo dello sperimentatore. Se non avessimo previsto questa suddivisione dei trattamenti in sottogruppi (aree) non saremmo in grado di valutare se l'eventuale differenza nel numero delle alghe corrisponde ad un effetto del trattamento o sia imputabile a fattori ambientali (correnti, microhabitat) che sfuggono al nostro controllo. (In seguito vedremo come questo problema possa essere affrontato con un altro modello statistico: Anova a blocchi completamente randomizati). Area 1, T1 Area 4, T4 Area 1, T3 Area 1, T2 Area 2, T2 Area 2, T3 Area 1, T4 Area 3, T2 Area 4, T1 Area 3, T1 Area 3, T4 Area 4, T2 Area 3, T3 Area 4, T3 Area 2, T4 Area 2, T1 Area 1- 4, T1 0% 0% 0% 0% 0% Area 1- 4, T2 33% 33% 33% 33% 33% Area 1- 4, T3 66% 66% 66% 66% 66% Area 1- 4, T4 100% 100% 100% 100% 100% 88 Trattamenti a = 4; Aree (sottogruppo) b = 4; Quadrati (misure ripetute) n = 5 Aree Quadrati media varianza Trattamenti T4 = 100% T3 = 66% T2 = 33% T1 = 0% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0 0 0 0 23 0 5 0 0 0 43 40 46 65 0 30 0 0 0 0 17 79 0 56 5 0 8 63 44 55 5 82 0 0 0 0 0 32 0 3 8 0 69 0 41 61 0 70 6 0 4 13 56 51 0 0 0 0 29 71 29 74 0 27 2 0 1 0 46 22 0 41 0 0 39 5 11 55 6 83 1,6 0 1 2,6 28,4 37 1 20 2,6 0 37,6 35,8 34,2 62 2,2 58 6,8 0 3 33,8 509 895 5 707 14 0 492 1057 212 63 9,2 772 La variabilità tra le 16 aree dipende da due fattori: 1) varianza tra aree che appartengono ai diversi trattamenti (varianza tra gruppi) 2) varianza tra aree che appartengono allo stesso trattamento (varianza dei sottogruppi dentro i gruppi) La variabilità dentro ciascuna area dipende dalle misure ripetute, ovvero i 5 quadrati (varianza d’errore) ANOVA 1. Si considera la totalità delle aree ed il numero di osservazioni eseguite su ciascuna di esse, senza tenere conto della variabilità dovuta ai 4 trattamenti: a, gruppi = 16; n, misurazioni = 5 ANALISI VARIANZA Origine della variazione Tra gruppi In gruppi Totale SS 35671,09 19110,4 54781,49 gdl 15 64 79 MS F 2378,073 7,964074 298,6 Valore di significatività 1,05E-09 F crit 1,825587 Sig. < 0,05 altamente significativa Test di Cochran, Rn, p = 0,22118 Crit val 0,05 R 5,16 = 0,2419 varianze omogenee (anche se al limite) Tra gruppi = Varianza tra le 16 aree, che comunque confonde due fonti di variabilità: i) quella tra le aree che hanno subito uno stesso trattamento e ii) quella tra le aree che hanno subito trattamenti diversi. In gruppi = stima della varianza tra le osservazioni eseguite sui 5 quadrati di un'area. Commento: esiste una differenza significativa tra il numero di alghe nelle 16 aree. 89 ANOVA 2. Si considera ora il campione formato da quattro gruppi (trattamenti), a = 4, ciascuno contenente 20 quadrati, n = 20 100% 66% 33% 0% 0 23 0 46 0 17 5 44 0 0 8 41 6 56 0 29 2 46 0 11 0 0 0 65 0 79 0 55 0 32 0 61 0 51 0 74 0 22 0 55 0 5 43 0 0 0 8 5 0 0 69 0 4 0 29 0 1 0 39 6 0 0 40 30 0 56 63 82 0 3 0 70 13 0 71 27 0 41 5 83 media 1,3 21,55 19 39,2 varianza 10,12 630,7 660 823 Test di Cochran, Rn, p = 0,38752 Crit val 0,05 R 20,4 = 0,42991 varianze omogenee ANALISI VARIANZA Origine della variazione Tra gruppi In gruppi Totale SS 14429,138 40352,35 54781,488 gdl 3 76 79 MS F 4809,713 9,058658 530,952 Valore di significatività 3,36E-05 F crit 2,724946 Sig. < 0,05 altamente significativa Tra gruppi = Varianza dovuta alla possibile differenza tra i quattro trattamenti (ingloba la varianza dei successivi raggruppamenti) In gruppi = stima della varianza tra le aree che hanno subito lo stesso trattamento, che include anche la varianza d'errore, cioè quella dovuta alle osservazioni ripetute su 5 quadrati. Commento: esiste una differenza significativa tra il numero di alghe nelle aree soggette ai 4 trattamenti. Questa conclusione sembrerebbe abbastanza plausibile vista la differenza che esiste tra la densità di alghe dove non sono stati rimossi i ricci di mare (100%, media = 1,3) e quella dove sono stati completamette eliminati (0% = 39,2). Andiamo ora a considerare il fatto che i trattamenti, ovvero la rimozione dei ricci di mare ed il controllo (assenza di rimozione) sono stati eseguiti ciascuno su 4 aree diverse. Questo disegno sperimentale è motivato dal fatto che se ci fosse un'unica area per trattamento, ci sarebbe rimasto il dubbio che il risultato osservato potesse dipendere dalla particolari condizioni ambientali di quell’area e non dal trattamento. In altre parole se l’area 2 dove non è stata eseguita la rimozione dei ricci di mare (T4) fosse stata l’unica area ad aver subito quel particolare trattamento non 90 avremmo mai potuto sapere se l’assenza di alghe filamentose fosse dovuta ai ricci di mare (la nostra ipotesi di ricerca che qui vogliamo testare) oppure a particolari condizioni (correnti marine, nutrienti, illuminazione o altri predatori) che ne hanno impedito la proliferazione. Il fatto che comunque esistono altre 3 aree sottoposte al medesimo trattamento, ci da un buon margine di sicurezza, perché è abbastanza improbabile che nel selezionare a caso le aree destinate alla rimozione dei ricci di mare si sia scelto sempre aree non idonee alla crescita algale, così come è altrettanto improbabile che le aree dove sono stati completamente rimossi i ricci di mare coincidano tutte con aree particolarmente idonee alla crescita algale. Avere più aree associate ad un unico trattamento fa si che nella variabilità dovuta ai trattamenti ci sia inclusa anche la variabilità dovuta alle diverse aree sottoposte al medesimo trattamento. La corretta analisi statistica che deve essere quindi utilizzata per analizzare i dati di questo disegno sperimentale è una anova gerarchica, che può essere ora svolta utilizzando le informazioni delle due anlisi monofattoriali della varianza. Consideriamo, quindi, la variabilità tra gruppi risultante dalla prima analisi della varianza (Anova 1) che include due fonti di variazione: quella tra le aree che hanno subito un dato trattamento e quella tra i trattamenti. Sottraendo, pertanto, da questa variabilità quella dovuta alla variabilità tra i trattamenti (cioè, quella risultante da SS tra gruppi di Anova 2), otteniamo una nuova misura della variabilità esistente tra le aree che hanno subito un dato trattamento, scevra da altre influenze, detta “SS tra sottogruppi dentro i gruppi” . In questo caso: 35671,088 - 14429,14 = 21241,95. I gradi di liberta, df, associati a questa nuova variabilità si ottengono da analoga sottrazione, ovvero: 15 – 3 = 12. Otteniamo così la seguente tabella: ANALISI VARIANZA ANNIDATA Origine della variazione Tra gruppi (tra trattamenti) Tra sottogruppi dentro i gruppi (tra le aree di un trattamento) In gruppi (tra le misurazioni di un area, quadrati) Totale SS 14429,14 21241,95 gdl 3 12 MS 4809,713 1770,163 19110,4 64 298,6 54781,49 79 F 2,717 5,928 Valore di significatività 0,091 0,000 F crit 3,489 1,9065 Anova 2 Anova 1 - Anova 2 Anova 1 Conclusione: esiste una differenza significativa tra le aree che hanno subito lo stesso trattamento, ma non fra trattamenti, ovvero la densità delle alghe filamentose marine non dipende da quella dei ricci di mare, ma da altri fattori ambientali, che qui possiamo solo ipotizzare, in quanto non abbiamo rilevato alcun parametro ambientale. Se non avessimo usato questo modello statistico (nested ANOVA, mixed model) saremmo arrivati ad una conclusione errata, ovvero che c'era un effetto sulla crescita algale dovuto alla densità dei ricci di mare. Infatti, in assenza di sottogruppi, ovvero delle distinzione tra aree sottoposte al medesimo trattamento. avremmo eseguito un F test utilizzando al denominatore la varianza d'errore, cioè quella tra i quadrati da cui F = 9,058658; sig = 3,3624E-05 (vedi anova 2). La differenza tra le densità di alghe marine osservata nelle diverse aree dipende invece da particolari condizioni ambientali tra le aree 91 Con un software statistico dedicato, come SPSS, l’analisi sarebbe stata eseguita con un'unica procedura, dopo aver ovviamente impostato il corretto disegno SPSS Tests of Between-Subjects Effects var BY treat patch (var = numero di alghe; patch = aree) /RANDOM = patch /DESIGN = treat patch(treat). Dependent Variable: ALGAE Source Type III SS df MS F Sig. Intercept Hypothesis 32845,51 1 32845,51 18,555083 0,001018 Error 21241,95 12 1770,1625a TREAT Hypothesis 14429,14 3 4809,713 2,7171022 0,091262 a Error 21241,95 12 1770,1625 PATCH (TREAT) Hypothesis 21241,95 12 1770,163 5,9282066 8,32E-07 b Error 19110,4 64 298,6 a MS(TREAT * PATCH) b MS(Error) Per altri esempi vedere foglio excel “ex lesson 3”. 92 93
Documenti analoghi
Interpretazione del test F (distribuzione F di Fisher)
L’analisi della varianza è un metodo sviluppato da Fisher, che è fondamentale per l’interpretazione
statistica di molti dati biologici ed è alla base di molti disegni sperimentali. L’analisi della ...