compito del 28 luglio svolto
Transcript
compito del 28 luglio svolto
Regole per l'esame ad ogni studente verranno consegnati con una memoria USB questo file, un glossario di termini R e alcuni file di dati. Alla fine dell'esame sempre con un memoria USB verranno ritirati i compiti.Svolgere gli esercizi usando R e trascrivere i risultati commenti e conclusioni in un documento di OpenOffice o altro programma di video scrittura in formato doc o rtf o txt salvando in un file con il proprio nome e cognome. In intestazione del file mettere nome cognome, numero matricola (opzionale), e data. Ricordarsi di includere nelle risposte sia i comandi di R usati che le i risultati ottenuti. Non includere pero' le prove, solo le operazioni decisive. Inoltre alcuni dei risultati di R sono molti lunghi dunque riportare solo la parte del risultato rilevante per la risposta. Una risposta non commentata e' una risposta carente se non nulla. Sempre commentare i risultati ed esplicitare sempre qual'è l'ipotesi zero e qual'è l'ipotesi alternativa nelle domande che richiedono un test. 1)Un laboratorio di analisi della qualità di confezioni di farmaci dopo diversi anni di esercizio ha un media di 2 lotti di pillole scartate su diverse migliaia processati in una settimana. Assumendo che le procedure che determinano la qualità dei lotti sia indipendenti tra di essi e che le procedure siano rimaste le stesse durante tutti gli anni di esercizio, qual'e' la probabilità di scartare in una settimana 11 lotti o più? R: i possibili eventi sono due ( da scartare o no) ma non sono disponibili le informazioni per impostare un modello binomiale ( n,k,p) ma solo la media dei successi (n*p) e il valore k di interesse (k>=11). Si dice inoltre che il numero n degli esperimenti e' grande pur essendo n*p piccolo (2) dunque p<<n ed e' applicabile un approssimazione poissoniana >1-ppois(10,2) 8.308224e-06 2)Caricare i dati sulle feci di sciacallo e genetta usando il comando preybiom=read.table('preybiom.txt') I dati consistono in 2196 tipi di organismi ritrovati in 953 feci di sciacallo o genetta provenienti da due siti, 1. Trovare il miglior modello lineare per predirre la biomassa (variabile 'biomasse') usando le variabili category (tipo di resto organico), sp (sciacallo o genetta), e saison (stagione). 2. Verificare con i grafici diagnostici gli assunti dei modelli lineari 3. Verificare che tutti gli stati della variabile stagione siano statisticamente diversi tra loro R1: provo il modello completo con interazioni con un primo giro di modelli semplificati: tutte le categorie additive e le categorie a due a due con interazione. I modelli sono confrontati con un test anova ( analisi della varianza) H0= il modello più semplice non differisce nella quantità di varianza residua dal modello più complesso più di quanto atteso per la differenza di numero di parametri HA=la differenza in varianza residua e' piu grande dell'atteso Il livello di significativita prescelto e' 0.01 > completo.lm<-lm(biomasse~ saison *category * sp, data=preybiom) > completoadd.lm<-lm(biomasse~category + sp+ saison, data=preybiom) > catsp.lm<-lm(biomasse~category * sp, data=preybiom) > spsaison.lm<-lm(biomasse~ sp*saison, data=preybiom) > catsaison.lm<-lm(biomasse~ category*saison, data=preybiom) > anova(completo.lm,spsaison.lm ) Analysis of Variance Table Model 1: biomasse ~ saison * category * sp Model 2: biomasse ~ sp * saison Res.Df RSS Df Sum of Sq F Pr(>F) 1 2103 45724 2 2186 62012 -83 -16288 9.0257 < 2.2e-16 *** --Signif. codes: 0 ʻ***ʼ 0.001 ʻ**ʼ 0.01 ʻ*ʼ 0.05 ʻ.ʼ 0.1 ʻ ʼ 1 > anova(completo.lm,catsaison.lm ) Analysis of Variance Table Model 1: biomasse ~ saison * category * sp Model 2: biomasse ~ category * saison Res.Df RSS Df Sum of Sq F Pr(>F) 1 2103 45724 2 2138 51735 -35 -6011 7.8988 < 2.2e-16 *** --Signif. codes: 0 ʻ***ʼ 0.001 ʻ**ʼ 0.01 ʻ*ʼ 0.05 ʻ.ʼ 0.1 ʻ ʼ 1 > anova(completo.lm,catsp.lm ) Analysis of Variance Table Model 1: biomasse ~ saison * category * sp Model 2: biomasse ~ category * sp Res.Df RSS Df Sum of Sq F Pr(>F) 1 2103 45724 2 2176 49346 -73 -3621 2.2816 8.037e-09 *** --Signif. codes: 0 ʻ***ʼ 0.001 ʻ**ʼ 0.01 ʻ*ʼ 0.05 ʻ.ʼ 0.1 ʻ ʼ 1 > anova(completo.lm,completoadd.lm ) Analysis of Variance Table Model 1: biomasse ~ saison * category * sp Model 2: biomasse ~ category + sp + saison Res.Df RSS Df Sum of Sq F Pr(>F) 1 2103 45724 2 2180 50803 -77 -5078 3.0334 < 2.2e-16 *** --Signif. Codes: 0 ʻ***ʼ 0.001 ʻ**ʼ 0.01 ʻ*ʼ 0.05 ʻ.ʼ 0.1 ʻ ʼ 1 Tutte i test anova di confronto fra modelli sono altamente significativi dunque il modello completo e' ritenuto l'unico accettabile e non proseguo nell'analisi degli altri modelli possibili Verifico gli assunti del modello lineare e osservo che gli scarti dall'atteso aumentano di intensità ( ma non di direzione ) all'aumentare del valore della variabile dipendente. Questo e' in contrasto con l'assunto di omogeneita di distribuzione degli scarti rispetto ai valori delle osservazioni e probabilmente va risolto trovando un trasformazioni non lineare che soddisfi questo requisito. Spesso le variabili biologiche di volume o peso vogliono trasformazioni logaritmiche 3)Caricare il dataset Titanic. I dati raccolti riguardano i passeggeri del Titanic e raccolgono informazioni sulla classe del biglietto, l'eta ( adulti o bambini), il genere e se sono sopravvissuti o no. Creare le seguenti tavole di contigenza Genere=Titanic[1,,2,]+Titanic[2,,2,]+Titanic[3,,2,] Classi =Titanic[,1,2,]+Titanic[,2,2,] Verificare l'indipendenza della variabile Sopravvivenza dalla variabile Genere e Classe. 4)Caricare il data set chickwts. I dati descrivono il peso di 71 pulcini della stessa cresciti sin dalla nascita con 6 mangimi diversi Costruire le seguenti due variabili : horsebean = chickwts [chickwts[,2]=='horsebean',1] casein = chickwts [chickwts[,2]=='casein',1] Verificare che esiste una differenza tra il mangime “casein” e “horsebean” con un livello di significatività del 0.01 5) Ci sono tre eventi A,B, C indipendenti con probabilità di avvenire rispettivamente di 1/2, 1/4, 1/8. Nota bene gli eventi non sono alternativi (la somma delle loro probabilità degli eventi e' maggiore di uno) 1. Qual'e' la probabilità che uno solo di questi eventi avvenga? P(singolo evento)=P(A U nonB U nonC)+P(A U nonB U nonC)+P(A U nonB U nonC) 2. Posto che uno solo degli eventi possibili sia avvenuto qual'e' la probabilità che l'unico eventi sia l'evento A ? P(A| singolo evento)
Documenti analoghi
svolgimento dell`esame prima sessione di luglio
Primo esame di luglio
1) caricare i dati sulle feci di sciacallo e genetta usando il comando data(preybiom).I dati
consistono in 2196 tipi di organismi ritrovati in 953 feci di sciacallo o genetta ...