svolgimento dell`esame prima sessione di luglio
Transcript
svolgimento dell`esame prima sessione di luglio
Primo esame di luglio 1) caricare i dati sulle feci di sciacallo e genetta usando il comando data(preybiom).I dati consistono in 2196 tipi di organismi ritrovati in 953 feci di sciacallo o genetta provenienti da due siti,Costruire un modello lineare additivo stretto per predirre la biomassa (variabile 'biomasse') usando le variabili category (tipo di resto organico), sp (sciacallo o genetta), e saison (stagione). 1. Verif icare se alcuni stati della variabile category sono ridondanti 2. quale stagioni tende a produrre oggetti nelle feci con biomassa maggiore 3. chi tra sciacallo o genetta tende a lasciare resti con biomassa maggiore R: 1.1) per verif icare se alcuni livelli o stati della variabile categorica 'category' sono ridondanti dunque hanno effetti nel modello non statisticamente diversi uso il Tukey HSD test. Il test riporta i risultati per ogni paragone a coppia a coppia e tiene conto del problema dei testi molteplici (i p value sono già calibrati alla molteplicità di test ). Scelgo una soglia di 0.05 e noto che molti dei confronti a coppie sono maggiori di tale valore >TukeyHSD(aov(lm(biomasse~category+sp+saison, data=preybiom))) $category diff lwr upr p adj ind-dech 1.79356529 -2.3410367 5.9281672 0.9351982 ins-dech 0.37401940 -1.3379671 2.0860059 0.9995621 mam-dech 3.38446267 1.6719809 5.0969444 0.0000000 mol-dech -2.29492522 -4.9054711 0.3156207 0.1424024 oisauv-dech 1.13587197 -0.9857989 3.2575428 0.7982801 oisdom-dech 8.26942730 6.2336900 10.3051646 0.0000000 rept-dech -2.34004096 -6.1047792 1.4246972 0.6214529 vege-dech 1.37577849 -0.5133058 3.2648627 0.3850445 vegn-dech -0.69817342 -2.4199516 1.0236048 0.9572595 ins-ind -1.41954589 -5.2993345 2.4602427 0.9782341 mam-ind 1.59089738 -2.2891098 5.4709045 0.9541579 mol-ind -4.08849051 -8.4401352 0.2631542 0.0866381 oisauv-ind -0.65769332 -4.7348674 3.4194808 0.9999654 oisdom-ind 6.47586201 2.4427382 10.5089859 0.0000176 rept-ind -4.13360625 -9.2614826 0.9942701 0.2411126 vege-ind -0.41778681 -4.3789105 3.5433369 0.9999991 vegn-ind -2.49173871 -6.3758579 1.3923805 0.5765170 mam-ins 3.01044326 2.0668227 3.9540639 0.0000000 mol-ins -2.66894462 -4.8536130 -0.4842762 0.0044228 oisauv-ins 0.76185257 -0.8063672 2.3300724 0.8765837 oisdom-ins 7.89540790 6.4455623 9.3452535 0.0000000 rept-ins -2.71406036 -6.1970303 0.7689096 0.2865711 vege-ins 1.00175908 -0.2337430 2.2372612 0.2336490 vegn-ins -1.07219283 -2.0325814 -0.1118042 0.0151071 mol-mam -5.67938789 -7.8644444 -3.4943314 0.0000000 oisauv-mam -2.24859069 -3.8173511 -0.6798303 0.0002548 oisdom-mam 4.88496464 3.4345342 6.3353951 0.0000000 rept-mam -5.72450363 -9.2077171 -2.2412902 0.0000094 vege-mam -2.00868418 -3.2448725 -0.7724959 0.0000128 vegn-mam -4.08263609 -5.0439073 -3.1213649 0.0000000 oisauv-mol 3.43079719 0.9121933 5.9494011 0.0007025 oisdom-mol 10.56435252 8.1177008 13.0110042 0.0000000 rept-mol -0.04511574 -4.0470068 3.9567753 1.0000000 vege-mol 3.67070370 1.3446518 5.9967556 0.0000275 vegn-mol 1.59675180 -0.5955982 3.7891018 0.3849392 oisdom-oisauv 7.13355533 5.2171415 9.0499691 0.0000000 rept-oisauv -3.47591293 -7.1774895 0.2256637 0.0870079 vege-oisauv 0.23990651 -1.5199386 1.9997516 0.9999919 vegn-oisauv rept-oisdom vege-oisdom vegn-oisdom vege-rept vegn-rept vegn-vege -1.83404540 -3.4129487 -0.2551421 0.0090637 -10.60946826 -14.2624682 -6.9564683 0.0000000 -6.89364882 -8.5488811 -5.2384165 0.0000000 -8.96760073 -10.4289956 -7.5062059 0.0000000 3.71581944 0.1424707 7.2891682 0.0338561 1.64186754 -1.8459258 5.1296609 0.8960691 -2.07395191 -3.3229867 -0.8249171 0.0000071 >summary(lm(biomasse~category+sp+saison, data=preybiom)) Call: lm(formula = biomasse ~ category + sp + saison, data = preybiom) Residuals: Min 1Q Median 3Q Max -11.9597 -2.8301 -0.8367 1.4536 34.5763 Coefficients: (Intercept) categoryind categoryins categorymam categorymol categoryoisauv categoryoisdom categoryrept categoryvege categoryvegn spG saisonHD saisonHP saisonS saisonSD saisonSP --Signif. codes: Estimate Std. Error t value Pr(>|t|) 5.4418 0.6147 8.852 < 2e-16 *** 2.0673 1.3073 1.581 0.113946 0.8844 0.5426 1.630 0.103260 3.9050 0.5419 7.206 7.93e-13 *** -1.9449 0.8254 -2.356 0.018546 * 1.7438 0.6720 2.595 0.009520 ** 7.7732 0.6460 12.034 < 2e-16 *** -0.9738 1.1950 -0.815 0.415197 1.6061 0.6009 2.673 0.007573 ** -0.4398 0.5443 -0.808 0.419235 -2.9593 0.2313 -12.793 < 2e-16 *** -1.4518 0.4788 -3.032 0.002459 ** -1.0562 0.4725 -2.235 0.025495 * -1.3917 0.5827 -2.388 0.017005 * -1.6103 0.4505 -3.575 0.000358 *** -2.0613 0.4668 -4.415 1.06e-05 *** 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.827 on 2180 degrees of freedom Multiple R-squared: 0.2675, Adjusted R-squared: 0.2625 F-statistic: 53.07 on 15 and 2180 DF, p-value: < 2.2e-16 1.2)Tutti i parametri di stagione hanno coefficiente negativo dunque lo stato usato nell'intercetta ha valori medi di biomassa più grandi. Dunque lo stagione H produce tipi di agglomerati nelle feci con biomasse più importanti 1.3) Tutti i parametri di stagione hanno coefficiente negativo dunque lo stato usato nell'intercetta ha valori medi di biomassa più grandi. Dunque lo sciacallo produce tipi di agglomerati nelle feci con biomasse più importanti. Il risultato non sorprende essendo lo sciacallo più grande della genetta. 2) E’ noto che la percentuale di persone che hanno i capelli rossi in Piemonte, in Sardegna e nelle Marche `e rispettivamente del 5%, 1% e 2%. Le tre regioni hanno rispettivamente 4.5, 2, 1.5 milioni di abitanti. Calcolare la probabilità' che la regione di origine di una persona, scelta a caso tra gli abitanti delle tre regioni, sia il Piemonte, supposto che : a) abbia i capelli rossi b) non abbia i capelli rossi R: Posto che R e NR sono quelli con capelli rossi e no e P,S,M sono le 3 regioni noi vogliamo sapere il valore di P(P ∩ R) ( probabilità dell'evento intersezione “essere piemontese” ed “avere i capelli rossi”) e P(P ∩ NR) sapendo che : P(P)=4,5/8=0.5625 P(S)=2/8=0.25 P(M)=1,5/8=0.1875 P(R | P)=0.05 P(R | S)=0.01 P(R | M)= 0.02 R e NR sono due eventi complementari Da questi dati posso dire che: La probabilità dell'intersezione dei due eventi P e R e' uguale al prodotto della probabilità di P e quella di R sapendo che l'evento P e' vero (probabilità condizionale). P(P ∩ R)=P(P)*P(R | P)=0.5625*0.05=0.028 P(P ∩ NR)=P(P)*P(NR | P)=P(P)*(1-P(R | P))=0.5625*0.95=0.534 3) In un centro di monitoraggio di qualità delle acque si trova un campione contaminato al giorno. Ogni campione trovato contaminato va sottoposto ad ulteriori controlli. Il gestori decide di tagliare le spese e comprare ogni mese 30 kit di controllo ulteriore. Qual'e' la probabilità che i kit finiscano prima della fine del mese? Se np uguale a 1 in un giorno e' uguale a 30 in 30 giorni allora k>30 eventi e lambda=30 1-ppois(30,30)=0.4516485 4)Una coppia vorrebbe avere una bambina, quanti figli deve pensare di fare per avere una probabilità superiore del 0.99 di avere almeno una bambina, assumendo equiprobabilità di avere figli maschi e femmine. R: Si definiscono le variabili. Provo valori di n da 1 a 20 >k=0;n=1:20; p=0.5 > min(which(1-dbinom(k,n,p)>0.99)) 7 1-dbinom(k,n,p) mi da tutte le probabilità di avere almeno una femmina data una certa dimensione di famiglia da 1 a 20 1-dbinom(k,n,p)>0.99 definisce quali soluzioni soddisfano il criterio la funzione min identif ica la soluzione meno impegnativa 5) In una popolazione omogenea ci si aspetta che la distribuzione dei genotipi segua l'equilibrio di hardy weiberg in cui data una frequenza di due alleli p e q i tre possibili genotipi (pp, pq, qq) abbiano le frequenze p 2 , 2pq e q2. Usando il test del chi quadro vedere se una popolazione e' omogenea se osservo 36 persone con gruppo sanguigno AA, 47 AB e 23 BB. Le frequenze degli alleli sono 2*36+ 47 A, 2*23+47 B. R: > A=2*36+ 47 > B=2*23+47 > A=A/(A+B) > B=1-A >B [1] 0.4386792 > p=c(A^2,2*A*B,B^2) >p [1] 0.3150810 0.4924795 0.1924395 > x=c(36,47,23) H0=gli osservati sono stati generati da un processo che segue il modello su cui ho calcolati gli attesi HA= il modello non spiega gli osservati > chisq.test(x=x,p=p, rescale.p=TRUE) Chi-squared test for given probabilities data: x X-squared = 1.0529, df = 2, p-value = 0.5907 Usando una soglia di 0.05 possiamo dire che non ci sono deviazioni sensibili dal modello di hardy-weimberg (0.5907>>0.05) P.S. Notare che i gradi di libertà (df) sono erronei, anche se nell'esame non sarebbe conteggiato come errore. Il programma assume che le probabilità p sono state ottenute a prescindere dai dati osservati, mentre in realtà l'atteso ha usato l'osservazione per stimare due parametri ( la frequenza di A e B) Dunque 3 osservazione – 2 parametri = 1 grado
Documenti analoghi
compito del 28 luglio svolto
Verifico gli assunti del modello lineare e osservo che gli scarti dall'atteso
aumentano di intensità ( ma non di direzione ) all'aumentare del valore della
variabile dipendente.
Questo e' in contr...