errori.tex typeset - Studenti di Fisica
Transcript
errori.tex typeset - Studenti di Fisica
C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 Richiami sulla teoria degli errori Negli ultimi anni ho potuto sperimentare che una percentuale non indifferente di studenti dimostra ancora delle lacune di comprensione relative agli errori di misura e alla loro trattazione. Per questo sono solito iniziare le lezioni del modulo con un breve riepilogo sull’argomento degli errori, di cui questa aspira ad essere la versione scritta. Il primo argomento è una rivista (che non ha la pretesa di essere esaustiva) dei vari tipi di errore sperimentale: vorrei che fosse chiaro che lo scopo non è imparare mnemonicamente una lista (non si tratta degli affluenti di destra e di sinistra del Po!) ma ragionare sui diversi meccanismi fisici che ne stanno alla base e trarne conclusioni finalizzate alla pratica. Nella trattazione che segue facciamo astrazione da un fenomeno che è sempre associato all’operazione di misura, ossia dal fatto che la misura perturba la grandezza da misurare. Questo inconveniente si presenta come tecnicamente minimizzabile nella fisica classica, mentre diventa un elemento intrinseco e ineliminabile nella fisica microscopica (principio di indeterminazione). Nel caso delle nostre misure elettriche, tuttavia, se ne tiene conto nella maggior parte delle situazioni semplicemente considerando gli equivalenti circuitali degli apparecchi di misura, e quindi, ad esempio, tenendo conto che un amperometro reale avrà, rispetto a uno ideale, una resistenza in serie, mentre un voltmetro ne avrà una in parallelo. La prima suddivisione che viene generalmente fatta riguardo agli errori è fra errori a priori e errori a posteriori. Anche noi seguiremo questo schema. 1. Errori a priori Si chiamano errori a priori tutti quegli errori che derivano dai limiti di precisione e di sensibilità degli strumenti di misura e che, avendo a disposizione l’informazione completa sugli apparecchi, si possono valutare già prima di eseguire la misura stessa (anche se in certi casi, ad esempio per gli errori di sensibilità, può essere conveniente una procedura di valutazione durante la misura). I tipi fondamentali di errori a priori sono gli errori di taratura, lettura e sensibilità. I confini fra le categorie, soprattutto fra le ultime due, non sempre sono nettissimi, ma d’altra parte il nostro scopo è cercar di capire, non classificare. 1.1 Errori di taratura In questa categoria rientrano gli errori derivanti dal fatto che lo strumento di misura, per limiti intrinseci di precisione, fornisce una risposta che non corrisponde esattamente alla grandezza misurata. Se ad esempio g è, in unità opportune, il valore che verrebbe ipoteticamente misurato da uno strumento perfetto, uno strumento reale darà come risultato m = f (g). In alcuni casi il comportamento dello strumento reale si può considerare in buona approssimazione ancora lineare rispetto alla grandezza da misurare, per cui avremo Made with Macintosh 1 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 m = (1 + α)g + β, dove la costante α, positiva o negativa, dà l’errore di scala e β quello che si chiama normalmente errore di offset. L’errore di taratura di uno strumento è dato di norma dal costruttore del medesimo: nel caso si tratti di un errore di scala, potrà essere un errore percentuale sulla misura (come avviene nel caso dell’oscilloscopio). Nel caso invece l’errore derivi da una non linearità, viene fornito generalmente come errore il massimo scarto dello strumento lungo la scala, quindi un errore assoluto. A volte questo errore è dato come percentuale del fondo scala dello strumento, ma questo non deve trarre in inganno: si tratta di un errore che va applicato ad ogni misura effettuata sulla scala e quindi in sostanza un errore assoluto. Ad esempio per i voltmetri analogici l’errore di taratura è espresso attraverso la “classe” dello strumento (classe 1 = errore pari all’1% del fondo scala; se il f.s. è 15 V l’errore sarà 0.15 V per qualsiasi misura sulla scala), mentre per il divisore l’errore di taratura è dato in p.p.m. del f.s. (e, come noto, dipende dalla decade non nulla più significativa): se ad esempio è 10 p.p.m. significa che ogni misura del rapporto di partizione, che ovviamente ha f.s. pari a 1, avrà un errore assoluto di 10−5 . m f.s. m a) b) f.s. M g g Fig. 1.1 Esempi di andamenti m(g) (errori esagerati per una migliore visualizzazione). In a) l’errore è prevalentementeØ di scala Ø e m = (1 + α)g per cui in genere il costruttore darà un errore percentuale sulla ∆m α Ø Ø misura m = 1+α ' |α| ≤ x (ossia il costruttore fornisce la percentuale massima di cui, in più o in meno, la misura può scartare dal valore vero; se si conoscesse il valore effettivo di α potremmo correggere le misure e l’errore non sussisterebbe più). In b) la non linearità della scala contribuisce sostanzialmente all’errore. In questo caso è norma considerare il massimo scarto fra misura e grandezza (M in figura 1.1) |M | e dare questo come errore assoluto o, più spesso, fornire la grandezza adimensionale l = come errore f.s. relativo del f.s., con la convenzione che a qualsiasi misura sulla scala si applica uno stesso errore assoluto ∆m = l · f.s. = |M |. Un caso interessante di errore di taratura è quello degli oscilloscopi che usiamo in Made with Macintosh 2 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 laboratorio, per cui il fornitore dichiara un errore di taratura del 3% sia per l’asse verticale (tensioni) che orizzontale (tempi). Questo significa che la causa principale di errore non è data dalla non linearità, ma da un errore di scala, e avremo m = (1 + α)g + β con |α| ≤ 0.03. (1.1) Il termine β nelle misure fatte con l’oscilloscopio è legato al fatto che non esiste un punto di 0 fissato né sull’asse orizzontale né sul verticale, dato che la posizione del fascio può essere spostata con le apposite manopole di position. D’altra parte le misure si prendono sempre per differenza fra due punti sulle scale, per cui non gioca alcun ruolo: m2 − m1 = (1 + α)(g2 − g1 ) (1.2) Se poi si considera il rapporto fra due misure prese per differenza abbiamo: m4 − m3 (1 + α)(g4 − g3 ) g4 − g3 = = m2 − m1 (1 + α)(g2 − g1 ) g2 − g1 (1.3) Quindi nel rapporto di due misure è corretto non considerare l’errore di taratura. Questo vale naturalmente solo se le misure sono prese con la stessa scala, dato che per ogni posizione delle manopole che regolano le portate vengono inseriti nel circuito componenti fisicamente diversi, per cui non c’è nessun motivo per cui il valore di α resti lo stesso. Inoltre le misure sull’asse y dovrebbero essere prese con lo stesso canale d’ingresso dell’oscilloscopio, mentre invece sono normalmente usati entrambi i canali. In pratica si può (e, almeno una volta durante il corso, si dovrebbe) verificare che se mandiamo uno stesso segnale ai due canali messi sulla stessa scala, una volta sovrapposte le tracce agendo sulle manopole position, queste restano coincidenti, entro quanto l’occhio riesce ad apprezzare, anche se si varia l’ampiezza del segnale. Per questo si considera accettabile eliminare gli errori di taratura per rapporti di misure prese con la stessa scala su canali diversi. 1.2 Errori di lettura Questi errori derivano dai limiti di precisione con cui è possibile leggere la misura sulla scala di uno strumento analogico o dall’approssimazione del numero presentato da uno strumento digitale. Nel caso di strumenti analogici, l’errore di lettura dipende anche dall’acutezza visiva dello sperimentatore, ma in genere lo si considera pari a metà della divisione più piccola della scala nel punto di misura. Tuttavia, va considerato a parte il caso in cui non si sta leggendo la scala di uno strumento di misura (ad es. un voltmetro analogico) ma Made with Macintosh 3 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 impostando un valore preciso di una grandezza su una scala, come ad esempio quando si imposta l’angolazione della sonda di Hall per mezzo del goniometro a essa associato. In questo caso non si tratta di giudicare la posizione di una lancetta fra due tacche di una scala, ma l’allineamento di una tacca mobile con una fissa. In questa operazione la sensibilità dell’occhio è molto maggiore: pensando al nonio, artificio che sfrutta questa proprietà, arriviamo al risultato che, se lo spessore delle tacche è sufficientemente più piccolo della distanza fra esse, l’errore nel valutare l’allineamento si può realisticamente stimare a 1/10 di divisione. In uno strumento digitale che converte in numero (in unità opportune) una grandezza analogica esiste un errore intrinseco di troncamento, pari a 1/2 dell’ultima cifra del display. Se ad esempio la lettura, nelle unità del caso, fosse 1.234, per un apparecchio perfetto significherebbe che la misura è compresa fra 1.2335 e 1.2345, sempre nelle stesse unità. In pratica, quasi sempre i convertitori analogico–digitali (ADC) contenuti negli strumenti commettono errori di conversione più grandi, pari ad alcune unità della cifra meno significativa che viene presentata, e l’errore di troncamento si può pensare compreso nell’errore di conversione dato dal costruttore. Sempre in relazione all’errore di troncamento, va segnalato che a volte gli studenti lo applicano, come errore di lettura, anche ai valori impostati su campioni a decadi o sul divisore di tensione. In questo caso considerare l’errore di troncamento è del tutto sbagliato: infatti se per esempio ho impostato su un campione di resistenza il valore 123 Ω non esiste nessun motivo per attribuire un errore di ±0.5 Ω. In questo caso non stiamo convertendo in numero approssimato una grandezza continua, ma abbiamo costruito noi un valore a partire da campioni discreti e tale valore è affetto solo dall’errore di taratura dei campioni stessi; se ogni decade ha un limite di precisione dello 0.02%, l’errore sul valore impostato sarà ±0.025 Ω. Il fatto che il nostro campione non permetta variazioni più fini di 1 Ω potrà eventualmente renderlo poco adatto in operazioni come l’azzeramento di un ponte, ma non incide direttamente sulla precisione dei valori impostati. Alcuni studenti hanno notato che nelle dispense del prof. Poggi,1 a pag. 116, si parla di errori di lettura nella misura potenziometrica, ma si tratta di un equivoco: quel punto si riferisce non al divisore, ma a un potenziometro della ditta Leeds & Northrup che veniva usato precedentemente, la cui regolazione fine era effettuata tramite una manopola a corsa continua. Pertanto, gli errori di lettura lı̀ indicati non si applicano alla misura col divisore. 1.3 Errori di sensibilità L’errore di sensibilità corrisponde alla minima variazione della grandezza misurata che lo strumento è in grado di percepire. In alcuni casi, per esempio quando si sta usando il fondo scala più piccolo con cui si può misurare la quantità data, l’errore di sensibilità viene a coincidere con l’errore di lettura. In laboratorio capitano però un certo numero di situazioni in cui l’errore di sensibilità 1 Stiamo parlando di Esperimenti di elettricità e magnetismo del prof. Giacomo Poggi. Da ora in poi ci riferiremo a questo testo semplicemente come Dispense. Made with Macintosh 4 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 gioca un ruolo diverso: questo avviene quando stiamo aggiustando il valore di un certo numero di campioni C1 , Cn in modo che si verifichi una determinata condizione rivelata da uno strumento X. Esempi sono l’azzeramento dei ponti in alternata e le misure potenziometriche; in pratica lo strumento X è quasi sempre un rivelatore di zero. In questo caso il limite di sensibilità dello strumento X farà sı̀ che la condizione cercata, teoricamente “puntiforme”, si mantenga per un intervallo finito di valori dei campioni C1 , Cn . Gli intervalli entro cui la condizione rilevata da X è verificata vengono presi come errori di sensibilità sui valori dei campioni: in pratica, il limite di sensibilità deriva dallo strumento X ma ci serve poter attribuire l’incertezza che ne risulta ai valori dei campioni che stiamo variando. circuito di misura C1 1 2 3 4 5 . 6 C2 1 2 3 4 5 . 6 C3 1 2 3 4 5 . 6 X Fig. 1.2 Nel circuito si variano i valori dei campioni a decadi C1 , C2 e C3 in modo da ottenere una determinata lettura (0) sullo strumento X. Conoscendo il circuito (per le quantità da misurare, almeno l’ordine di grandezza) e le caratteristiche degli strumenti è possibile in generale dare una stima a priori dell’errore di sensibilità ma molto spesso si preferisce ricavare sperimentalmente detti errori durante la misura. Questo si fa variando uno alla volta i campioni C1 , Cn rispetto alla posizione in cui lo strumento X verifica al meglio la condizione, fino ad osservare una variazione nella lettura di X. In ciò va considerato un punto molto importante: quasi sempre nel circuito di misura sono presenti altri elementi che giocano anch’essi un ruolo sulla situazione finale in cui si verifica la condizione cercata, ma per ottenere la condizione è necessario poter variare finemente solo un certo numero di campioni indipendenti (che potremmo considerare, con analogia alla meccanica, i “gradi di libertà” del nostro circuito). L’errore di sensibilità dovrà essere valutato solo sul numero di campioni che sono, in questo senso, strettamente necessari per il raggiungimento della condizione. Il discorso si spiega meglio con esempi concreti: nei ponti in corrente alternata l’azzeramento (o comunque il minimo) del null detector si ottiene variando finemente due dei campioni con cui sono costituiti i rami noti. Quindi l’errore di sensibilità andrà valutato solo su due elementi. Se, ad esempio, abbiamo montato un ponte di De Sauty serie o parallelo, secondo uno degli schemi a pag. 225 delle Dispense, e l’abbiamo azzerato variando finemente i campioni R e C, sarà su questi soltanto che dovremo valutare l’errore di sensibilità, mentre sarebbe grossolanamente sbagliato valutarlo anche su R1 e R2 . Sarebbe formalmente corretto, anche se non pratico e quindi sconsigliabile, valutare l’errore Made with Macintosh 5 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 variando R e una delle resistenze R1 , R2 , o anche C insieme a R1 o R2 , ma non variando R1 e R2 , in quanto la sola variazione di questi campioni non permette l’azzeramento del ponte. Una situazione analoga si verifica nelle misure con il divisore di tensione: qui l’azzeramento del rivelatore di zero dipende da un unico parametro e quindi l’errore di sensibilità sarà valutato su un solo campione. È interessante notare come nella taratura del divisore si mantenga il medesimo fisso su un rapporto pre-impostato r0 , mentre si ottiene l’azzeramento variando la tensione del generatore che lo alimenta e/o la resistenza di un reostato posto in serie; purtuttavia la valutazione finale di sensibilità viene fatta variando il rapporto di divisione r0 , una volta ottenuto l’azzeramento. La procedura è perfettamente corretta, dato che il sistema ha “un grado di libertà”, ed è l’unica che ci permette di ottenere un errore di sensibilità utilizzabile nell’elaborazione successiva. Nella valutazione dell’errore di sensibilità di ciascun campione possono capitare due situazioni–limite: a) Per far uscire lo strumento X dalla condizione cercata occorre variare il valore del campione, di solito in entrambe le direzioni, di una quantità superiore alla variazione più piccola possibile (che, per campioni a decadi, corrisponde ovviamente a un passo della decade meno significativa). Avremo quindi un intervallo (ca , cb ) in cui lo strumento X si mantiene fisso. In questo caso è inutile ricorrere a considerazioni più complicate, ma basta considerare il punto medio dell’intervallo, (cb + ca )/2 come valore migliore del campione e la semilarghezza (cb − ca )/2 come errore di sensibilità ad esso associato. b) Può capitare invece che il campione in questione non consenta variazioni abbastanza fini, per cui nessuna impostazione riesce a portare lo strumento X esattamente nella condizione voluta. In questo caso, se possiamo considerare l’andamento della lettura di X come funzione lineare del valore del campione C nell’intorno dell’azzeramento (cosa che avviene nelle misure con il divisore), possiamo valutare un valore c corrispondente alla verifica della condizione per interpolazione. Consideriamo (riferendoci per concretezza al divisore), che con un valore ca del campione lo strumento X dia la lettura xa e che incrementando del minimo passo possibile ∆cmin si ottenga la lettura xb , mentre la condizione voluta è l’azzeramento. Se stiamo lavorando “a cavallo” dell’azzeramento, xa e xb avranno segni opposti, ad esempio xa < 0 e xb > 0. La relazione lineare fra la lettura x e il valore c del campione è: x − xa c − ca = xb − xa ∆cmin (1.4) Il valore c corrispondente a x = 0 sarà allora: c = ca − Made with Macintosh xa ∆cmin xb − xa 6 (1.5) C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 (si tenga presente che xb e xa hanno sempre segno opposto, per cui risulta, come aspettato, ca < c < ca +∆cmin ). Per la valutazione dell’errore di sensibilità, dobbiamo trovare la variazione ≤c del campione che corrisponde alla minima variazione ∆xmin percepibile sulla scala dello strumento. Per la linearità: ≤c ∆cmin = ∆xmin |xb − xa | (1.6) da cui si ricava l’errore di sensibilità per il campione: ≤c = ∆xmin ∆cmin |xb − xa | (1.7) Questo il procedimento generale; in pratica nella misura con il divisore, se si sfruttano tutte le decadi come è conveniente fare, in queste condizioni l’errore di taratura, dovuto al limite di linearità del dispositivo, è senz’altro più grande di ∆cmin , per cui l’interpolazione diventa superflua e l’errore di sensibilità trascurabile rispetto a quello di taratura. Come già rilevato sopra, questo tipo di procedura è applicabile solo quando esista una relazione lineare, almeno per piccoli spostamenti, fra il valore della misura x e quello dei parametri. Ciò non avviene ad esempio nel caso dei ponti in corrente alternata, in cui il rivelatore di zero risponde al modulo della tensione alternata applicata e quindi ha un andamento tutt’altro che lineare nell’intorno del minimo. In questo caso non si potrebbe far altro che scegliere il valore del campione che corrisponde alla minima lettura sullo strumento e stimare l’errore di sensibilità pari a ∆cmin /2. 2. Errori a posteriori Il concetto di errore a posteriori2 nasce dalla constatazione sperimentale che in determinati casi, ripetendo una stessa misura in quelle che si ritengono essere sempre le medesime condizioni, si ottiene ogni volta un risultato diverso. Nel campo della fisica classica, e quindi nelle misure del laboratorio, il fenomeno viene interpretato come causato da un certo numero di fluttuazioni nelle condizioni, che alterano in modo imprevedibile il risultato delle misure; nella fisica microscopica esistono poi fenomeni, come il decadimento nucleare, il cui decorso è intrinsecamente probabilistico.3 Comunque, prima di addentrarci nell’argomento, vale la pena di premettere due cose: 2 3 Lo scopo di quanto segue è di perfezionare le informazioni sull’errore statistico che sono state date nei corsi precedenti di laboratorio, approfondendo alcuni punti fondamentali, senza avere minimamente la pretesa di costituire una trattazione esaustiva dell’argomento, per la quale si rimanda ai corsi ancora successivi. Se nel corso di laboratorio eseguissimo anche misure di rumore, potremmo già imbatterci in effetti probabilistici, di natura quantistica. Made with Macintosh 7 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 a) una condizione necessaria per poter operare un trattamento degli errori a posteriori è che gli scarti fra misura e misura siano ben maggiori del limite di sensibilità degli strumenti. Eventuali errori di taratura che intervengano nella misura, purché le fluttuazioni siano sufficientemente piccole (rispetto al valore della misura e/o al fondoscala dello strumento), si possono pensare uguali in ogni misura, per cui l’errore a posteriori si aggiunge a quello di taratura. b) Uno sperimentatore che si trovi nella situazione per cui le misure successive in condizioni macroscopicamente identiche hanno una dispersione molto maggiore del limite di sensibilità dello strumento dovrà prima di tutto assicurarsi che l’effetto non derivi da una disfunzione del medesimo o da uno o più “parametri ambientali” che stanno variando fra una misura e l’altra. Un esempio tipico può essere quello di misure prese mentre la temperatura sta cambiando. Non esiste una procedura applicabile in ogni caso che possa far discriminare fra le due situazioni: un elemento a favore di parametri non controllati è sicuramente un eventuale trend temporale deciso delle misure, ossia il fatto che le misure successive tendano a salire o a scendere. Questa problematica sussiste soprattutto quando, come capita nell’attività di ricerca, si lavori con strumenti e/o in situazioni nuove mai sperimentate prima: nelle misure del nostro laboratorio sappiamo invece se dobbiamo aspettarci fluttuazioni statistiche e di che tipo. Prima di poter trattare gli errori a posteriori dal punto di vista dello sperimentatore, è necessario richiamare alcuni concetti fondamentali di statistica. Ci limiteremo a quanto indispensabile per gli scopi che ci profiggiamo. 2.1 Definizioni Prima di tutto alcune definizioni: chiameremo esperimento casuale una procedura che dà un risultato in generale diverso a ogni iterazione e comunque non prevedibile, e variabile casuale il risultato di un tale esperimento. Una variabile casuale si distingue da una normale variabile (il cui valore può essere noto, incognito, ricavabile da un’equazione, ecc.) in quanto il suo valore risulta da un esperimento casuale e non può essere altrimenti conosciuto. Per contraddistinguere questo tipo di variabili useremo nelle formule una grafia particolare, ad esempio x, mentre le normali variabili algebriche saranno espresse in corsivo: x. A seconda dello specifico esperimento casuale i valori prodotti apparterranno a un diverso insieme S, xi ∈ S. S potrà essere ad esempio l’insieme dei numeri reali, o un intervallo finito, o un insieme discreto di valori (per il lancio di un dado S = {1, 2, 3, 4, 5, 6}). Se applichiamo una funzione H a una variabile casuale x avremo una funzione di variabile casuale H(x) (ad esempio H(x) = x2 ). Consideriamo un sottoinsieme E ⊂ S e diciamo che nell’esperimento casuale si verifica l’evento ≤ corrispondente a E se x ∈ E (ad es., se S è l’insieme dei reali, E può essere un intervallo (a, b), per il lancio di un dado potrebbe essere E = {1, 3, 5}). Definiamo la probabilità dell’evento ≤ nel modo seguente: ripetiamo l’esperimento n volte e contiamo il Made with Macintosh 8 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 numero di volte n≤ in cui l’evento si verifica. Definiamo4 n≤ n→∞ n P (≤) = lim (2.1) . 2.2 Alcune proprietà di probabilità Sia S è l’insieme dei possibili risultati di un esperimento casuale. Avremo 2.2.1 P (S) = 1. 2.2.2 Se A, B sono due sottoinsiemi di S, definiamo P (AB) la probabilità che si verifichino contemporaneamente A e B, ossia che il risultato x dell’esperimento casuale risulti x ∈ A e contemporaneamente x ∈ B. Definiamo A e B mutuamente disgiunti se P (AB) = 0. Come esempio banale, per il lancio di un dado, gli eventi per cui i risultati sono diversi sono tutti disgiunti fra loro. 2.2.3 Se A e B sono mutuamente disgiunti, P (A + B), ossia la probabilità che il risultato dell’esperimento casuale appartenga ad A o a B risulta P (A + B) = P (A) + P (B). Ad esempio, la probabilità che lanciando un dado si ottenga 1 o 2 vale 1/6 + 1/6 = 1/3. 2.2.4 Definizione di probabilità condizionale. Si definisce P (A|B), ossia probabilità di A sotto la condizione B, mediante l’espressione P (A|B) = P (AB)/P (B). La probabilità condizionale P (A|B) rappresenta la probabilità che si verifichi A negli eventi per cui si conosce già che è verificato B. Come esempio semplice consideriamo la probabilità che il lancio di un dado produca un risultato minore di 4 sotto la condizione che (ossia fra gli eventi in cui) il risultato è pari. In questo caso P (AB) = 1/6 dato che l’unica possibilità è data dal risultato 2. P (B), ossia la probabilità di un risultato pari, vale P (B) = 1/2. Conseguentemente dalla formula data P (A|B) = 1/3. Allo stesso risultato si giunge considerando che gli eventi pari sono {2, 4, 6}, fra loro equiprobabili, e che l’evento che ci interessa è 2. 2.2.5 Definizione di indipendenza. Si definiscono gli eventi A e B mutuamente indipendenti se e solo se P (A|B) = P (A), ossia se la probabilità di trovare A sotto la condizione B è uguale a quella di trovare A in generale. Come utile corollario, se A e B sono mutuamente indipendenti P (AB) = P (A) · P (B). Quest’ultima espressione è la forma in cui è maggiormente noto il concetto di indipendenza, ed è largamente usata nei problemi di calcolo combinatorio.5 A chiarificazione del concetto, prendiamo 4 5 Questa è la definizione empirica di probabilità sulla base della frequenza. Esistono approcci più assiomatici alla probabilità che non si basano su questa definizione, ma essa è perfettamente adeguata per i nostri scopi. A prima vista può apparire che la nostra definizione di indipendenza mutua sia in qualche modo “asimMade with Macintosh 9 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 l’esempio dato in 2.2.4: in questo caso palesemente A (risultato < 4) e B (risultato pari) risultano non indipendenti fra loro, come risulta anche intuitivamente vero; corrispondentemente P (A) = 1/2 e P (A|B) = 1/3. Consideriamo invece un esperimento casuale in cui si lanciano due dadi, uno bianco e uno nero (ossia, fra loro riconoscibili). Consideriamo come evento A quello per cui il dado bianco dà risultato 2 e come evento B quello in cui il dado nero dà risultato pari. Possiamo indicare gli eventi corrispondenti con le possibili coppie (xb , xn ) dove xb e xn sono rispettivamente i risultati del dado bianco e di quello nero; le coppie diverse sono 36, tutte equiprobabili e si tratta evidentemente di eventi disgiunti. Le coppie in cui xb = 2 e xn è pari sono (2, 2), (2, 4) e (2, 6). Risulta quindi P (AB) = 3 · (1/36) = 1/12. Inoltre le coppie per cui xn è pari sono in tutto 18, per cui P (B) = 1/2. Abbiamo allora P (A|B) = 1/6 = P (A), a conferma del fatto intuitivo che i risultati dei due dadi sono fra loro indipendenti. 2.3 Funzione di distribuzione e densità di probabilità Se consideriamo un esperimento casuale che produca risultati in un insieme S di numeri reali, non possiamo in generale attribuire una probabilità a un singolo valore prodotto: ad esempio, se l’esperimento produce risultati nell’intervallo [0, 1) non ha senso parlare di probabilità che il risultato sia 0.5. Questo perché, dato che trattiamo di un insieme continuo, la (2.1) dà risultato nullo se l’evento considerato corrisponde all’ottenimento di un qualsiasi valore singolo. Ha invece senso considerare la probabilità che la nostra variabile casuale x risulti minore di un valore prefissato x, P (x < x). Per un dato esperimento casuale, questa probabilità definisce una funzione di F (x) che viene chiamata funzione di distribuzione: F (x) = P (x < x) (2.2) Si noti che la funzione di distribuzione non è una funzione di variabile casuale ma della variabile reale “normale” x. Questo perché non rappresenta il risultato di singoli esperimenti casuali, ma la probabilità che un risultato stia in un certo intervallo. La funzione di distribuzione di un qualsiasi esperimento casuale ha le seguenti proprietà: • è monotona non decrescente • se l’insieme S dei valori possibili dell’esperimento casuale è contenuto in un intervallo finito, S ∈ [a, b] F (x) = 0 per x ≤ a e F (x) = 1 per x ≥ b. Se l’insieme S non è limitato inferiormente e/o superiormente avremo, rispettivamente, limx→−∞ F (x) = 0 e limx→+∞ F (x) = 1. Possiamo quindi considerare in generale la funzione di distribuzione sempre definita su tutto l’lasse reale, anche quando l’insieme S dei possibili risultati è limitato. metrica” rispetto ad A e B. Tuttavia è immediato vedere che, se è verificata la condizione P (A|B) = P (A), automaticamente P (B|A) = P (AB)/P (A) = P (A) · P (B)/P (A) = P (B), ossia è verificata anche la condizione “duale” di quella che abbiamo usato come definizione. Made with Macintosh 10 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 A partire dalla funzione di distribuzione possiamo costruire un’ulteriore funzione se consideriamo la probabilità (infinitesima) che la nostra variabile casuale x cada in un intervallo infinitesimo [x, x + dx) P (x ≤ x < x + dx) = F (x + dx) − F (x) = dF (x) dx = f (x) dx dx (2.3) La funzione f (x) che cosı̀ si ottiene è detta densità di probabilità. Le sue proprietà sono: Z +∞ f (x) ≥ 0 ∀x f (x) dx = 1 P (x ≤ x < x + dx) = f (x) dx (2.4) −∞ L’integrale della seconda espressione è indicato fra −∞ e +∞: nel caso la variabile x sia confinata in un campo più ristretto, si può lasciare l’integrale in questa forma considerando f (x) = 0 al di fuori del campo, come risulta dalla (2.3). Anche la variabile x in f (x) è una normale variabile, e non una variabile casuale. La funzione rappresenta, punto per punto, il rapporto fra la probabilità che un evento cada in un intervallo infinitesimo in corrispondenza del punto e la larghezza dell’intervallo, da cui il nome. Possiamo arrivare alla densità di probabilità anche in un altro modo: Consideriamo un esperimento casuale che produca risultati in un intervallo S = [a, b). Ripetiamo n volte l’esperimento e costruiamo un istogramma della distribuzione dei risultati (x1 , x2 . . . xn ), dividendo S in intervalli di ugual larghezza e assegnando a ciascun rettangolo dell’istogramma un’altezza tale che la sua area risulti uguale a ni /n, dove ni è il numero di eventi caduti nell’intervallo stesso. Se aumentiamo via via n e corrispondentemente restringiamo la larghezza degli intervalli l’istogramma tenderà ad assomigliare ad una funzione. Se facciamo tendere idealmente n → ∞ e simultaneamente a zero la larghezza degli intervalli, il nostro istogramma finisce per definire una funzione vera e propria. Conoscere la funzione di distribuzione o la densità di probabilità significa avere la conoscenza completa sull’esperimento casuale. Quando un esperimento casuale ha come densità di probabilità una certa f (x), si suole dire che segue la distribuzione (o la sua statistica 6 ) è f (x). 2.4 La gaussiana Fra le infinite funzioni che soddisfano i criteri per rappresentare la densità di probabilità di un esperimento casuale, la funzione gaussiana ha un ruolo particolarmente 6 Il termine statistica viene usato con significati diversi: oltre che essere il nome della materia di cui stiamo illustrando i rudimenti, si usa appunto per indicare il tipo di distribuzione (ad es.: “questo fenomeno segue una statistica gaussiana”) oppure anche per valutare la quantità di dati raccolta in un esperimento: quando si dice ad esempio “abbiamo raccolto poca statistica” significa che la quantità di dati non è sufficiente per ricavare il risultato cercato con la precisione voluta. Made with Macintosh 11 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 0.5 0.4 -4 10 0.4 0.3 0.3 0.2 0.2 0.1 0.1 -2 4 2 0.4 0.3 50 0.5 -4 -2 2 4 5 . 10 3 500 0.2 0.1 -4 -2 0.4 0.3 -4 -2 4 2 0.4 5 . 10 4 0.3 0.2 0.2 0.1 0.1 2 4 -4 -2 5 . 10 5 2 4 Fig. 2.1 Costruzione empirica della densità di probabilità per una distribuzione gaussiana, ottenuta estraendo numeri casuali per mezzo di un algoritmo di calcolatore. Il numero indicato per ciascun grafico è il numero di ripetizioni dell’esperimento. In rosso gli istogrammi e in nero la densità di probabilità teorica. Made with Macintosh 12 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 0.4 0.3 σ 0.2 0.1 2σ 3σ -4 Fig. 2.2 -2 2 4 Densità di probabilità gaussiana con parametri x̂ = 0 e σ = 1. importante:7 (x−x̂)2 1 f (x) = √ e− 2σ2 2πσ (2.5) Da un punto di vista matematico possiamo rilevare che a) La curva rappresentata ha una forma a campana, con il massimo in x = x̂ ed è simmetrica rispetto a questo valore. b) Il parametro σ dà una misura della larghezza della curva. Per x = x̂ ± σ la curva ha un flesso e il suo valore è circa 3/5 del valore massimo. c) La probabilità che in un esperimento casuale con densità di probabilità gaussiana sia x̂−σ < x < x̂+σ è di circa il 68%. Se si allarga l’intervallo a |x− x̂| < 2σ e |x− x̂| < 3σ la probabilità che il risultato cada all’interno sale rispettivamente al 95% e 99.7%. La curva gaussiana è cosı̀ importante da un punto di vista statistico per il seguente motivo: se su una misura a agisce una perturbazione ±∆a che ha il 50% di probabilità di sommarsi e il 50% di probabilità di sottrarsi, avremo due valori equiprobabili. Se 7 Per il calcolo del fattore di normalizzazione della funzione gaussiana che appare nella formula, vedi appendice al punto 1. Made with Macintosh 13 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 facciamo agire successivamente p perturbazioni di questo tipo, diminuendone allo stesso tempo in proporzione l’entità, ossia riducendo la loro ampiezza a ±∆a/p, i risultati possibili diventeranno p + 1 e le relative probabilità, al crescere di p, tenderanno a quelle di una distribuzione gaussiana centrata in a. Fig. 2.3 Quinconce di Galton. Un dispositivo che illustra questo fenomeno è il cosiddetto Quinconce di Galton (fig. 2.3), un piano inclinato lungo cui si fanno cadere delle sferette, che incontrano sul loro cammino diverse file, fra loro sfalsate, di paletti cilindrici e sono raccolte infine in una serie di canali di ugual larghezza, tali da visualizzare praticamente un istogramma dei punti finali di caduta. Per tale motivo in molte situazioni sperimentali (fra cui quelle nel nostro laboratorio a cui applicheremo l’analisi degli errori a posteriori), in cui possiamo pensare a un meccanismo perturbativo che opera cosı̀, le misure risulteranno distribuite in modo gaussiano. Infine il teorema del limite centrale, di cui parleremo nel seguito, conferisce un ruolo ancora più importante alla distribuzione gaussiana. 2.5 Valore d’aspettazione e momenti di una distribuzione Data una variabile casuale x con densità di probabilità f (x) e una funzione H(x), si definisce valore d’aspettazione (expectation value) di H(x) E {H(x)} = Z +∞ H(x)f (x) dx (2.6) −∞ Si noti che nell’integrale è contenuta H(x), funzione di variabile reale, per cui l’integrale Made with Macintosh 14 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 si può calcolare con i metodi consueti e dà come risultato un valore numerico (se x e H(x), come in genere nel nostro caso, sono grandezze fisiche, il valore avrà opportune dimensioni e unità di misura). Un caso particolare molto importante si ha quando H(x) = x e si calcola il valore d’aspettazione della variabile causale stessa x̂ = E {x} = Z +∞ xf (x) dx (2.7) −∞ Il valore x̂ è detto anche valor medio (mean value) o semplicemente media (mean) della distribuzione. Esso dà informazione su come la distribuzione è collocata sull’asse delle x. Per distribuzioni simmetriche intorno a un massimo, come la gaussiana, corrisponde alla posizione del massimo. Si definisce poi, nelle stesse condizioni, varianza (variance) di H(x) n o 2 2 var {H(x)} = σH( = E (H(x) − E {H(x)}) x) (2.8) La varianza è quindi il valore di aspettazione del quadrato della differenza fra la funzione di variabile casuale H(x) e il suo valore di aspettazione. La varianza è sempre positiva. La radice quadrata della varianza si indica in genere con il simbolo σ e si chiama deviazione standard (standard deviation). Si dimostra facilmente8 che la varianza si può scrivere anche come n o 2 2 2 σH( = E [H(x)] − [E {H(x)}] (2.9) x) ossia come differenza fra il valore d’aspettazione del quadrato della funzione e il quadrato del valore d’aspettazione della funzione stessa. Anche in questo caso assume importanza particolare la deviazione standard della variabile casuale stessa n o Z 2 σx = E (x − x̂) = 2 +∞ −∞ (x − x̂)2 f (x) dx (2.10) La deviazione standard dà una misura della larghezza della distribuzione intorno alla media. Nel caso di una distribuzione gaussiana media e standard deviation corrispondono 8 Vedi appendice al punto 2. Made with Macintosh 15 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 proprio ai parametri della funzione come li abbiamo introdotti sopra, e la loro conoscenza implica la conoscenza completa della distribuzione. 2.6 Generalizzazione a più variabili Un esperimento casuale non produce necessariamente una sola variabile, ma ne può generare un numero qualsiasi ad ogni iterazione (come esempio banale, si pensi di tirare contemporaneamente un certo numero di dadi di colore diverso). Iniziamo a trattare il caso di due variabili: la densità di probabilità sarà in generale una f (x, y) con le caratteristiche f (x, y) ≥ 0 ∀(x, y) Z +∞ −∞ Z +∞ f (x, y) dxdy = 1 −∞ (2.11) f (x, y) dxdy = P (x < x < x + dx, y < y < y + dy) In più, avremo anche le densità di probabilità marginali fx (x) e fy (y) di ciascuna variabile, ossia le distribuzioni che si ottengono considerando una sola delle variabili alla volta e ignorando l’altra. È piuttosto evidente che vale fx (x) = Z +∞ f (x, y) dy fy (y) = −∞ Z +∞ f (x, y) dx (2.12) −∞ Per come sono costruite, le funzioni date sono effettivamente non negative e normalizzate a 1, come necessario per delle densità di probabilità. Vogliamo adesso calcolare la densità di probabilità di una variabile negli eventi in cui l’altra soddisfa una condizione, ossia appartiene a un sottoinsieme del suo campo di valori. In particolare, proviamo a calcolare in funzione di x la probabilità Pc che sia x ≤ x < x+dx negli eventi in cui y0 ≤ y < y0 + dy, con y0 fissato. Utilizzando il concetto di probabilità condizionale visto al § 2.2.4, possiamo dire che la probabilità cercata per ogni valore di x è il rapporto fra la probabilità che un evento cada nel rettangolo infinitesimo con vertice (x, y0 ) e lati dx, dy e la probabilità che un evento cada nell’intera striscia orizzontale di ampiezza dy a quota y0 . f (x, y0 ) dxdy f (x, y0 ) i Pc = hR +∞ = dx fy (y0 ) f (x, y ) dx dy 0 −∞ (2.13) Da questa espressione possiamo ricavare in generale la densità di probabilità con cui è Made with Macintosh 16 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 y dx y0 x Fig. 2.4 dy x Zone per il calcolo della probabilità che sia x ≤ x < x + dx noto y0 ≤ y < y0 + dy. distribuita x quando y è noto,9 che indicheremo con f (x|y), e, per simmetria, f (y|x). f (x|y) = f (x, y) fy (y) f (y|x) = f (x, y) fx (x) (2.14) Ciascuna delle espressioni trovate dipende in generale anche dal valore della variabile presa come nota.10 Questo fatto si esprime dicendo che in generale le variabili x e y non sono indipendenti fra loro. Tuttavia, se avviene che f (x, y) = fx (x)fy (y) avremo f (x|y) = fx (x) e f (y|x) = fy (y). In questo caso quindi la distribuzione di x noto y non dipende da y e viceversa. In accordo con quanto già visto al § 2.2.5, stabiliamo quindi come condizione necessaria e sufficiente per l’indipendenza delle variabili il fatto che la densità di probabilità sia costituita da un prodotto di due funzioni, ciascuna di una sola variabile (che corrisponderanno necessariamente alle densità di probabilità marginali). x, y indipendenti ⇔ f (x, y) = fx (x)fy (y) (2.15) Quanto visto si estende facilmente al caso di un esperimento che produce n variabili: 9 10 Ossia la distribuzione della x negli eventi in cui y ≤ y < y + dy. Per un esempio concreto, vedere l’appendice al punto 3. Made with Macintosh 17 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 la densità di probabilità sarà f (x1 , x2 , . . . xn ), le probabilità marginali saranno date da: fxi (xi ) = Z +∞ −∞ Z +∞ ... −∞ Z +∞ f (x1 , x2 , . . . xn ) dx1 dx2 . . . dxi−1 dxi+1 . . . dxn (2.16) −∞ e la condizione di indipendenza delle variabili sarà: f (x1 , x2 , . . . xn ) = fx1 (x1 )fx2 (x2 ) . . . fxn (xn ) (2.17) Per le distribuzioni in più variabili si calcolano i valori medi x̂i e le deviazioni standard σxi con le stesse formule già date per il caso di una variabile, salvo che la definizione di valore di aspettazione diventa E {H(x1 , x2 , . . . xn )} = Z +∞ Z +∞ Z +∞ = ... H(x1 , x2 , . . . xn )f (x1 , x2 , . . . xn ) dx1 dx2 . . . dxn −∞ −∞ (2.18) −∞ Nel caso delle distribuzioni con più variabili possiamo calcolare le standard deviation di ogni variabile © ™ σx2i = E (xi − x̂i )2 (2.19) ma anche un’altra specie di momenti di ordine 2, che contengono il prodotto delle differenze dalla media di due variabili diverse cov(xi , xj ) = E {(xi − x̂i )(xj − x̂j )} i 6= j (2.20) Ciascuno di questi elementi viene detto covarianza fra la variabile i-ma e la variabile j-ma e risulta nullo, come si può facilmente dedurre dalla (2.18), nel caso che le variabili siano fra loro indipendenti. A differenza della varianza, positiva per definizione, la covarianza può assumere valori sia positivi che negativi. Quando la covarianza fra due variabili è positiva, significa che negli eventi in cui una delle due è superiore alla media, l’altra avrà maggior probabilità di essere pure superiore alla media, e analogamente se una delle due è inferiore, anche l’altra tenderà ad esserlo. Una covarianza negativa, al contrario, indica la tendenza per cui quando una delle due variabili è superiore alla media, l’altra tende ad essere inferiore. L’insieme delle deviazioni standard e dei coefficienti di Made with Macintosh 18 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 covarianza costituisce una matrice simmetrica (si vede immediatamente dalla definizione che cov(xi , xj ) = cov(xj , xi )) detta matrice di covarianza. La conoscenza della matrice di covarianza permette una propagazione degli errori anche nel caso di variabili fra loro non indipendenti11 In questo testo siamo comunque principalmente interessati al caso di variabili indipendenti e quindi non approfondiremo oltre l’argomento. Infine, un caso particolare ma importante per quello che tratteremo di seguito: se ripetiamo n volte un esperimento casuale che produce una variabile x, possiamo raggruppare le n ripetizioni e considerarle come un singolo esperimento che produce x1 , x2 , . . . xn . Quando abbiamo introdotto il concetto di esperimento casuale abbiamo posto (tacitamente) la condizione che la probabilità di un risultato non dipendesse dai risultati precedentemente ottenuti, il che corrisponde, nell’esperimento cumulativo che stiamo analizzando, all’indipendenza delle variabili. Avremo quindi per l’esperimento una densità di probabilità g(x1 , x2 , . . . xn ) (usiamo la lettera g per evitare confusioni di simboli): g(x1 , x2 , . . . xn ) = f (x1 )f (x2 ) . . . f (xn ) (2.21) dove f (x) è la densità di probabilità dell’esperimento singolo. 2.7 Il punto di vista dello sperimentatore Fino a qui abbiamo parlato delle distribuzioni di probabilità da un punto di vista astratto–matematico, mentre il nostro scopo è la loro applicazione alla valutazione dei risultati delle misure. Il punto fondamentale consiste nel fatto che lo sperimentatore non avrà mai la conoscenza esatta della densità di probabilità delle variabili con cui opera, perché questa implicherebbe l’esecuzione di un numero infinito di misure. Lo sperimentatore potrà invece effettuare solo un numero finito n di misure, ricavando quello che si chiama un campione di ampiezza n Cn = {x1 , x2 , . . . xn } (2.22) In molti casi dalla fisica del sistema e dell’apparato di misura si può evincere ragionevolmente la forma della distribuzione (nelle misure del nostro laboratorio sarà sempre gaussiana), ma restano da determinarne i parametri. Lo sperimentatore potrà soltanto darne una stima approssimata a partire dal campione a sua disposizione. In particolare ci interesseremo della stima della media e della deviazione standard della distribuzione che in molti casi, fra cui sicuramente quello gaussiano, si possono utilizzare rispettivamente per valutare il miglior valore della misura e l’errore a posteriori ad esso associato. Per stimare dal campione un parametro della distribuzione dovremo applicare all’insieme delle n variabili del campione (che, essendo risultati di esperimenti casuali già 11 Vedi in appendice A.7. Made with Macintosh 19 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 effettuati, possiamo benissimo chiamare “dati”) una opportuna funzione, che chiameremo stimatore del parametro. Il risultato che cosı̀ otterremo, essendo il valore di una funzione di variabile casuale, sarà a sua volta una variabile casuale con una sua distribuzione, un suo valore di aspettazione e una sua deviazione standard.12 Perché una funzione del campione s(x1 , x2 , . . . xn ) si possa considerare uno stimatore valido di un parametro λ della distribuzione di x dovrà possedere alcune caratteristiche: a) Assenza di polarizzazione. Uno stimatore s del parametro λ si dice non polarizzato (unbiased ) se il suo valore di aspettazione coincide con λ per qualsiasi valore di n E {s(x1 , x2 , . . . xn )} = λ ∀n (2.23) Se questa proprietà vale solo al limite n → ∞ diremo che lo stimatore è asintoticamente non polarizzato. b) Consistenza. Chiediamo a un buon stimatore che al crescere di n, ampiezza del campione, individui il parametro cercato con sempre maggiore precisione, ossia che la sua distribuzione diventi via via più stretta intorno al valore λ, e quindi la deviazione standard dello stimatore tenda a 0 lim σs = 0 n→∞ (2.24) Oltre a queste proprietà fondamentali, i testi di statistica ne elencano altre che caratterizzano gli stimatori. Fra queste, quella di essere a varianza minima, ossia di essere lo stimatore che approssima con maggior precisione il parametro cercato. Esistono metodi specifici, come ad esempio quello di massima plausibilità (maximum likelyhood ), che indicano come costruire uno stimatore di un determinato parametro. Per quello che ci serve, ci limiteremo ad alcune considerazioni generali: a) Lo stimatore deve essere una funzione che opera su campioni di ampiezza n qualsiasi.13 b) Non essendoci motivi per privilegiare un dato rispetto ad un altro, lo stimatore dovrà avere una forma invariante per scambio degli elementi del campione. c) Si può ipotizzare la forma di uno stimatore partendo dalla definizione del parametro che deve stimare. 12 13 Questo fatto diventa ovvio se pensiamo che acquisendo successivi campioni e applicando lo stimatore i risultati saranno via via diversi. In qualche caso, come vedremo, potrà esserci un limite minimo al valore di n. Made with Macintosh 20 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 2.8 Stima della media di una distribuzione Dal momento che la media x̂ di una distribuzione corrisponde al valore medio di x, pesato mediante f (x), possiamo pensare di stimarla utilizzando la media aritmetica dei valori xi del campione.14 Utilizzeremo quindi come stimatore di x̂ n 1X x= xi n i=1 (2.25) Vogliamo verificare se il nostro stimatore è polarizzato o meno. Per fare ciò ricordiamo che, essendo gli elementi del campione indipendenti, la densità di probabilità risulta g(x1 , x2 , . . . xn ) = f (x1 )f (x2 ) . . . f (xn ). Utilizzando poi le proprietà del valore di aspettazione mostrate in appendice al punto 2, avremo E {x} = E ( n 1X xi n i=1 ) n 1X 1 = E {xi } = nx̂ = x̂ n i=1 n (2.26) La media aritmetica è quindi uno stimatore non polarizzato del valore medio x̂ della popolazione. Si può anche verificare che per la standard deviation della media aritmetica σx vale la relazione15 σx σx = √ n (2.27) La standard deviation della media aritmetica è proporzionale a quella della distribuzione della singola misura e decresce come la radice quadrata dell’ampiezza del conteggio. Quindi si tratta di uno stimatore consistente. 2.9 Stima della varianza di una distribuzione Cerchiamo anche uno stimatore per la varianza di x, σx2 . Dato che è definita come il valore d’aspettazione (ossia la media pesata secondo f (x)) del quadrato della differenza fra x e la media della distribuzione x̂, possiamo ipotizzare uno stimatore che sia la media aritmetica dei quadrati delle differenze fra gli elementi del campione e la media . . . quale media? Non potendo utilizzare direttamente x̂, che, come abbiamo visto, non è ricavabile da un campione finito, utilizzeremo il nostro stimatore di x̂, ossia x. Lo stimatore ipotizzato 14 15 In inglese si usa il termine mean per indicare x̂ e average per indicare la media aritmetica che ne è lo stimatore, evitando la confusione di termini. Per i calcoli delle espressioni presentate in questa sezione, vedere in appendice al punto 4. Made with Macintosh 21 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 della varianza sarà quindi 2 S0 = 1X 2 (xi − x) n i (2.28) 2 Si può calcolare il valore d’aspettazione di S 0 e si trova n o n−1 2 E S0 = σx2 n (2.29) 2 Quindi S 0 è solo asintoticamente non polarizzato. Possiamo però risolvere il problema usando come stimatore della varianza S2 = n 1 X 2 2 S0 = (xi − x) n−1 n−1 i (2.30) Con un rapido calcolo si dimostra che S 2 può essere scritto anche come S2 = X 1 n−1 i " #2 X 1 2 xi − xi n i (2.31) Questa forma è comoda per essere utilizzata negli algoritmi di programmazione, dato che permette di eseguire una sola iterazione sui dati, calcolando la somma degli stessi e dei loro quadrati, e quindi di ricavare contemporaneamente le stime della media e della varianza.16 Il fatto che lo stimatore non polarizzato, S 2 , abbia al denominatore n − 1 deriva, come è noto, dal fatto che abbiamo calcolato gli scarti non dal valor medio della distribuzione, ma dalla sua stima, fatta usando gli stessi dati del campione. Da un campione di ampiezza n potremo in generale stimare non più di n parametri indipendenti della distribuzione e al momento di stimare σx2 abbiamo già stimato x, “consumando” cosı̀ uno dei gradi di libertà del sistema.17 Il fatto è evidente se consideriamo un campione di ampiezza 1: in questo 2 caso, essendo x1 = x, risulterà S 0 = 0, il che è assurdo, mentre S 2 diventa una forma indeterminata del tipo 00 , coerentemente col fatto che da un campione di ampiezza 1 non si può ricavare alcuna informazione sulla larghezza della distribuzione. 16 17 Questo procedimento è l’unico ragionevole se si utilizza un calcolatore programmabile che non abbia sufficienti registri di memoria per contenere tutti i singoli dati e si voglia evitare, ovviamente, di doverli inserire manualmente due volte. Il concetto di gradi di libertà in statistica sarà affrontato più in generale in corsi successivi. Made with Macintosh 22 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 Si può calcolare18 il valore della varianza dello stimatore S 2 e si ottiene σS2 2 µ ∂ n−3 4 µ4 − σ n−1 x 1 = n dove µ4 = Z +∞ −∞ (x − x̂)4 f (x) dx (2.32) Quindi lo stimatore S 2 della varianza della distribuzione è uno stimatore consistente. Nel caso particolare di una distribuzione gaussiana, in cui µ4 = 3σ 4 , risulta σS2 gaus = 2 2σx4 n−1 (2.33) Abbiamo determinato quindi che le funzioni x e S 2 sono stimatori non polarizzati e consistenti rispettivamente di x̂ e σx2 qualunque sia la distribuzione f (x) della variabile casuale. 2.10 Il teorema del limite centrale 5 3 4 3 2.5 2 2 1 1.5 1 0.5 0.2 0.4 0.6 0.8 1 Fig. 2.5 Distribuzione della media aritmetica di n campioni estratti da una distribuzione uniforme nell’intervallo [0, 1]. Sono mostrati per 1 ≤ n ≤ 5 la distribuzione della media aritmetica (in colore a tratto intero) e la gaussiana avente x̂ e σx corrispondenti (a tratteggio). Abbiamo appena visto che la media aritmetica di un campione di ampiezza n di risultati indipendenti estratti da una stessa distribuzione f (x) ha a sua volta una distribuzione 18 Vedi sempre Appendice, al punto 4. Made with Macintosh 23 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 √ con lo stesso valor medio e una standard deviation pari a 1/ n di quella associata a f (x). Il teorema del limite centrale, che è dimostrato nei testi di statistica, ci permette di avere un’informazione importante anche sulla forma della distribuzione della media aritmetica. Secondo il suo enunciato la distribuzione della media aritmetica di un campione di ampiezza n (con le condizioni dette sopra) al crescere di n tende alla forma gaussiana qualsiasi sia la forma della distribuzione originale f (x). In molti casi anche con n non troppo grande (n ≥ 5) si raggiunge una buona approssimazione della gaussiana, come mostrato in figura 2.5.19 2.11 Valutazione pratica della misura e dell’errore a posteriori Come risultato di quanto enunciato fino a qui, da una serie di misure è possibile ricavare una stima della media e della deviazione standard della loro distribuzione tramite x e S 2 . Resta da vedere se e quando questi parametri siano direttamente utilizzabili per la valutazione degli errori a posteriori. Per quanto riguarda la scelta del valore da adottare come misura di una grandezza fisica quando si abbiano n dati diversi presi nelle stesse condizioni e si sia in una situazione tale da poter applicare i metodi statistici, l’uso della media aritmetica è universalmente diffuso e accettato, e se anche potrebbero esservi rari casi in cui questo non sarebbe il procedimento più corretto, sicuramente ciò non capita nelle misure che condurremo in laboratorio. Per quanto riguarda la valutazione dell’errore, la situazione è lievemente più delicata. Prima di tutto occorre rendersi conto che l’entità di errore da associare a una misura dipende anche dall’uso pratico che vorremo fare della misura stessa. Se ad esempio siamo produttori di un qualche oggetto di cui dobbiamo garantire in assoluto la rispondenza a criteri dati, potrà essere ragionevole adottare metodi che tengono conto del caso peggiore, per quanto poco probabile. Viceversa, nella produzione scientifica attuale in genere non si richiede che l’errore attribuito sia tale da garantire assolutamente che qualsiasi altra misura futura cada all’interno di esso. L’errore, in particolare quando si tratta di errore a posteriori, è concepito piuttosto come ordine di grandezza della indeterminazione della misura: quello che invece è fondamentale è che, nel presentare i propri risultati di laboratorio, siano oggi una relazione per un esame o domani una pubblicazione su una rivista internazionale, si descriva in modo completamente esauriente il trattamento dei dati e quindi come gli errori sono stati valutati. Quando si sa che la distribuzione delle misure è di tipo almeno approssimativamente gaussiano, o comunque sufficientemente simmetrica intorno al valore medio, lo stimatore S 2 della standard deviation può essere utilizzato come errore da attribuire alla misura, indipendentemente dall’ampiezza del campione (purché ovviamente n > 1!). Questo è 19 Riguardo alla distribuzione della media aritmetica di un campione proveniente da una distribuzione uniforme, vedi appendice al punto 5. Made with Macintosh 24 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 quanto accade nelle misure in laboratorio ≤x = S = s 1 X (xi − x)2 n−1 i (2.34) Lo scarto massimo dalla media aritmetica, invece, non è uno stimatore adeguato dell’errore a posteriori; lo si può utilizzare sostanzialmente in due situazioni: a) Non si si conosce la forma della distribuzione e non si hanno sufficienti misure per farsene un’idea tracciandone l’istogramma. b) Esiste il sospetto che la dispersione dei valori sia dovuta a un parametro non controllato nella misura. In entrambi questi casi la prassi d’elezione consisterebbe nel ripetere la misura più volte, ma se ciò non è possibile lo scarto massimo fornisce una valutazione che “copre” comunque tutte le misure effettuate, anche se resta una “soluzione di ripiego”. Altrimenti è da evitare, dando la preferenza allo stimatore della deviazione standard. Che lo scarto massimo non sia in generale un mezzo corretto per valutare l’errore è evidente dalla constatazione che, se lo si utilizza, quante più sono le misure effettuate, tanto maggiore sarà, statisticamente, l’incertezza risultante, mentre la maggior informazione deve ragionevolmente portare a una miglior determinazione della misura e del suo errore.20 20 In appendice al punto 6 sono studiate le proprietà dello scarto massimo. Made with Macintosh 25 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 3. Attribuzione dell’errore 3.1 Propagazione È noto che la propagazione degli errori statistici deve essere effettuata quadraticamente,21 mentre nel caso di errori a priori è stato consigliato l’uso della propagazione lineare. Questa procedura porta alla valutazione di un errore massimo, corrispondente alla situazione più sfortunata in cui tutti gli scostamenti delle grandezze misurate sono di segno tale che i loro effetti sulla grandezza calcolata si sommano. Nello spirito che abbiamo discusso sopra, per cui si preferisce valutare un errore realisticamente probabile a un errore massimo, può essere preferibile usare una propagazione quadratica anche per gli errori a priori, soprattutto quando la quantità calcolata dipenda da molte grandezze diverse. 3.2 Errore assoluto e relativo, derivata logaritmica Negli ultimi anni si è rivelata chiaramente una particolare “affezione” degli studenti verso l’errore relativo rispetto a quello assoluto, e verso il metodo detto della derivata logaritmica per calcolarne la propagazione. In questo atteggiamento non è niente di scorretto in generale, ma occorre precisare che: a) Non esiste una preferenza particolare per l’errore relativo rispetto all’errore assoluto. L’errore relativo, quando ha senso (vedi sotto), dà un’indicazione intuitivamente più immediata della precisione della misura, ma contiene esattamente la stessa informazione dell’errore assoluto. Inoltre alcune formule per il calcolo dell’errore relativo, ad esempio quella per cui l’errore relativo di un prodotto o di un rapporto è la somma degli errori relativi dei componenti, sono valide solo in caso di propagazione lineare, anche se (vedi sotto) si possono sfruttare per determinare le derivate parziali di una propagazione quadratica. b) Quando si misura una grandezza il cui valore si trova in un intorno di 0, l’errore relativo perde qualsiasi significato. In certi casi, come ad esempio quando si voglia verificare una teoria dando un limite sperimentale al valore di una grandezza che questa prevede nulla,22 la misura addirittura non consiste più nel dare un valore, ma un intervallo entro cui si ritiene sia compreso il risultato. Inoltre, dal punto di vista pratico del calcolo: c) Non sempre il metodo della derivata logaritmica è conveniente, dal punto di vista della complicazione dei calcoli, rispetto al metodo delle derivate parziali. d) Il metodo delle derivate parziali e della derivata logaritmica comunque alla fin fine producono entrambi i coefficienti da utilizzare, in valore assoluto per una propagazione lineare o al quadrato per una propagazione quadratica, associati agli errori delle varie 21 22 Vedi appendice al punto 7. Come avviene, ad esempio, nel caso della massa del neutrino. Made with Macintosh 26 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 grandezze indipendenti da cui dipende quella su cui vogliamo propagare l’errore. In particolare i coefficienti che compaiono in una propagazione effettuata col metodo della derivata logaritmica corrispondono in valore assoluto alle derivate parziali rispetto alle varie variabili, divise per il valore della funzione ∆M = a1 ∆θ1 + a2 ∆θ2 + . . . + an ∆θn M (3.1) I coefficienti |M ai | sono appunto i valori assoluti delle derivate parziali di M rispetto alle variabili θi e come tali potranno essere usati in qualsiasi propagazione. M = M (θ1 , θ2 , . . . θn ) θi indipendenti e) Nel caso si usi la derivata logaritmica per calcolare un errore relativo, spesso le espressioni si semplificano se si manipolano i coefficienti in modo da far comparire gli errori relativi delle variabili di partenza ∆M ∆θ1 ∆θ2 ∆θn = a01 + a02 + . . . + a0n M |θ1 | |θ2 | |θn | (3.2) f) Dato che il metodo della derivata logaritmica è solo un artificio di calcolo, in alcuni casi può essere vantaggioso manipolare opportunamente le espressioni su cui si deve eseguire il calcolo. √ Supponiamo ad esempio di voler calcolare l’errore relativo sulla quantità Q0 = 1 + ω 2 R2 C 2 . Anziché effettuare il calcolo direttamente su Q0 , si può operare su Q20 − 1 = ω 2 R2 C 2 d(Q20 − 1) 2Q0 dQ0 = =2 2 Q0 − 1 Q20 − 1 µ dω dC dR + + ω C R ∂ da cui si ricava immediatamente Ø Øµ ∂ µ ∂ ∆Q0 ØØ Q20 − 1 ØØ ∆ω ∆C ∆R ω 2 R2 C 2 ∆ω ∆C ∆R =Ø + + = + + Q0 Q20 Ø ω C R 1 + ω 2 R2 C 2 ω C R Si ricorda infine di tener presente che quando si ricavano contemporaneamente due (o più) parametri, come ad esempio i coefficienti di una retta, attraverso un procedimento di ricerca del miglior accordo con i dati, sia per mezzo di algoritmi come i minimi quadrati, sia con metodi grafici, i parametri in questione non risultano indipendenti e quindi non è corretto utilizzare le “normali” formule di propagazione.23 23 Per un accenno alla propagazione dell’errore quando le variabili non sono indipendenti, si veda in appendice al punto 7. Made with Macintosh 27 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 Appendice Raccogliamo di seguito alcuni calcoli che non sono essenziali per la comprensione del testo, ma potrebbero essere utili allo studente come esempi dei procedimenti che si possono utilizzare per affrontare determinati problemi. A.1 Proprietà della funzione gaussiana A.1.1 Normalizzazione Dal momento che la gaussiana deve rappresentare una densità di probabilità, il suo integrale esteso all’intero asse reale deve risultare uguale a 1. È noto che non è possibile 2 determinare una primitiva della funzione e−x come combinazione finita di funzioni trascendenti elementari (funzioni trigonometriche, logaritmi, esponenziali, ecc.). Purtuttavia, esiste un artificio con cui si calcola facilmente l’integrale da −∞ a +∞. Per determinare il fattore di normalizzazione, calcoliamo l’integrale della funzione non normalizzata Z +∞ (x−x̂)2 − A= e 2σ2 dx (A.1.1) −∞ Operando una semplice sostituzione di variabile otteniamo √ Z A = 2σ x − x̂ √ =y 2σ +∞ 2 e−y dy (A.1.2) −∞ Indichiamo con I l’integrale in y che compare nella seconda espressione e proviamo a calcolare, anziché direttamente I, il suo quadrato, che si può scrivere nella forma 2 I = Z +∞ −∞ −y 2 e dy Z +∞ −z 2 e dz = −∞ Z +∞ −∞ Z +∞ e−(y 2 +z 2 ) dydz (A.1.3) −∞ Si può quindi interpretare come un integrale di superficie esteso a tutto il piano cartesiano yz. Introduciamo coordinate polari r, ϕ: l’elemento di superficie sul piano è espresso in cordinate polari come r dr dϕ e l’integrale diventa 2 I = Z +∞ r=0 Made with Macintosh Z 2π 2 e−r r dr dϕ ϕ=0 28 (A.1.4) C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 L’integrale in ϕ risulta banalmente pari a 2π, mentre l’integrale in r si risolve √ in modo 1 −r2 −r2 2 elementare (e r dr = d(− 2 e )), con risultato 1/2. Quindi I = π, I = π e A = √ 2πσ. A.1.2 Media e momenti intorno alla media La media della distribuzione gaussiana è data semplicemente dal parametro che abbiamo indicato già con x̂. Si vede facilmente integrando la funzione dopo aver fatto la sostituzione di variabile x0 = x − x̂. Calcoliamo anche i momenti intorno alla media definiti da Z +∞ µi = (x − x̂)i f (x) dx (A.1.5) −∞ I momenti di ordine dispari, data la simmetria della funzione intorno a x̂, saranno tutti nulli. Per i momenti di ordine pari avremo µ2n Z 1 =√ 2πσ −∞ x−x̂ √ 2σ Operando la sostituzione di variabile µ2n σ 2n 2n = √ π +∞ Z (x − x̂)2n e− (x−x̂)2 2σ 2 dx (A.1.6) = y si ottiene +∞ 2 y 2n e−y dy = −∞ σ 2n 2n √ J2n π (A.1.7) Possiamo trovare una formula iterativa per J2n utilizzando l’integrazione per parti R R 2 u(x)v 0 (x) dx = uv − u0 v dx con u = y 2n−1 e v 0 = y e−y Si ottiene J2n = 2n − 1 J2n−2 2 Dato che abbiamo già calcolato sopra J0 = I = J0 = √ π J2 = √ 1 π 2 J4 = (A.1.8) √ π risulta √ 3 π 4 J2n = √ (2n − 1)!! π 2n (A.1.9) per cui µ2n = (2n − 1)!! σ 2n Made with Macintosh 29 (A.1.10) C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 Quindi il momento di ordine 2 vale proprio σ 2 , il che giustifica aver chiamato il parametro di larghezza della gaussiana già col simbolo della deviazione standard. A.2 Qualche formula per il calcolo dei valori d’aspettazione Dalla definizione di E e dalla linearità dell’operatore–integrale risulta che E {c} = c E {c1 H1 (x) + c2 H2 (x)} = c1 E {H1 (x)} + c2 E {H2 (x)} (A.2.1) se c, c1 e c2 sono costanti. Sulla base di questo possiamo elaborare la formula della varianza n o n o 2 2 2 E (H(x) − E {H(x)}) = E [H(x)] + [E {H(x)}] − 2 E {H(x)} H(x) = n o 2 2 = E [H(x)] − [E {H(x)}] A.3 (A.2.2) Variabili dipendenti e indipendenti Presentiamo due esempi di distribuzioni in due variabili, in un caso dipendenti, nell’altro indipendenti fra loro. Consideriamo la densità di probabilità data dalla funzione 2 2 2 1 f (x, y) = √ e− 7 (4x −3xy+y ) 7π (A.3.1) Si possono calcolare le densità di probabilità marginali x2 1 fx (x) = √ e− 2 2π y2 1 fy (y) = √ e− 8 2 2π (A.3.2) e quindi le densità di probabilità per x noto y e viceversa r f (x|y) = 2 Made with Macintosh 2 − 1 (8x−3y)2 e 56 7π f (y|x) = 30 r 2 − 1 (3x−2y)2 e 14 7π (A.3.3) C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 a) b) 0.4 0.3 0.6 0.2 2 0.1 0.2 0 -4 x 4 0.4 0 -2 -2 0 2 x 0 -2 -2 0 -4 y 4 2 0 -4 2 y -4 Fig. A.3.1 Densità di probabilità per due variabili non indipendenti (primo esempio nel testo). In a) è mostrata in 3D la densità di probabilità f (x, y), mentre ai lati sono riportate le densità marginali. In b) è riportata in 3D f (x|y). Si nota come la distribuzione di x noto y sia ancora gaussiana, ma si sposti a seconda del valore di y. Come si vede, ciascuna delle distribuzioni dipende anche dall’altra variabile. In particolare, la correlazione è tale che le due variabili sono con maggior probabilità contemporaneamente maggiori o minori della propria media, come si poteva intuire qualitativamente anche dal grafico di f (x, y).24 Consideriamo invece una diversa densità di probabilità f (x, y) = 1 − 1 (4x2 +y2 ) e 8 4π (A.3.4) Si nota che è fattorizzabile nel prodotto di una funzione della sola x e una della sola y. È possibile anche far sı̀, separando opportunamente in due fattori il coefficiente di normalizzazione di f (x, y), che entrambe siano normalizzate ad 1. In questo modo abbiamo ottenuto le due densità di probabilità marginali (ovviamente coincidenti con quelle che si sarebbero calcolate in base alla definizione) x2 1 fx (x) = √ e− 2 2π 24 y2 1 fy (y) = √ e− 8 2 2π (A.3.5) A questo fatto corrisponde un coefficiente di covarianza positivo, mentre la covarianza è negativa quando le variabili tendono ad essere contemporaneamente una maggiore e una minore della media. Made with Macintosh 31 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 In questo caso le densità di probabilità di una variabile nota l’altra coincidono con le distribuzioni marginali e ciascuna non dipende dal valore della variabile considerata nota. Le due variabili sono indipendenti. 0.4 0.4 0.3 0.3 0.2 2 0.1 0 -4 -2 0 2 0 -4 0 x -2 4 -2 0 -4 2 4 -4 y -2 2 0.1 y x 0 0.2 Fig. A.3.2 Densità di probabilità per due variabili indipendenti (secondo esempio nel testo). In a) è mostrata in 3D la densità di probabilità f (x, y), mentre ai lati sono riportate le densità marginali. In b) è riportata in 3D f (x|y). Si nota come la distribuzione di x noto y questa volta non dipenda dal valore di y. A.4 Stimatori e loro proprietà Vogliamo prima di tutto calcolare la deviazione standard della media aritmetica. Avremo25 √ !2 1X n o 2 σx2 = E (x − E {x}) = E xi − x̂ (A.4.1) n i Manipolando algebricamente l’espressione in parentesi tonde26 e ricordando le proprietà del valore di aspettazione avremo " X 25 26 1 σx2 = 2 E n i #2 1 X (xi − x̂) = 2 E {(xi − x̂)(xj − x̂)} n i,j Da qui in poi, per semplicità di scrittura indicheremo Vedi eq. (A.4.5). Made with Macintosh Pn i=1 semplicemente come 32 P i . (A.4.2) C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 Nella doppia sommatoria i termini in cui i 6= j hanno valore d’aspettazione nullo, data la forma fattorizzata della densità di probabilità; restano quindi solo gli n termini con i = j ™ 1 X © 1 σx2 2 2 σx = 2 E (xi − x̂) = 2 nσx = n i n n 2 (A.4.3) 2 Per il valore di aspettazione di S 0 abbiamo S 02 " # X 1X 1 2 2 = (xi − x) = [(xi − x̂) − (x − x̂)] = n i n i " # X 1 X 2 2 = (xi − x̂) + n (x − x̂) − 2 (xi − x̂)(x − x̂) n i i (A.4.4) A questo punto si può considerare che x − x̂ = 1X (xi − x̂) n i (A.4.5) e si ha S0 2 1 X 2 = (xi − x̂) + n i 1 X 2 = (xi − x̂) − n i " #2 X X 1 2 (xi − x̂) − (xi − x̂)(xj − x̂) = n i n i,j X 1 (xi − x̂)(xj − x̂) n i,j (A.4.6) Nel calcolare adesso il valore d’aspettazione, ancora la considerazione fatta sopra per la P somma i,j e si possono calcolare i valori di aspettazione n o 1£ § n−1 2 2 E S0 = nσx2 − σx2 = σx n n (A.4.7) Il calcolo di σS2 2 , la varianza dello stimatore della varianza, risulta più laborioso. Partiamo col calcolare σS2 02 : nell’espressione di S 02 dedotta in (A.4.6) per semplificare la scrittura Made with Macintosh 33 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 introduciamo nuove variabili zi = xi − x̂, ottenendo S0 2 X X 1 1 = z2i − zi zj n n i i,j (A.4.8) Nella seconda sommatoria separiamo gli elementi in cui i = j dagli altri e otteniamo 2 S0 = n−1X 1 n n i X 1 z2i − zi zj n (A.4.9) i6=j Scriviamo adesso σS2 02 come σS2 02 Ωh i æ h n oi 2 2 2 2 = E S0 − E S0 (A.4.10) Il secondo termine è noto dal calcolo precendente, mentre per il primo vale Ωh i æ X X X X 2 1 n−1 1 n−1 1 2 E S0 = 2E z2i − zi zj · z2i0 − zi0 zj 0 = n n n n n 0 0 i i0 i6=j i 6=j µ ∂ 2 1 n−1 X 2 2 1 X 2(n − 1) X 2 = 2E zi zi0 + 2 zi zj zi0 zj 0 − z z z 0 i j i n n n i6=j n2 i,i0 i0 ,i6=j i0 6=j 0 (A.4.11) Il terzo termine del valore di aspettazione è stato costruito raggruppando i due termini “misti” del prodotto, che sono identici a meno di un cambio di nome di indici. A questo punto occorre considerare che nel calcolare il valore dinaspettazioneodegli elementi delle sommatorie si annullano diversi termini: in generale E zk11 zk22 . . . znn con ki ≥ 0 è nullo se risulta almeno per uno dei fattori ki = 1 , in quanto, per laRfattorizzazione della densità +∞ di probabilità, l’integrazione si suddivide in fattori fra cui −∞ (xi − x̂i )f (xi ) dxi = 0. Mentre il primo termine nell’espressione ovviamente non contiene termini di questo tipo, il terzo, qualunque siano i0 , i, j ne contiene almeno uno e quindi il valore di aspettazione di ogni elemento è nullo. I termini della seconda sommatoria hanno valore d’aspettazione non nullo solo quando si fattorizzano nella formula z2k z2k0 dove, per le condizioni sugli indici, necessariamente k 6= k0 . Questa situazione si verifica con due possibilità: la prima è che siano contemporaneamente i = i0 e j = j 0 , la seconda che siano i = j 0 e i0 = j. Le Made with Macintosh 34 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 sommatorie ottenute con le due condizioni sono identiche a meno di un cambio di nome di indici e quindi si può introdurre una sola sommatoria moltiplicata per 2. Abbiamo Ωh i æ µ ∂2 X X 2 1 n−1 2 2 E S0 = 2E z2i z2i0 + 2 z2i z2j n n n 0 i,i (A.4.12) i6=j Infine, separiamo nella prima sommatoria i termini con i = i0 dagli altri Ωh i æ µ ∂2 X X X 2 1 n−1 2 02 4 2 2 2 2 E S = 2E zi + zi zi0 + 2 zi zj n n n 0 i i6=i (A.4.13) i6=j Avremo che © ™ E z4i = µ4 © ™ E z2i z2j = σx4 dove se µ4 = i 6= j Z +∞ −∞ (x − x̂)4 f (x) dx (A.4.14) Inoltre la sommatoria su i 6= j contiene n(n − 1) elementi. Otteniamo finalmente "µ # Ωh i æ ∂2 2 ° ¢ 1 n − 1 2 2 E S0 = 2 nµ4 + n(n − 1)σx4 + 2 n(n − 1)σx4 n n n (A.4.15) Per ottenere σS2 02 occorre sottrarre h n oi2 µ n − 1 ∂2 2 E S0 = σx4 n (A.4.16) Svolgendo i calcoli algebrici si ottiene σS2 02 (n − 1)2 = n3 µ ∂ n−3 4 µ4 − σ n−1 x (A.4.17) A questo punto passiamo a σS2 2 ricordando che dalle proprietà del valore di aspettazione risulta 2 2 2 σcH( x) = c σH(x) Made with Macintosh 35 (A.4.18) C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 se c è una costante. Avremo σS2 2 A.5 = µ n n−1 ∂2 σS2 02 1 = n µ ∂ n−3 4 µ4 − σ n−1 x (A.4.19) Distribuzione della media aritmetica di un campione estratto da una distribuzione uniforme Prima di effettuare il calcolo dimostriamo due formule che ci saranno indispensabili e che sono comunque di utilità generale nello studio delle distribuzioni statistiche. A.5.1 Distribuzione della somma di due variabili casuali indipendenti Siano x e y due variabili casuali indipendenti, distribuite con densità di probabilità f (x) e g(y), rispettivamente. Vogliamo determinare la densità di probabilità h(z) della variabile casuale z = x + y. Per far ciò determiniamo preventivamente la funzione di distribuzione H(z). Possiamo considerare x e y come elementi di una distribuzione bidimensionale con densità di probabilità f (x)g(y). Allora H(z) = P (x + y < z) risulterà dall’integrale della densità bidimensionale nella zona del piano cartesiano al di sotto della retta x + y = z. y z y= x+ dx x Fig. A.5.1 Zona per il calcolo della probabilità P (x + y < z). Possiamo calcolare l’integrale suddividendo la zona in strisce verticali di larghezza dx infinitesima che andranno, in y, da −∞ a z − x. Calcoleremo prima l’integrale su ciascuna striscia e poi integreremo sulle varie strisce: H(z) = Z +∞ −∞ Made with Macintosh f (x) ∑Z z−x ∏ g(y) dy dx −∞ 36 (A.5.1) C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 Determiniamo la densità di probabilità di z come derivata della funzione di distribuzione27 dH(z) h(z) = = dz Z +∞ −∞ f (x)g(z − x) dx (A.5.2) Data la simmetria fra x e y, h(z) si può calcolare anche con la formula equivalente h(z) = Z +∞ −∞ f (z − y)g(y) dy (A.5.3) Per la sua forma h(z) è detta anche prodotto di convoluzione delle distribuzioni. Da questo risultato deriva un corollario interessante per quanto riguarda la gaussiana: supponiamo di avere due distribuzioni gaussiane con valori medi x̂1 e x̂2 e deviazioni standard σ1 , σ2 . La somma delle due variabili avrà, secondo la (A.5.2) una densità di probabilità data da 1 h(z) = 2πσ1 σ2 Z +∞ −∞ µ ∂ (x − x̂1 )2 (z − x − x̂2 )2 exp − − dx 2σ12 2σ22 (A.5.4) ponendo, per ristabilire la simmetria dell’espressione, z − x̂2 = u2 e raggruppando l’argomento dell’esponenziale secondo le potenze di x avremo Ω ∑µ ∂ µ ∂ Z +∞ 1 1 1 x̂1 u2 2 h(z) = exp − + 2 x + − 2 − 2 x+ 2πσ1 σ2 −∞ 2σ12 2σ2 σ1 σ2 µ 2 ∂∏æ 2 x̂1 u + + 22 dx 2 2σ1 2σ2 (A.5.5) £ ° 2 ¢§ exp − ax + bx + c dx con a > 0 può essere risolto trami−∞ h 2 i ¢ pπ √ ° b b te la sostituzione di variabile w = a x + 2a con risultato a exp 4a − c . Applicando questo risultato alla (A.5.5) e svolgendo i calcoli algebrici si giunge alla soluzione Un integrale della forma 27 R +∞ ∑ ∏ 1 (z − x̂1 − x̂2 )2 h(z) = √ p 2 exp − 2(σ12 + σ22 ) 2π σ1 + σ22 Si sfrutta la proprietà per cui Made with Macintosh d dz Rz a f (x) dx = f (z). 37 (A.5.6) C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 Quindi la somma di due variabili gaussiane è ancora distribuita in modo gaussiano, con valor medio pari alla somma dei valori medi e deviazione standard p pari alla radice della somma dei quadrati delle deviazioni. La relazione σz = σ12 + σ22 è un caso particolare della propagazione quadratica degli errori statistici, vista alla sezione 3.1. A.5.2 Distribuzione di una funzione di variabile casuale Siano le variabili casuali x e y legate da una funzione monotona, e quindi invertibile y = H(x), x = H −1 (y). Vogliamo determinare la densità di probabilità g(y) della y in funzione di quella f (x) della x e di H. In questo caso a ciascun intorno infinitesimo dy di y corrisponde uno e un solo intorno infinitesimo su x, posto in H −1 (y). La probabilità di cadere nell’intorno dy deve essere uguale a quella di cadere nell’intorno corrispondente in x; se H(x) è monotona crescente (e, di conseguenza, lo è anche H −1 (y)) questa condizione si può scrivere nella forma ° ¢ ° ¢ P (y ≤ y < y + dy) = P H −1 (y) ≤ x < H −1 (y + dy) = f H −1 (y) µ dH −1 (y) dy ∂ dy (A.5.7) Se invece H(x) è monotona decrescente, va tenuto conto che all’estremo sinistro dell’intervallo in x corrisponde l’estremo destro di quello in y e viceversa, per cui si deve scrivere µ ∂ ° −1 ¢ ° −1 ¢ dH −1 (y) −1 P (y ≤ y < y + dy) = P H (y + dy) ≤ x < H (y) = f H (y) − dy dy (A.5.8) Da quanto sopra risulta che in generale, se H è monotona, vale Ø Ø ° −1 ¢ Ø dH −1 (y) Ø Ø g(y) = f H (y) ØØ Ø dy (A.5.9) Nel caso H non sia monotona la situazione si complica, perché ad un intervallo infinitesimo in y possono corrispondere più intervalli in x: il campo di H(x) va spezzato in tratti monotoni e si devono sommare i contributi di ciascuno. Il caso più semplice di “cambio di variabile” si ha quando y = αx con α costante. In questo caso 1 ≥y¥ g(y) = f (A.5.10) |α| α Made with Macintosh 38 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 A.5.3 Distribuzione della media aritmetica La nostra variabile di partenza ha una densità di probabilità uniforme in [0, 1] x<0 0 f1 (x) = 1 0 ≤ x ≤ 1 0 x>1 (A.5.11) Cominciamo col valutare le densità di probabilità della somma di 1, 2, . . . n variabili indipendenti di questo tipo, che chiameremo g1 (x), g2 (x), . . . gn (x). Ovviamente g1 (x) = f1 (x). Usando la (A.5.2) possiamo scrivere l’espressione di gn (x) in funzione di gn−1 (x) gn (x) = Z +∞ −∞ g1 (z)gn−1 (x − z) dz = Z Z 1 gn−1 (x − z) dz = 0 x gn−1 (w) dw (A.5.12) x−1 Nel primo passaggio abbiamo sfruttato l’espressione di g1 (x) e nel secondo si è operato un cambio di variabile. Utilizzando la (A.5.12) è possibile calcolare in successione g2 (x), g3 (x). . . g1(w) x-1 g1(w) x-1 x 1 1 0 x-1 1 g2(w) w 0 g2(w) x x-1 1 0 2 w0 w 1 g2(w) x 1 1 x x-1 x 1 1 2 w 0 1 2 w Fig. A.5.2 Calcolo dell’espressione (A.5.12) nel passaggio da 1 a 2 e da 2 a 3 addendi nella somma di variabili distribuite uniformemente. Ad esempio per il calcolo di g2 (x) R xvediamo che se x < 0 o x > 2 il risultato è nullo, mentre se 0 < x < 1 g2 (x) = 0 dw = x (vedi figura A.5.2). Per 1 < x < 2 R1 g2 (x) = x−1 dw = 2 − x. Passando da g2 (x) a g3 (x) il risultato è nullo per x < 0 o x > 3; Rx R1 Rx per 0 < x < 1 g3 (x) = 0 w dw = x2 /2, per 1 < x < 2 g3 (x) = x−1 w dw+ 1 (2−w) dw = R2 −x2 + 3x − 3/2, per 2 < x < 3 g3 (x) = x−1 (2 − w) dw = x2 − 3x + 9/2. Procedendo nel Made with Macintosh 39 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 calcolo28 si vede che in generale gi (x) è diversa da 0 nell’intervallo (0, i) ed è costituita da i polinomi di grado i − 1 in x, che si raccordano nei punti 1, 2, . . . i − 1. Le gi (x) sono le densità di probabilità delle somme. Per passare alle densità fi (x) delle medie si applica la (A.5.10) fi (x) = i gi (i x) (A.5.13) Le fi (x) per 2 ≤ i ≤ 5 risultano (riportando solo le zone in cui sono non nulle) f2 (x) = ( 4x 4(1 − x) 0<x< 1 2 1 2 <x<1 f3 (x) = 27 2 2 x 2 − 92 (6x − 6x + 1) 27 2 (x − 1)2 128 3 0 < x < 14 3 x 4(−32x3 + 32x2 − 8x + 2 ) 1 < x < 1 3 4 2 f4 (x) = 8 1 3 3 2 (48x − 96x + 60x − 11) 3 2 <x< 4 3 3 − 128 3 (x − 1) 4 <x<1 3125 4 24 x 4 3 2 − 25 24 (500x − 500x + 150x − 20x + 1) 25 4 3 2 f5 (x) = 24 (750x − 1500x + 1050x − 300x + 31) 4 3 2 − 25 24 (500x − 1500x + 1650x − 780x + 131) 3125 4 24 (x − 1) A.6 0<x< 0<x< 1 5 2 5 3 5 4 5 <x< <x< <x< 1 3 2 3 <x< 1 3 2 3 <x<1 1 5 2 5 3 5 4 5 <x<1 (A.5.14) Lo scarto massimo dalla media aritmetica Per studiare più da vicino il comportamento dello scarto massimo della media aritmetica di una distribuzione, Max {|xi − x|}, consideriamo il caso specifico di una distribuzione gaussiana, visto che si tratta di quella con cui avremo in pratica a che fare. In particolare possiamo, senza perdere in generalità, considerare una gaussiana con media nulla e σ = 1: il valore della media non altera la distribuzione degli scarti, mentre cambiare la σ significa cambiare la scala dell’asse x, e quindi proporzionalmente le ampiezze degli scarti. Non abbiamo trovato in letteratura, né siamo stati capaci di ricavare un’espressione della distribuzione dello scarto massimo dalla media aritmetica di un campione di am28 L’operazione può essere notevolmente semplificata con l’aiuto di un’applicazione per il calcolo simbolico, come Mathematica o Maple. Made with Macintosh 40 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 piezza n distribuito gaussianamente. È abbastanza facile invece determinare la densità di probabilità del massimo scarto dalla media della distribuzione Max {|xi − x̂|} per una gaussiana con x̂ = 0 e σ = 1. La densità di probabilità cercata è definita fra 0 e +∞. La probabilità che lo scarto massimo dalla media sia compreso fra x e x + dx è data da n−1 P (x ≤ Max {|xi − x̂|} < x + dx) = g(x)dx con g(x) = 2n [2F (x) − 1] f (x) (A.6.1) dove f (x) è la densità di probabilità gaussiana e F (x) la sua funzione di distribuzione. Per provare il risultato determiniamo la probabilità che di n dati del campione i primi n − 1 siano −x < xi < x x = 1, . . . n − 1 e l’ultimo abbia scarto dalla media, che è 0, compreso fra x e x + dx. La probabilità che un singolo elemento del campione sia compreso fra −x e x è pari a F (x) − F (−x) oppure, data la simmetria della distribuzione intorno a 0, a 2(F (x)−F (0)) = 2(F (x)− 12 ). La probabilità che n−1 elementi indipendenti del campione n−1 soddisfino a questa condizione è [2F (x) − 1] . La probabilità che l’ultimo elemento del campione abbia scarto compreso fra x (ovviamente positivo) e x + dx corrisponde a 2f (x) dx perché il campione potrà trovarsi sia in un intorno infinitesimo di x che di −x e f (x) è simmetrica. Infine, in questo modo abbiamo considerato uno solo degli n modi equiprobabili in cui può avvenire l’evento; infatti l’elemento con lo scarto massimo può essere uno qualsiasi degli n elementi del campione. Per ottenere la probabilità totale occorre quindi moltiplicare per n. Possiamo verificare direttamente che la nostra densità di probabilità è correttamente normalizzata a 1: Z +∞ 0 =n n−1 2n [2F (x) − 1] Z 1 y n−1 f (x) dx = 2n Z 1 1 2 n−1 [2F (x) − 1] dF (x) = (A.6.2) dy = 1 0 Questa densità di probabilità non corrisponde esattamente a quella che cerchiamo: Max {|xi − x|} ma, dato che x è uno stimatore non polarizzato e consistente di x̂, al crescere di n i valori della media aritmetica tendono ad essere distribuiti sempre più strettamente intorno a x̂ e quindi le due densità di probabilità sono asintoticamente identiche. Per piccoli valori di n la distribuzione di Max {|xi − x|} sarà spostata su valori minori di quella di Max {|xi − x̂|}, perché nel primo caso il valore che scarta più dalla media aritmetica tende comunque a spostare la medesima verso di sé, e quindi a diminuire lo scarto. Per valutare la densità di probabilità associata a Max {|xi − x|} possiamo comunque usare il cosiddetto metodo Monte Carlo. Il nome deriva dalla città nota per il suo casinò e consiste nel simulare un esperimento casuale per mezzo di un algoritmo di calcolatore che produce una sequenza di numeri casuali29 distribuiti con una densità di probabilità data. 29 O meglio, pseudo-casuali: infatti i valori che si ottengono sono distribuiti con la densità di probabilità Made with Macintosh 41 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 I risultati della simulazione sono riportati nella figura A.6.2, a pagina seguente. Si vede che mentre la deviazione standard della media, al crescere di n, mantiene il suo valore di aspettazione e riduce la larghezza della distribuzione intorno ad esso, lo scarto massimo ha un valore di aspettazione che cresce lentamente con n e la sua distribuzione rimane più larga di quella della deviazione standard. 5 4.5 a) E{Max{|xi-x|}} 0.225 b) var{Max{|xi-x|}} 0.2 4 0.175 0.15 3.5 0.125 3 0.1 2.5 0.075 100 1000 10000 100000. 1. * 10 6 n 100 1000 10000 100000. 1. * 10 6 n Fig. A.6.1 Andamento asintotico del valore d’aspettazione di Max {|xi − x̂|}, in a), e della rispettiva varianza, in b), in funzione dell’ampiezza n del campione. Nel caso di Max {|xi − x̂|}, che ha un’espressione analitica, è possibile studiare il valore d’aspettazione e la deviazione standard anche per valori più alti di n, che renderebbero problematico il metodo Monte Carlo. Si osserva che il valore d’aspettazione seguita a crescere molto lentamente, mentre altrettanto lentamente diminuisce la deviazione standard. voluta e i diversi valori non mostrano effetti di correlazione, ma non si possono definire del tutto casuali, dato che conoscendo i valori estratti precedentemente e l’algoritmo di generazione è possibile predire deterministicamente il valore successivo e i seguenti. Made with Macintosh 42 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 1.6 1.75 5 1.4 1.2 10 1.5 1.25 1 1 0.8 0.75 0.6 0.4 0.5 0.2 0.25 1 2 3 4 1 2 3 4 6 3 20 2.5 2 4 1.5 3 1 2 0.5 1 1 2 3 1 4 2 3 4 Expectation values of Max{Abs[xi-x]} calculated with M.-C. and from asympt. distribution. 8 100 6 50 5 2.25 2 4 1.75 1.5 2 1.25 1 2 3 4 10 20 30 40 0.75 Fig. A.6.2 Distribuzione della deviazione standard e degli scarti massimi dalla media aritmetica x e dalla media della distribuzione x̂ per campioni di ampiezze diverse da una gaussiana con x̂ = 0 e σx = 1. Gli istogrammi sono costruiti col metodo Monte Carlo, il blu per σx e il verde per Max {|xi − x|}. Le curve rispettive sono la distribuzione di σx e quella di Max {|xi − x̂|}. Nell’ultimo grafico sono riportati i valori di aspettazione di Max {|xi − x|} (rosso) e Max {|xi − x̂|} (nero) in funzione dell’ampiezza del campione. Made with Macintosh 43 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica A.7 6 ottobre 2008 Propagazione quadatica dell’errore statistico È facile dimostrare che nel caso di errori a posteriori la propagazione dovrà essere di tipo quadratico. Consideriamo una grandezza fisica M che è calcolata a partire da r misure dirette indipendenti x1 , . . . xr M = M (x1 , . . . xr )30 Calcoliamo σM come © ™ 2 2 σM = E M 2 − [E {M }] (A.7.1) Supponiamo che le xi abbiano distribuzioni fi (xi ) sufficientemente strette intorno ai valori medi x̂i , cosı̀ che nel calcolo degli integrali dei valori d’aspettazione siano trascurabili i contributi al di fuori di una piccola zona intorno ai valori medi. In questo caso potremo sviluppare la funzione M fino al secondo ordine negli xi − x̂i : ∂ r µ X ∂M M (x1 , . . . xr ) ' M (x̂1 , . . . x̂r ) + (xi − x̂i )+ ∂x i x̂ i=1 µ ∂ r 2 1 X ∂ M + (xi − x̂i )(xj − x̂j ) 2 i,j=1 ∂xi ∂xj x̂ (A.7.2) dove le derivate parziali sono calcolate in (x̂1 , . . . x̂r ). Corrispondentemente avremo per M 2 , sempre al secondo ordine ∂ r µ X ∂M M (x1 , . . . xr ) ' M (x̂1 , . . . x̂r ) + 2M (x̂1 , . . . x̂r ) (xi − x̂i ) + ∂xi x̂ i=1 µ ∂ µ ∂ r X ∂M ∂M + (xi − x̂i )(xj − x̂j )+ ∂xi x̂ ∂xj x̂ i,j=1 µ 2 ∂ r X ∂ M + M (x̂1 , . . . x̂r ) (xi − x̂i )(xj − x̂j ) ∂x ∂x i j x̂ i,j=1 2 30 2 (A.7.3) Quindi M è una funzione delle variabili casuali xi , che qui però, a differenza di quanto avviene per le ripetizioni di una stessa misura, provengono da distribuzioni indipendenti fi (xi ) in generale diverse. Made with Macintosh 44 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 Per l’indipendenza degli xi risulta ∂ ∂2M σx2i 2 ∂xi x̂ µ ∂2 r X © 2™ ∂M 2 E M = M (x̂1 , . . . x̂r ) + σx2i ∂xi x̂ i=1 r 1X E {M } = M (x̂1 , . . . x̂r ) + 2 i=1 µ (A.7.4) Calcoliamo [E {M }]2 fino ai termini del secondo ordine in σxi , che corrispondono ai termini del secondo ordine in xi − x̂i 2 2 [E {M }] = M (x̂1 , . . . x̂r ) + M (x̂1 , . . . x̂r ) ∂ r µ 2 X ∂ M i=1 ∂x2i σx2i (A.7.5) x̂ Dalla differenza delle espressioni risulta immediatamente 2 σM ∂2 r µ X ∂M = σx2i ∂xi x̂ i=1 (A.7.6) 2 Dovendo stimare σM a partire da un numero finito di misure, sostituiremo gli stimatori xi a x̂i e Sx2i a σx2i e avremo 2 SM ∂2 r µ X ∂M = Sx2i ∂x i x i=1 (A.7.7) È possibile comunque trovare lo stesso risultato in un modo più generale ed elegante, facendo uso del concetto di matrice di correlazione definita dalle (2.19) e (2.20). Prima di tutto riscriviamo le due equazioni utilizzando il formalismo vettoriale. Introduciamo due vettori colonna a n elementi x 1 x2 x= ... xn x̂ 1 x̂2 x̂ = ... x̂n (A.7.8) contenenti rispettivamente le variabili casuali e i rispettivi valori medi. Con questa notazione si può scrivere l’intera matrice di correlazione, comprendente le varianze nei termini Made with Macintosh 45 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 diagonali e le covarianze negli altri, in forma compatta © ™ Cx = E (xx − x̂)(xx − x̂)t (A.7.9) dove l’operatore t indica la trasposizione, in questo caso in vettore riga.31 Consideriamo ora una nuova variabile casuale y di dimensione m che si ottiene applicando a x la trasformazione lineare ottenuta moltiplicando per una matrice M {m × n} e aggiungendo un vettore a{m × 1} y = Mxx + a (A.7.10) ŷ = E {yy} = E {Mxx + a} = M x̂ + a (A.7.11) Avremo per ŷ dove si sono sfruttate le proprietà di linearità enunciate in (A.2.1). A questo punto possiamo calcolare la matrice di correlazione per la nuova variabile n o © ™ t Cy = E (yy − ŷ)(yy − ŷ)t = E M (xx − x̂) [M (xx − x̂)] = © ™ = E M (xx − x̂)(xx − x̂)t M t = M Cx M t (A.7.12) dove si è sfruttata la nota proprietà per la trasposta di un prodotto di matrici: (AB)t = B t At . La (A.7.12) è una relazione molto utile in statistica, in quanto permette di calcolare la matrice di correlazione di una variabile vettoriale che ha dipendenza lineare da un’altra di matrice nota. Possiamo applicare questo risultato per trovare una forma generale della propagazione degli errori statistici, valida anche quando le variabili di partenza non sono fra loro indipendenti. Consideriamo il caso in cui y = H(xx) e sviluppiamo la relazione al primo ordine intorno a x = x̂ y ' H(x̂) + M (xx − x̂) = Mxx + a Ø ∂Hi (x) ØØ Mij = ∂xj Øx=x̂ dove (A.7.13) Una volta effettuata la trasformazione, si ottiene la matrice di correlazione delle nuove 31 Infatti se moltiplichiamo un vettore colonna a{n × 1} per un vettore riga b{n × 1} otteniamo una matrice C{n × n} i cui elementi sono dati da Cij = ai bj . Made with Macintosh 46 C 2006 Andrea Perego, Univ. di Firenze - Dip. di Fisica 6 ottobre 2008 variabili dalla (A.7.12). Esplicitamente Cyij = n X n X k=1 l=1 Mik Cxkl Mljt Ø Ø n X n X ∂Hi (x) ØØ ∂Hj (x) ØØ = Cxkl ∂xk Øx=x̂ ∂xl Øx=x̂ (A.7.14) k=1 l=1 Consideriamo il caso particolare in cui y è scalare, ossia assimilabile a un vettore unidimensionale Ø Ø n X n X ∂H(x) ØØ ∂H(x) ØØ σy = Cxkl = ∂xk Øx=x̂ ∂xl Øx=x̂ k=1 l=1 Ø Ø ∂2 n µ n−1 n X X X Ø Ø ∂H(x) ∂H(x) ∂H(x) Ø Ø cov(xk , xl ) = σx2k + 2 Ø Ø ∂xk ∂x ∂x k l x̂ x̂ x̂ k=1 k=1 l=k+1 2 (A.7.15) dove il secondo termine dell’ultima espressione, quello con la doppia sommatoria, tiene conto del fatto che la matrice di covarianza è simmetrica. Qualora, come accade nei casi pratici, la conoscenza della statistica derivi da un campione finito, si sostituiranno nella (A.7.15) i valori stimati delle medie e della matrice di covarianza delle variabili di partenza. Si noti che il primo termine della (A.7.15) coincide con la soluzione già trovata in (A.7.7). Made with Macintosh 47
Documenti analoghi
Lezione 23 — 07 Dicembre 23.1 Unscented Kalman filter
wi h(x̂ik+1|k , viv )
i
i
wi (ŷk+1|k
− ŷk+1|k )(ŷk+1|k
− ŷk+1|k )T
i
− ŷk+1|k )T
wi (x̂ik+1|k − x̂k+1|k )(ŷk+1|k