scarica pdf - Dipartimenti
Transcript
scarica pdf - Dipartimenti
Una procedura per determinare i valori critici esatti per il test di Kolmogorov-Smirnov Silvia Facchinetti Dipartimento di Scienze Statistiche, Università Cattolica del Sacro Cuore, Largo Gemelli 1, 20123 Milano [email protected] Sommario Nell’ambito delle procedure non parametriche è di particolare rilievo il test proposto da Kolmogorov e Smirnov, che consente di verificare l’adattamento distributivo di un campione casuale proveniente da una variabile casuale continua. Il test si basa sul confronto tra la funzione di ripartizione empirica del campione Sn (x) e quella teorica F0 (x) specificata nell’ipotesi nulla, mediante l’utilizzo della statistica Dn = sup−∞<x<∞ |Sn (x) − F0 (x)| avente la caratteristica di essere indipendente da F0 (x). Obiettivo di questa ricerca è fornire una procedura per determinare i valori critici esatti del test per i consueti livelli di significatività, comparandoli con quelli disponibili in letteratura e con quelli asintotici. In particolare, si considera una modifica alla procedura proposta da Feller (1948) che, considerando le relazioni formali tra gli eventi, consente di definire un sistema di equazioni lineari i cui coefficienti sono probabilità marginali e condizionate degli eventi e le cui soluzioni consentono di ottenere la funzione di ripartizione della statistica test. Keywords: Goodness of fit tests, Percentiles of Kolmogorov-Smirnov’s statistic. 1 Introduzione Il test di Kolmogorov-Smirnov rientra nell’ambito dei test di adattamento distributivo che si propongono di verificare, relativamente ad una variabile aleatoria X unidimensionale e assolutamente continua, se i dati provengono da un’assegnata legge di distribuzione F0 (x), cioè si basa sulla verifica del sistema d’ipotesi: H0 : F (x) = F0 (x) ∀x (1.1) H1 : F (x) 6= F0 (x) per qualche x dove F (x) è la vera legge di distribuzione da cui sono stati estratti i dati. Sia (x1 , x2 , . . . , xn ) un campione casuale di ampiezza n estratto da una generica variabile casuale X continua avente legge di distribuzione: F (x) = P r(X ≤ x). Sia inoltre (x(1) , x(2) , . . . , x(n) ) il corrispondente campione ordinato. La funzione di distribuzione empirica associata al campione ordinato è definita mediante la relazione: 0 se x < x(1) k se x(k) ≤ x < x(k+1) con k = 1, 2, . . . , n − 1. Sn (x) = (1.2) n 1 se x ≥ x(n) Questa risulta essere una funzione monotona non decrescente a gradini di altezza costante pari a 1/n in corrispondenza dei valori osservati x1 , x2 , . . . , xn (per ipotesi distinti). La formulazione originale del test, dovuta a Kolmogorov, si basa su un risultato ottenuto nel 1933 da Glivenko e Cantelli, i quali provano che, per la legge forte dei grandi numeri, la probabilità che al divergere di n, Sn (x) converga uniformemente a F0 (x) è uno. Nello stesso anno Kolmogorov introduce la statistica: Dn = sup |Sn (x) − F0 (x)| (1.3) −∞<x<∞ tale che la regione critica di rifiuto dell’ipotesi nulla è: dα R = Dn : Dn > Dα,n = √ n dove il centile della distribuzione viene definito mediante un valore dα che dipende solo da α. Se X è una variabile casuale continua, la distribuzione di Dn è indipendente dalla legge di distribuzione di F0 (x), quindi il test viene detto distribution-free. Poichè il calcolo esatto della funzione di ripartizione di Dn diventa oneroso al crescere di n, Kolmogorov (1933) e Smirnov (1939) forniscono la legge di distribuzione limite della variabile casuale Dn : ∞ X dα 2 2 √ =1−2 (−1)k−1 e−k dα = L(dα ) (1.4) FDn (Dα,n ) = P r Dn ≤ n k=1 la cui approssimazione, che prende in considerazione solo il primo termine della serie, è già accettabile per n ≥ 35: dα 2 FDn (Dα,n ) = P r Dn ≤ √ ' 1 − 2e−dα . (1.5) n 2 I valori della funzione L(dα ) sono stati tabulati da Smirnov (1948). Sono numerosi gli autori che si sono dedicati allo studio della distribuzione della statistica Dn ; tra gli altri emergono: Feller (1948) che semplifica e unisce le dimostrazioni proposte da Kolmogorov e Smirnov; Doob (1949) che fornisce una dimostrazione di tipo euristico e Miller (1956) che introduce una modifica empirica alla formula (1.4). Inoltre, Massey (1951) e Birnbaum (1952) hanno ricavato, mediante due diverse procedure, le tavole dei valori critici esatti, per n ≤ 35. 2 Una procedura per il calcolo dei valori critici esatti per il test di Kolmogorov-Smirnov Per quanto detto sopra, si supponga che X sia una variabile casuale di tipo Uniforme X ∼ U (0, 1) e si consideri il seguente grafico che riporta la funzione di ripartizione F0 (x) della variabile casuale X e la legge empirica Sn (x): 1 F0(x) 0,9 0,8 d(x) 0,7 0,6 0,5 0,4 Sn(x) 0,3 0,2 0,1 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 x Figura 2.1: Funzione di ripartizione teorica della variabile casuale X ∼ U (0, 1) e funzione di ripartizione empirica per un campione di dimensione n = 4 La figura mette in evidenza anche le differenze k −x n che rappresentano le distanze verticali tra le due funzioni. Di conseguenza Dn è semplicemente la più ampia tra tali differenze assolute. Fissato un valore 0 ≤ Dα,n = D ≤ 1, la funzione di ripartizione della variabile casuale Dn , FDn (D) = P r(Dn ≤ D), coincide con la probabilità dell’unione di tutti i possibili campioni (x1 , x2 , . . . , xn ) la cui legge empirica, per 0 ≤ x ≤ 1, risulta compresa tra le due rette parallele alla funzione di ripartizione teorica F0 (x) = x aventi equazione: y = x + D retta superiore r1 y = x − D retta inferiore r2 d(x) = Sn (x) − F0 (x) = dove D e −D sono le intercette delle due rette r1 e r2 che definiscono una banda intorno alla funzione F0 (x). Se la statistica Dn cadrà all’interno della regione definita dalle due rette, si accetterà l’ipotesi nulla, altrimenti si preferirà quella alternativa. Supponendo di essere interessati al secondo caso, si vuole calcolare la probabilità: 1 − FDn (D) = P r {Dn > D} . 3 L’evento ”superamento della banda” si può verificare per ogni valore di x in corrispondenza della retta superiore oppure in corrispondenza di quella inferiore. In particolare, se per qualche valore x la differenza tra la funzione di ripartizione empirica e quella teorica supera la retta r1 : Sn (x) − F0 (x) > D (2.1) questa disuguaglianza sarà valida per tutti i valori di x appartenenti all’intervallo 1 Ik = [x(k) , x1k ), essendo x1k il punto di intersezione della funzione di ripartizione empirica con la retta r1 , per l’estremo superiore del quale essa diventerà un’uguaglianza, e si avrà: Sn (x1k ) − F0 (x1k ) = D. (2.2) In altri termini, se esistono dei valori x che, in corrispondenza di un generico gradino k della funzione di ripartizione empirica, definiscono un intervallo 1 Ik che risulta essere superiore a D, cioè esterno alla banda, sicuramente il valore x1k di x che identifica l’estremo superiore di tale intervallo determinerà il punto d’intersezione con la retta. Poiché F0 (x) = x, allora anche F0 (x1k ) = x1k , quindi la (2.2) diventa k − x1k = D. n Di conseguenza la disuguaglianza (2.1) è valida se e solo se per almeno un valore di k si ha x(k) < x1k = k −D n per k = 0, 1, . . . , n e con x(0) = 0. Analogamente, se per qualche valore x Sn (x) − F0 (x) < −D (2.3) cioè se la differenza risulta al di sotto della retta r2 , questa disuguaglianza sarà valida per tutti i valori di x appartenenti all’intervallo 2 Ik = (x2k , x(k+1) ), essendo x2k il punto di intersezione della funzione di ripartizione empirica con la retta r2 (per l’estremo inferiore del quale essa diventerà un’uguaglianza); si avrà pertanto: Sn (x2k ) − F0 (x2k ) = −D. (2.4) In altri termini, se esistono dei valori x che definiscono un intervallo 2 Ik che risulta essere inferiore a −D, cioè esterno alla banda, sicuramente il valore x2k di x che identifica l’estremo inferiore di tale intervallo determinerà il punto d’intersezione con la retta. Poiché anche in questo caso F0 (x2k ) = x2k , la (2.4) diventa k − x2k = −D. n Di conseguenza la disuguaglianza (2.3) è valida se e solo se per almeno un valore di k si ha x(k+1) > x2k = k +D n per k = 0, 1, . . . , n e con x(n+1) = 1. Indicando l’evento: A1k superamento della banda in corrispondenza della retta superiore r1 A2k superamento della banda in corrispondenza della retta inferiore r2 4 per k = 0, 1, . . . , n, si osserva che la statistica Dn eccederà D se e solo se si verifica almeno uno dei seguenti 2n + 2 eventi: A10 , A20 , A11 , A21 , A12 , A22, . . . , A1n , A2n . (2.5) Si osserva tuttavia che l’evento A10 è impossibile, in quanto trovandosi sull’asse delle ascisse non è possibile il superamento della retta r1 ; analogamente l’evento A2n è impossibile, in quanto per k = n la funzione di ripartizione empirica è pari a 1 e quindi non è possibile il superamento della retta r2 . Quanto detto porta all’equivalenza formale degli eventi (" n # " n #) [ [ {Dn > D} ⇐⇒ A1k ∪ A2k (2.6) k=0 k=0 Bisogna inoltre prestare attenzione al fatto che gli eventi possibili sono solo quelli che si verificano all’interno del quadrato unitario, cioè 0 < xik < 1, per i = 1, 2 e k = 0, 1, . . . , n, le cui espressioni sono: x1k = k−nD x1k + D = nk n =⇒ x2k − D = nk x2k = k+nD n Di conseguenza, affinché le rette rimangano all’interno del quadrato unitario è necessario che si verifichino alcune condizioni: • per la retta superiore: x1k > 0 =⇒ k > nD, per cui il valore minimo che può assumere k è: m1 = [nD] + 1 dove [nD] = int(nD), quindi k = m1 , m1 + 1, . . . , n; • per la retta inferiore: x2k < 1 =⇒ k < n − nD, per cui il valore massimo che può assumere k è: m2 = n − ([nD] + 1) dove [nD] = int(nD), quindi k = 0, 1, . . . , m2 . Riassumendo: 0 < x1k < 1 ⇔ k = m1 , m1 + 1, . . . , n 0 < x2k < 1 ⇔ k = 0, 1, . . . , m2 con m1 + m2 = n. Come conseguenza di quanto detto si ha che anche gli eventi A1k e A2k risultano definiti sui due insiemi distinti: A1k per k = m1 , m1 + 1, . . . , n (2.7) A2k per k = 0, 1, . . . , m2 . Si osserva ora l’equivalenza degli eventi (" n # " n #) (" n # "m #) [ [ [ [2 {Dn > D} ⇐⇒ A1k ∪ A2k ⇐⇒ A1k ∪ A2k k=0 k=0 k=m1 (2.8) k=0 in quanto l’unione estesa a eventi impossibili non altera il risultato finale. Se ora definiamo 2n + 2 eventi mutuamente esclusivi Ur ⊂ A1r e Vr ⊂ A2r , con r ≤ k tali che: • Ur è l’evento che si verifica se A1r è il primo evento della sequenza (2.5) a verificarsi per r = 0, 1, . . . , n; 5 • Vr è l’evento che si verifica se A2r è il primo evento della sequenza (2.5) a verificarsi per r = 0, 1, . . . , n; si ottiene che l’evento " n [ # " Ur ∪ r=0 n [ # Vr r=0 è equivalente a quelli definiti nella (2.8). Inoltre, poiché gli eventi Ur e Vr sono mutuamente esclusivi, si ha: P r {Dn > D} = n X [P r {Ur } + P r {Vr }] . (2.9) r=0 Dalle definizioni degli eventi A1k , A2k , Ur e Vr si ottengono quindi le relazioni: P P r {A1k } = kr=0 [P r {Ur } P r {A1k |A1r } + P r {Vr } P r {A1k |A2r }] P P r {A2k } = kr=0 [P r {Ur } P r {A2k |A1r } + P r {Vr } P r {A2k |A2r }] (2.10) dove • P r{Atk } per t = 1, 2 sono le probabilità marginali, cioè le probabilità che si verifichi l’evento ”superamento della banda” in corrispondenza di una delle due rette r1 e r2 ; • P r{Atk |Asr } per t = s = 1, 2 sono le probabilità condizionali, cioè le probabilità di superare la banda al livello k dato che è già stata superata al livello r, sapendo che r < k; • P r{Ur } e P r{Vr } esprimono rispettivamente la probabilità che si verifichi per primo, nella sequenza degli eventi A1r e A2r per r = 0, 1, . . . , n, l’evento A1r ”superamento della retta superiore” oppure l’evento A2r ”superamento della retta inferiore”. Si ottiene quindi, al variare di k, un sistema di 2n + 2 equazioni lineari in 2n + 2 incognite che, note le probabilità marginali e quelle condizionali, consente di determinare le probabilità P r {Ur } e P r {Vr }. Sostituendo i valori trovati nella relazione (2.9) si ottiene la funzione di ripartizione della statistica Dn cercata. 3 Determinazione delle probabilità marginali e condizionali Come anticipato nel paragrafo precedente, le probabilità marginali P r{Atk } per t = 1, 2 definiscono le probabilità che si verifichi l’evento ”superamento della banda”, cioè del verificarsi degli eventi A1k e A2k . Si tratta ora di ricavare le espressioni di queste probabilità, sapendo che per la (2.7): = 0, per k = 0, 1, . . . , m1 − 1 C1k = P r {A1k } > 0, per k = m1 , m1 + 1, . . . , n e C2k = P r {A2k } > 0, per k = 0, 1, . . . , m2 = 0, per k = m2 + 1, m2 + 2, . . . , n. 6 In particolare, poiché C1k equivale alla probabilità che k valori xi per i = 1, . . . , n siano inferiori o uguali a x1k , C1k viene correttamente descritta da una variabile casuale Binomiale di parametri (n, p1k ), con k −D , p1k = x1k = F (x1k ) = n quindi: C1k n! = k!(n − k)! k − nD n k n − k + nD n n−k per k = m1 , m1 + 1, . . . , n. Analogamente, poiché C2k equivale alla probabilità che k valori xi per i = 1, . . . , n siano inferiori o uguali a x2k , C2k viene correttamente descritta da una variabile casuale Binomiale di parametri (n, p2k ), con k +D , p2k = x2k = F (x2k ) = n quindi: C2k n! = k!(n − k)! k + nD n k n − k − nD n n−k per k = 0, 1, . . . , m2 . Si osserva che le espressioni che definiscono C1k e C2k dipendono esclusivamente da k, n e D. Al variare di k, risultano cosı̀ definiti due vettori C 1 e C 2 di dimensione (1×(n+1)) componenti il vettore C (1×(2n+2)) delle probabilità marginali: C1 C= . C2 Prima di ricavare le espressioni delle probabilità condizionali è necessario definire gli eventi condizionati: A1k |A1r , per k = m1 , . . . , n e r = m1 , . . . , n A2k |A1r , perk = 0, . . . , m2 e r = m1 , . . . , n (3.1) A1k |A2r , perk = m1 , . . . , n e r = 0, . . . , m2 A2k |A2r , perk = 0, . . . , m2 e r = 0, . . . , m2 . Affinché questi eventi condizionati Atk |Asr (t, s = 1, 2) siano considerati conseguenti (cioè affinché l’evento Atk non possa verificarsi prima dell’evento Asr ), si devono verificare simultaneamente le relazioni: xtk ≥ xsr , per t, s = 1, 2 k ≥ r. Si considerino separatamente i quattro eventi al variare di t e s: 1. t = s = 1 ⇒ A1k |A1r . Per r = m1 , . . . , n, e per un dato r l’indice k assume i valori k = r, r + 1, . . . , n. Quindi gli indici k e r devono soddisfare la disuguaglianza tra interi m1 ≤ r ≤ k ≤ n. 2. t = 2, s = 1 ⇒ A2k |A1r . Per r = m1 , . . . , n, e per un dato r l’indice k deve essere tale che r ≤ k ≤ m2 x2k ≥ x1r ⇒ k ≥ r − 2nD 7 (3.2) Da queste condizioni si ricava la relazione r ≤ k ≤ m2 , che delimita il dominio dei valori dell’indice r all’estremo superiore di k. Quindi i due indici devono soddisfare la relazione m1 ≤ r ≤ k ≤ m2 . (3.3) 3. t = 1, s = 2 ⇒ A1k |A2r . Per r = 0, . . . , m2 , e per un dato r l’indice k deve essere tale che r≤k≤n x1k ≥ x2r ⇒ k ≥ r + 2nD. Da queste condizioni si ricava la relazione r + 2nD ≤ k ≤ n (3.4) che comporta una limitazione anche per r; infatti dalla seconda equazione del sistema si ricava r ≤ k − 2nD. (3.5) 4. t = s = 2 ⇒ A2k |A2r . Per r = 0, . . . , m2 , e per un dato r l’indice k assume i valori k = r, r + 1, . . . , m2 . Quindi gli indici k e r devono soddisfare la disuguaglianza tra interi 0 ≤ r ≤ k ≤ m2 . (3.6) Quello che interessa è calcolare le probabilità degli eventi conseguenti Atk |Asr con (t, s = 1, 2), cioè le probabilità di superare la banda al livello k dato che è già stata superata al livello r. In particolare, dove sono definite, queste probabilità si ottengono tramite la seguente espressione Binomiale: k−r n−k xtk − xsr 1 − xtk (n − r)! (3.7) ts bkr = P r {Atk |Asr } = (k − r)!(k − n)! 1 − xsr 1 − xsr con t, s = 1, 2 e gli indici k, r soddisfacenti le relazioni (3.1) richieste dagli eventi conseguenti Atk |Asr . Al variare di t e s si ottengono quattro gruppi di probabilità condizionali che definiscono, al variare di k e r, gli elementi delle seguenti quattro matrici: 1. t = s = 1 ⇒ B 11 = (11 bkr ). Sostituendo nella (3.7) t = s = 1 si ha che P r {A1k |A1r } è: 11 bkr (n − r)! = (k − r)!(n − k)! per m1 ≤ r ≤ k ≤ n, avendo posto: k−r n1 − r k−r n1 = n(1 + D) n2 = n(1 − D). 8 n1 − k n1 − r n−k Si ottiene quindi una matrice triangolare inferiore (in quanto k ≥ r) di ordine (n + 1), e in particolare, per k = r gli elementi sulla diagonale principale sono tutti unitari. Valendo le restrizioni (3.2) si ottiene che il numero di probabilità da determinare contenute nella matrice è (m2 )(m2 + 1) (n − m1 )(n − m1 + 1) = 2 2 Si ottiene quindi la matrice B 11 avente struttura: Figura 3.1: Struttura della matrice B11 2. t = 2, s = 1 ⇒ B 21 = (21 bkr ). Sostituendo nella (3.7) t = 2, s = 1 si ha che P r {A2k |A1r } è: 21 bkr (n − r)! = (k − r)!(n − k)! k − r + 2nD n1 − r k−r n2 − k n1 − r n−k per m1 ≤ r ≤ k ≤ m2 = n − m1 . Si ottiene quindi una matrice triangolare inferiore di ordine (n+1), e valendo le restrizioni (3.3) si ottiene che il numero di probabilità da calcolare contenute nella matrice è (n − 2m1 + 1)(n − 2m1 + 2) (m2 − m1 + 1)(m2 − m1 + 2) = 2 2 Si ottiene quindi la matrice B 21 avente struttura: Figura 3.2: Struttura della matrice B21 9 3. t = 1, s = 2 ⇒ B 12 = (12 bkr ). Sostituendo nella (3.7) t = 1, s = 2 si ha che P r {A1k |A2r } è: k−r n−k (n − r)! k − r − 2nD n1 − k 12 bkr = (k − r)!(n − k)! n2 − r n2 − r per 0 ≤ r ≤ n − 2nD e r + 2nD ≤ k ≤ n. Poiché per r + 2nD = k l’espressione che definisce 12 bkr è nulla, ci si può limitare a calcolare le probabilità per i valori di k e r definiti nei campi: r = 0, 1, . . . , n − l1 e k = r + l1 , r + l1 + 1, . . . , n Si ottiene quindi una matrice triangolare inferiore di ordine (n + 1), caratterizzata, per le restrizioni (3.4) e (3.5), da un numero di termini non nulli pari a (n − l1 + 1)(n − l1 + 2) 2 dove l1 = int(2nD + 1) Si ottiene quindi la matrice B 12 avente struttura: Figura 3.3: Struttura della matrice B12 4. t = s = 2 ⇒ B 22 = (22 bkr ). Sostituendo nella (3.7) t = s = 2 si ha che P r {A2k |A2r } è: k−r n−k (n − r)! k−r n2 − k 22 bkr = (k − r)!(n − k)! n2 − r n2 − r per 0 ≤ r ≤ k ≤ m2 . Si ottiene quindi una matrice triangolare inferiore (in quanto k ≥ r) di ordine (n + 1), e in particolare, per k = r gli elementi sulla diagonale principale sono tutti unitari. Valendo le restrizioni (3.6) si ottiene che il numero di probabilità da calcolare contenute nella matrice è (m2 )(m2 + 1) 2 Si ottiene quindi la matrice B 22 avente struttura: 10 Figura 3.4: Struttura della matrice B22 Unendo le quattro matrici precedenti si ottiene che la matrice B delle probabilità condizionali è la matrice quadrata a blocchi di ordine (2n + 2): B 11 B 12 B= B 21 B 22 avente la seguente struttura: Figura 3.5: Struttura della matrice B 4 Funzione di ripartizione della statistica Dn Dopo aver determinato il vettore delle probabilità marginali C e la matrice delle probabilità condizionali B, le incognite del sistema (2.10) rimangono le probabilità dei 2n + 2 eventi mutuamente esclusivi Ur e Vr , cioè Wr = P r {Ur } e Yr = P r {Vr } che al variare di r vengono a costituire gli elementi dei vettori: W = {Wr } 11 e Y = {Yr } che costituiscono i due vettori componenti il vettore Z delle probabilità: W Z= Y di dimensione (1 × (2n + 2)). Di conseguenza, il sistema (2.10) può essere riscritto in termini matriciali come: B 11 B 12 W C1 = · C2 B 21 B 22 Y o in forma compatta come: C = B · Z. Poiché però la matrice B è singolare, in quanto det B = 0 non è possibile calcolare la sua inversa B −1 e quindi il sistema risulta essere indeterminato. Il problema viene risolto ricorrendo al calcolo della matrice pseudoinversa di Moore-Penrose B + in sostituzione della matrice inversa (si veda ad es. Salce (1993)). Si determinano cosı̀ le probabilità Wr e Yr tali che: P r {Dn > D} = n X [P r {Ur } + P r {Vr }] (4.1) r=0 dalle quali si ricavano i valori della funzione di ripartizione della statistica Dn di KolmogorovSmirnov: FDn (D) = P r {Dn ≤ D} . (4.2) Al variare di n i valori della funzione di ripartizione della statistica test Dn si presentano come in Figura 3.6. 1,0 0,9 0,8 Pr(Dn≤ D) n=3 0,7 n=5 0,6 n=8 0,5 n=18 n=20 0,4 n=31 0,3 n=98 0,2 0,1 0,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 D Figura 3.6: Funzione di ripartizione della statistica Dn 12 0,7 0,8 0,9 1,0 Dal grafico si osserva che tali curve tendono a spostarsi verso sinistra e a diventare più ripide all’aumentare della numerosità campionaria n, evidenziando cosı̀ un maggior livello di potenza del test. Fissato quindi un livello di significatività pari ad α, dalla (4.2) si determinano i valori critici ∗ . esatti del test di Kolmogorov e Smirnov indicati con Dα,n ∗ per diverse numerosità campioIn particolare, la seguente tabella riporta i valori critici Dα,n narie n = 2; . . . ; 20 e n = 25; 30; 35 e diversi valori di significatività α = 0, 01; 0, 05; 0, 10; 0, 15; 0, 20. n 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 0,01 0,92930 0,82900 0,73421 0,66855 0,61660 0,57580 0,54180 0,51330 0,48895 0,46770 0,44905 0,43246 0,41760 0,40420 0,39200 0,38085 0,37063 0,36116 0,35240 0,31656 0,28988 0,26898 Livello di 0,05 0,84189 0,70760 0,62394 0,56327 0,51926 0,48343 0,45427 0,43001 0,40925 0,39122 0,37543 0,36143 0,34890 0,33760 0,32733 0,31796 0,30936 0,30142 0,29407 0,26404 0,24170 0,22424 significatività (α) 0,10 0,15 0,77639 0,72614 0,63604 0,59582 0,56522 0,52476 0,50945 0,47439 0,46799 0,43526 0,43607 0,40497 0,40962 0,38062 0,38746 0,36006 0,36866 0,34250 0,35242 0,32734 0,33815 0,31408 0,32548 0,30233 0,31417 0,29181 0,30397 0,28233 0,29471 0,27372 0,28627 0,26587 0,27851 0,25867 0,27135 0,25202 0,26473 0,24587 0,23767 0,22074 0,21756 0,20207 0,20184 0,18748 0,20 0,68377 0,56481 0,49265 0,44697 0,41035 0,38145 0,35828 0,33907 0,32257 0,30826 0,29573 0,28466 0,27477 0,26585 0,25774 0,25035 0,24356 0,23731 0,23152 0,20786 0,19029 0,17655 Tabella 3.1: Valori critici della statistica di Kolmogorov-Smirnov Nella precedente tabella si osserva che ad esempio al livello di significatività 0, 10, il valo∗ re critico Dα,n per n = 15 è 0, 30397. Questo significa che, se la legge di distribuzione è quella stabilita nell’ipotesi nulla, nel 10% dei campioni casuali di ampiezza 15, il massimo scostamento in termini assoluti tra la funzione di ripartizione empirica e quella teorica dovrà essere almeno 0, 30397. 13 Al fine di confrontare i valori ottenuti mediante la procedura proposta, con quelli disponibili in letteratura, vengono di seguito riportati i valori critici dα (n) tabulati da Massey (1951) e successivamente integrati da Birnbaum (1952). n 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 Livello di 0,01 0,05 0,929 0,842 0,829 0,708 0,734 0,624 0,669 0,563 0,618 0,521 0,577 0,486 0,543 0,457 0,514 0,432 0,486 0,409 0,468 0,391 0,450 0,375 0,433 0,361 0,418 0,349 0,404 0,338 0,391 0,328 0,380 0,318 0,370 0,309 0,361 0,301 0,352 0,294 0,320 0,264 0,290 0,242 0,270 0,230 significatività 0,10 0,15 0,776 0,726 0,642 0,597 0,564 0,525 0,510 0,474 0,470 0,436 0,438 0,405 0,411 0,381 0,388 0,360 0,368 0,342 0,352 0,326 0,338 0,313 0,325 0,302 0,314 0,292 0,304 0,283 0,295 0,274 0,286 0,266 0,278 0,259 0,272 0,252 0,264 0,246 0,240 0,220 0,220 0,200 0,210 0,190 (α) 0,20 0,684 0,565 0,494 0,446 0,410 0,381 0,358 0,339 0,322 0,307 0,295 0,284 0,274 0,266 0,258 0,250 0,244 0,237 0,231 0,210 0,190 0,180 Tabella 3.2: Valori critici della statistica di Kolmogorov-Smirnov tabulati da Massey (1951) e integrati da Birnbaum (1952) Dall’analisi delle tabelle precedenti si osserva che l’andamento dei valori determinati mediante la procedura illustrata e quelli calcolati da Massey è il medesimo al crescere di n e α. Inoltre le due procedure sembrano essere pressoché equivalenti in termini di precisione dato che le differenze tra i valori si osservano a partire dalla terza cifra decimale, cosa che potrebbe dipendere anche da una diversa approssimazione in termini di numero di decimali considerati. 5 Conclusione Per consentire un confronto sintetico tra i valori riportati nelle tabelle 3.1 e 3.2, di seguito sono riportate, per diversi valori di significatività e diverse numerosità campionarie, le differenze riscontrate nei valori critici, ottenute in termini assoluti come: Dα,n − dα (n) e in termini relativi percentuali, sulla base dei valori tabulati da Massey e Birnbaum, come: Dα,n − dα (n) dα (n) 14 n 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 0,01 0,000 0,03% 0,000 0,00% 0,000 0,03% 0,000 0,00% -0,001 -0,23% -0,001 -0,21% -0,001 -0,22% -0,001 -0,14% 0,003 0,61% 0,000 0,00% -0,001 -0,21% -0,001 -0,12% 0,000 0,00% 0,000 0,00% 0,001 0,26% 0,001 0,22% 0,001 0,17% 0,000 0,04% 0,000 0,11% -0,003 -1,08% 0,000 0,00% -0,001 -0,38% Livello di significatività (α) 0,05 0,10 0,15 0,000 -0,01% 0,000 0,05% 0,000 0,02% 0,000 -0,06% -0,006 -0,93% -0,001 -0,20% 0,000 -0,01% 0,001 0,22% 0,000 -0,05% 0,000 0,05% -0,001 -0,11% 0,000 0,00% -0,002 -0,33% -0,002 -0,43% -0,001 -0,17% -0,003 -0,53% -0,002 -0,44% 0,000 0,00% -0,003 -0,60% -0,001 -0,34% 0,000 0,00% -0,002 -0,46% -0,001 -0,14% 0,000 0,00% 0,000 0,06% 0,001 0,18% 0,001 0,15% 0,000 0,00% 0,000 0,00% 0,001 0,41% 0,000 0,00% 0,000 0,00% 0,001 0,35% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,000 0,00% -0,001 -0,24% -0,001 -0,20% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,001 0,18% 0,000 0,00% 0,000 0,00% -0,001 -0,24% 0,000 0,00% 0,000 0,00% 0,001 0,28% 0,000 0,00% 0,000 0,02% -0,002 -0,97% 0,001 0,34% 0,000 -0,12% -0,002 -1,11% 0,002 1,03% -0,006 -2,50% -0,008 -3,89% -0,003 -1,33% 0,20 0,000 -0,03% 0,000 -0,03% -0,001 -0,27% 0,000 -0,01% 0,000 0,09% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,001 0,18% 0,001 0,41% 0,001 0,25% 0,001 0,23% 0,001 0,28% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,000 0,00% 0,001 0,23% -0,002 -1,02% 0,000 0,00% -0,003 -1,92% Tabella 3.3: Differenze assolute e relative percentuali tra i valori critici di Tabelle 3.1 e 3.2 Dall’analisi della Tabella 3.3 si osserva che, con riferimento alle differenze assolute, il valore minimo è −0, 00816 (in tabella si legge il valore −0, 008 approssimato alla terza cifra decimale), mentre il valore massimo è 0, 00207 (in tabella si legge il valore 0, 002 approssimato alla terza cifra decimale). Analogamente, con riferimento alle differenze relative percentuali, si osserva che il valore minimo è −3, 88571% (in tabella si legge il valore −3, 89% approssimato alla seconda cifra decimale), mentre il valore massimo è 1, 03500% (in tabella si legge il valore 1, 03% approssimato alla seconda cifra decimale). Essendo quindi le differenze assolute inferiori a un centesimo, e quelle relative percentuali inferiori a 4 punti percentuali, si conferma la non diversità operativa di impiego delle due metodologie di calcolo dei valori critici del test. I valori riportati nelle tabelle 3.1 e 3.2 sono calcolati sulla base di piccole numerosità campionarie (n ≤ 35). Per n > 35, i valori critici della statistica test di Kolmogorov-Smirnov si ottengono, come indicato da Smirnov (1948), dividendo i valori dα (dipendenti esclusivamente da α) per la radice quadrata della numerosità campionaria considerata, come indicato nella seguente tabella. n > 35 0,01 √ 1, 63/ n Livello di significatività (α) 0,05 0,10 0,15 √ √ √ 1, 36/ n 1, 22/ n 1, 14/ n 0,20 √ 1, 07/ n Tabella 3.4: Valori critici asintotici dα (n > 35) della statistica di Kolmogorov-Smirnov forniti da Smirnov (1948) Per valutare la procedura proposta anche nel caso di grandi campioni, la seguente tabella riporta i valori critici della statistica test di Kolmogorov-Smirnov per n = 50; 80; 100 moltiplicati per la radice quadrata della numerosità campionaria in modo da poterli confrontare con 15 i risultati di Tabella 3.4. Livello di 0,01 0,05 1,59834 1,33014 1,60532 1,33806 1,60808 1,34028 √ ∗ Tabella 3.5: Valori critici asintotici nDα,n (n > 35) n 50 80 100 significatività (α) 0,10 0,15 0,20 1,19918 1,11391 1,04913 1,20453 1,11902 1,05408 1,20663 1,12105 1,05600 della statistica di Kolmogorov-Smirnov Tramite la verifica empirica effettuata si osserva una diversità tra i valori riportati in Tabella 3.4 e in Tabella 3.5 a partire dalla seconda cifra decimale. Tuttavia si può pensare che queste differenze siano in parte dovute al fatto che i valori riportati da Smirnov sono approssimati, e non esatti, e in parte dovute alla diversa approssimazione considerata in termini di numero di decimali. Inoltre si osserva che all’aumentare della nimerosità campionaria i valori √ cifre ∗ nDα,n tendono ad avvicinarsi ai dα tabulati da Smirnov. Dai confronti effettuati si può ritenere che quanto svolto costituisca una procedura alternativa a quelle presenti in letteratura per il calcolo dei valori critici esatti del test di KolmogorovSmirnov caratterizzata da un buon grado di precisione numerica dei valori critici determinati. Riferimenti bibliografici [1] Birnbaum, Z.W., (1952) Numerical tabulation of the distribution of Kolmogorov statistic for finite sample size, Journal of the American Statistical Association, 47, 425-441. [2] Cantelli, F.P., (1933) Sulla determinazione empirica delle leggi di probabilità, Giornale dell’Istituto Italiano degli Attuari, 4. [3] Doob, J.L., (1949) Heuristic approach to the Kolmogorov-Smirnov theorems, The Annals of Mathematical Statistics, 20, 393-403. [4] Feller, W., (1948) On the Kolmogorov-Smirnov limit theorems for empirical distributions, Annals of Mathematical Statistics, 19, 177-189. [5] Glivenko, V.I., (1933) Sulla determinazione empirica delle leggi di probabilità, Giornale dell’Istituto Italiano degli Attuari, 4, 92-99. [6] Kolmogorov, A., (1933) Sulla determinazione empirica di una legge di distribuzione, Giornale dell’Istituto Italiano degli Attuari, 4, 83-91. [7] Massey, F.J., (1951) The Kolmogorov-Smirnov test for goodness of fit, Journal of the American Statistical Association, 46, 68-78. [8] Miller, L.H., (1956) Table of percentage points of Kolmogorov statistics, Journal of the American Statistical Association, 51, 111-121. [9] Salce, L., Lezioni sulle Matrici, 1993, Zanichelli-Decibel, Bologna. [10] Smirnov, N., (1939) Sur les ecarts de la courbe de distribution empirique, Recueil Mathématique, 6, 3-26. [11] Smirnov, N., (1948) Table for estimating the goodness of fit of empirical distributions, The Annals of Mathematical Statistics, 19, 279-281. 16
Documenti analoghi
Dispense del corso di laboratorio di fisica Parte I: Statistica
distribuzioni continue
Funzione di una variabile casuale .
Somma di due variabili casuali . . .
Rapporto di due variabili casuali .