PCA (Principal Component Analysis)
Transcript
PCA (Principal Component Analysis)
PCA (Principal Component Analysis) - tecnica di riduzione di dimensione un campione casuale multivariato - Nella PCA, l’idea è quella di trovare un nuovo sistema di riferimento in modo da massimizzare la varianza delle variabili rappresentate lungo gli assi. La varianza totale delle variabili viene suddivisa in un numero di variabili uguali a quello di partenza, ma il cui numero può essere ridotto. Se le variabili sono indipendenti, l’applicazione della PCA non è produttiva. 1 0.85 1 0.14 0.21 1 1 0.23 0.19 0.90 0.78 0.95 0.25 0.32 1 1 0.85 1 0.78 0.95 1 0.23 0.19 0.32 1 0.14 0.21 0.25 0.90 1 Matrice di correlazione di 5 variabili calcolate con 30 osservazioni. Ispezionando la matrice, si individuano facilmente due gruppi. Per determinare queste nuove componenti, viene ispezionata proprio la matrice di correlazione Si tratta di determinare una trasformazione lineare delle variabili di partenza. La prima componente principale va caratterizzata come o ancora Y1 = a11 X 1 + a12 X 2 + ⋯ + a1 p X p Y1 = a1 i X La ricerca dei coefficienti viene effettuata massimizzando la varianza del vettore Y1 = a1 i X Questo obbiettivo può essere raggiunto scegliendo pesi arbitrariamente larghi. Pertanto viene imposta la condizione 2 2 2 1 = a11 + a12 + ⋯ + a1 p Si ha T Var(Y1 ) = a1 Σ X a1 dove Σ X è la matrice di covarianza di X . Il secondo passo consiste nel determinare i coefficienti della trasformazione Y2 = a21 X 1 + a22 X 2 + ⋯ + a2 p X p tale che Var(Y1 ) ≥ Var(Y2 ) La ricerca di questi coefficienti viene effettuata tenendo in considerazione due condizioni: 2 2 2 a ) a21 + a22 + ⋯ + a2 p = 1 b) Y1 e Y2 sono indipendenti. Alla fine del procedimento verranno individuate p variabili Y1 = a11 X 1 + a12 X 2 + ⋯ + a1 p X p Y = a X + a X +⋯ + a X 2 21 1 22 2 2p p ⋮ Yp = a p1 X 1 + a p 2 X 2 + ⋯ + a pp X p ai ⇒ LOADINGS tali che a ) ai21 + ai22 + ⋯ + aip2 = 1 per i=1,2,… ,p b) (Y1 , Y2 ,… , Yp ) sono variabili aleatorie indipendenti. c) Var (Y1 ) ≥ Var (Y2 ) ≥ ⋯ ≥ Var (Yp ) d) Var (Y1 ) +Var (Y2 ) + ⋯ + Var (Yp ) = Var ( X 1 ) +Var ( X 2 ) + ⋯ + Var ( X p ) Si dimostra che per determinare le componenti principali di un campione casuale multivariato, è necessario calcolare gli autovalori e gli autovettori della matrice di covarianza associata al campione. ∑ x = λ x ⇒ λ autovalore, x autovettore In particolare, poichè gli autovalori di una matrice si possono ordinare λ1 ≥ λ2 ≥ ⋯ ≥ λ p sceglieremo Y1 in modo che Var (Y1 ) = λ1 ≥ Var (Y2 ) = λ2 ≥ ⋯ ≥ Var (Yp ) = λ p I loadings sono gli autovettori associati agli autovalori, ossia a1 è tale che Σ X a1=λ1a1 , etc. Esempio: misure di crani di mammiferi oreodont; a. peso della scatola cranica; b. lunghezza dei molari; c. lunghezza della bolla; d. profondità della bolla. PER ESEGUIRE LA PCA IN STATVIEW… PC! PC2 PC3 PC4 Autovalori 3.44 0.38 0.11 0.05 Percentuale 0.86 0.097 0.028 0.014 Cumulativo 0.86 0.95 0.98 1.00 In genere, si sceglie un numero di PCA tale che la percentuale di variabilità espressa è l’80 o il 90 percento di quella di partenza. PC! PC2 PC3 PC4 Autovalori 3.44 0.38 0.11 0.05 Percentuale 0.86 0.097 0.028 0.014 Cumulativo 0.86 0.95 0.98 1.00 Altre informazioni ricavabili da STATVIEW Per questo esempio STATVIEW non produce grafici perché c’è una sola PCA. Bartlett's test (Barlett’s sphericity test) è un test per verificare se la matrice di correlazione (dati standardizzati) possa ritenersi uguale alla matrice identità (nel qual caso la PCA sarebbe inutile). Come si “leggono” i loadings…. PC1 PC2 PC3 PC4 Cranio -0.497 -0.488 0.705 -0.135 Molare -0.503 -0.408 -0.598 0.414 Bolla (D) -0.519 0.290 -0.307 -0.743 Bolla (P) -0.482 0.677 0.236 0.508 IN STATVIEW Le procedure che confluiscono nell’analisi fattoriale hanno come obbiettivo quello di estrapolare dalla matrice di dati una più semplice struttura soggiacente. Questa struttura può essere estrapolata usando la matrice di covarianza associata al vettore (X ,X 1 2 ,… , X p ) R-mode Q-mode Se indichiamo con X la matrice dei dati di dimensione n × p Q = X X ⇒ n×n T R = X X ⇒ p× p T • Il ruolo principale è giocato dalle variabili • Matrice di covarianza/correlazione • Il ruolo principale è giovato dal campionamento • La dimensione può essere elevata Esempio: file pca2 a) sabbia di spiaggia e battigia b) sabbia da un canale limaccioso c) sabbia da un canale limaccioso (argini) d) limo di fondo e) fango preso da un luogo protetto da pioggia
Documenti analoghi
studio dei fattori nascosti mediante PCA
Supponiamo che i dati abbiano dimensione 5 a priori, nel senso che sono dati relativi a
5 variabili. Eseguita una PCA potremmo rilevare che 2 o 3 componenti principali
raccolgono già l’80-90% della...
Principal Component Analysis
Il vettore a1 è detto vettore dei pesi (loadings). Si intendono normalizzati, ovvero la somma dei
loro quadrati è pari a 1.
I pesi sono scelti in modo da massimizzare la varianza della variabile p...