Data mining - Politecnico di Torino

Transcript

Data mining - Politecnico di Torino
Data mining
Vincenzo D’Elia
[email protected]
DBDMG - Politecnico di Torino
[email protected]
Archivi Multimediali e Data Mining - p. 1
Rapid Miner
[email protected]
Archivi Multimediali e Data Mining - p. 2
Rapid Miner
Strumento Open Source per machine learning e data mining
[email protected]
Archivi Multimediali e Data Mining - p. 3
Modalità di utilizzo
Tre modalità
■ Interfaccia grafica per l’utilizzo interattivo
■ Descrizione del processo tramite XML
■ Librerie jar
Disponibile per qualunque ambiente offra una JVM
[email protected]
Archivi Multimediali e Data Mining - p. 4
Processo
Rapid Miner si basa sul concetto di processo
rappresentato graficamente da un albero di operatori
[email protected]
Archivi Multimediali e Data Mining - p. 5
Operatori
Gli operatori sono i blocchi base del processo di data mining
Ogni operatore viene configurato da parametri assegnati
dall’utente.
Esso elabora quanto restituito dal nodo padre e passa il
risultato della propria elaborazione al nodo successivo.
Alcuni nodi (come OperatorChain) hanno più figli: lo scopo è
raggruppare più operatori in un unico operatore.
Per realizzare un processo di data mining, l’utente deve
comporre opportunamente gli operatori che sono offerti dal
sistema
[email protected]
Archivi Multimediali e Data Mining - p. 6
Tipi di operatori
Esistono operatori per
■ Lettura/Scrittura
◆ Dati
◆ Modelli
◆ ...
■ Elaborazione dei dati
◆ Preprocessing
◆ Postprocessing
◆ Trasformazioni di formato
◆ ...
■ Costruzione di modelli
◆ Classificatori
◆ Clustering
◆ ...
■ ...
[email protected]
Archivi Multimediali e Data Mining - p. 7
Tipi di operatori fondamentali
[email protected]
Archivi Multimediali e Data Mining - p. 8
Process
È il nodo radice di ogni processo. Parametri:
[email protected]
Archivi Multimediali e Data Mining - p. 9
ExampleSet
I dati sono oggetti di tipo ExampleSet. Esistono numerosi
operatori per la lettura dei dataset, dato che RapidMiner
supporta numerosi formati (arff, xls, csv ...).
Un dataset salvato nel formato di RapidMiner è composto da
due file
■ aml, ossia un file XML che descrive gli attributi ed i tipi dei
dati contenuti nel dataset
■ dat, ossia un file contenete una riga per ogni dato in cui
ogni colonna è il valore di un attributo
Un processo di data mining inizia solitamente con la lettura dei
dati.
[email protected]
Archivi Multimediali e Data Mining - p. 10
Creazione dataset
Spesso il proprio dataset non è una tabella di attributi (
ExampleSet).
RapidMiner mette a disposizione vari plugin per costruire un
ExampleSet automaticamente partendo da vari formati di dati
(testi, musica . . . )
[email protected]
Archivi Multimediali e Data Mining - p. 11
Attributi
Due tipi di attributi
■ speciali, cioè che sono considerati metadati del dato (ad es.
etichetta di classe, identificatore)
■ regolari, ossia in dati veri e propri
Ogni attributo ha un tipo
■ numeric, come intero o reale
■ nominal, cioè un valore categorico
■ binominal, cioè yes|no
■ ...
[email protected]
Archivi Multimediali e Data Mining - p. 12
Preprocessing
Un ExampleSet è essenzialmente una tabella.
RapidMiner offre operatori per
■ Manipolare i metadati, ossia rinominare attributi
■ Rimuovere valori non assegnati
■ Discretizzare
■ Convertire tra tipi differenti
Queste operazioni sono fondamentali per la corretta estrazione
di conoscenza
[email protected]
Archivi Multimediali e Data Mining - p. 13
Algoritmi
RapidMiner offre operatori per l’esecuzione di numerosi
algoritmi
In generale questi operatori ricevono un ExampleSet e
possono restituire
■ ExampleSet con i dati in uscita
■ Il modello costruito
Entrambi i tipi di dati possono essere salvati su file per la
lettura o l’applicazione successiva
[email protected]
Archivi Multimediali e Data Mining - p. 14
Applicare un modello - ModelApplier
Riceve:
■ Modello
■ ExampleSet
Restituisce
■ ExampleSet
Applica un modello ai dati ottenuti come parametro. I dati
restituiti dipendono dal modello applicato.
[email protected]
Archivi Multimediali e Data Mining - p. 15
Albero di decisione
[email protected]
Archivi Multimediali e Data Mining - p. 16
Iris
Il dataset Iris contiene le caratteristiche di molti iris
Per ogni fiore sono note 4 misure relative a petali e sepali.
Ad ogni fiore è inoltre assegnata un’etichetta di classe
indicante la varietà cui appartiene.
Nel dataset sono presenti 3 classi (virginica, setosa e
versicolor)
[email protected]
Archivi Multimediali e Data Mining - p. 17
Albero di decisione, processo
1. Lettura dataset e costruizione ExampleSet
2. Costruzione dell’albero di decisione
[email protected]
Archivi Multimediali e Data Mining - p. 18
Albero di decisione, modello
[email protected]
Archivi Multimediali e Data Mining - p. 19
Salvare il modello
Posso aggiungere in cascata ModelWriter per salvare il
modello
[email protected]
Archivi Multimediali e Data Mining - p. 20
Applicare il modello
Posso leggere un altro dataset dello stesso tipo ed applicare il
modello con ModelApplier
[email protected]
Archivi Multimediali e Data Mining - p. 21
Performance
Posso interpretare quanto prodotto da ModelApplier con un
operatore del gruppo Validation
[email protected]
Archivi Multimediali e Data Mining - p. 22
CrossValidation
XValidation è un operatore che riceve un ExampleSet ed
ha due figli.
1. divide opportunamente l’ExampleSet in training e test
(varie strategie disponibili)
2. costruisce un modello usando il primo figlio
3. passa il modello al secondo figlio
Se le operazioni dei figli non sono effettuabili con un unico
operatore posso usare OperatorChain.
[email protected]
Archivi Multimediali e Data Mining - p. 23
CrossValidation
ClassificationPerformance mette a disposizione
numerose misure
[email protected]
Archivi Multimediali e Data Mining - p. 24
Regole di associazione
[email protected]
Archivi Multimediali e Data Mining - p. 25
Dati
Il dataset contiene informazioni informazioni sui clienti di una
banca
Sono noti per ogni cliente
■ Età
■ Sesso
■ La zona in cui il cliente vive (inner city, rural, suburban, town)
■ Stato civile
■ Guadagni
■ Numero di figli
■ ...
[email protected]
Archivi Multimediali e Data Mining - p. 26
Regole di associazione
Per poter estrarre le regole è necessario preprocessare il file
■ Discretizzare (è necessario che le variabili siano
categoriche)
■ Trasformare i dati con Nominal2Binominal
[email protected]
Archivi Multimediali e Data Mining - p. 27
Regole di associazione
[email protected]
Archivi Multimediali e Data Mining - p. 28