Data mining - Politecnico di Torino
Transcript
Data mining - Politecnico di Torino
Data mining Vincenzo D’Elia [email protected] DBDMG - Politecnico di Torino [email protected] Archivi Multimediali e Data Mining - p. 1 Rapid Miner [email protected] Archivi Multimediali e Data Mining - p. 2 Rapid Miner Strumento Open Source per machine learning e data mining [email protected] Archivi Multimediali e Data Mining - p. 3 Modalità di utilizzo Tre modalità ■ Interfaccia grafica per l’utilizzo interattivo ■ Descrizione del processo tramite XML ■ Librerie jar Disponibile per qualunque ambiente offra una JVM [email protected] Archivi Multimediali e Data Mining - p. 4 Processo Rapid Miner si basa sul concetto di processo rappresentato graficamente da un albero di operatori [email protected] Archivi Multimediali e Data Mining - p. 5 Operatori Gli operatori sono i blocchi base del processo di data mining Ogni operatore viene configurato da parametri assegnati dall’utente. Esso elabora quanto restituito dal nodo padre e passa il risultato della propria elaborazione al nodo successivo. Alcuni nodi (come OperatorChain) hanno più figli: lo scopo è raggruppare più operatori in un unico operatore. Per realizzare un processo di data mining, l’utente deve comporre opportunamente gli operatori che sono offerti dal sistema [email protected] Archivi Multimediali e Data Mining - p. 6 Tipi di operatori Esistono operatori per ■ Lettura/Scrittura ◆ Dati ◆ Modelli ◆ ... ■ Elaborazione dei dati ◆ Preprocessing ◆ Postprocessing ◆ Trasformazioni di formato ◆ ... ■ Costruzione di modelli ◆ Classificatori ◆ Clustering ◆ ... ■ ... [email protected] Archivi Multimediali e Data Mining - p. 7 Tipi di operatori fondamentali [email protected] Archivi Multimediali e Data Mining - p. 8 Process È il nodo radice di ogni processo. Parametri: [email protected] Archivi Multimediali e Data Mining - p. 9 ExampleSet I dati sono oggetti di tipo ExampleSet. Esistono numerosi operatori per la lettura dei dataset, dato che RapidMiner supporta numerosi formati (arff, xls, csv ...). Un dataset salvato nel formato di RapidMiner è composto da due file ■ aml, ossia un file XML che descrive gli attributi ed i tipi dei dati contenuti nel dataset ■ dat, ossia un file contenete una riga per ogni dato in cui ogni colonna è il valore di un attributo Un processo di data mining inizia solitamente con la lettura dei dati. [email protected] Archivi Multimediali e Data Mining - p. 10 Creazione dataset Spesso il proprio dataset non è una tabella di attributi ( ExampleSet). RapidMiner mette a disposizione vari plugin per costruire un ExampleSet automaticamente partendo da vari formati di dati (testi, musica . . . ) [email protected] Archivi Multimediali e Data Mining - p. 11 Attributi Due tipi di attributi ■ speciali, cioè che sono considerati metadati del dato (ad es. etichetta di classe, identificatore) ■ regolari, ossia in dati veri e propri Ogni attributo ha un tipo ■ numeric, come intero o reale ■ nominal, cioè un valore categorico ■ binominal, cioè yes|no ■ ... [email protected] Archivi Multimediali e Data Mining - p. 12 Preprocessing Un ExampleSet è essenzialmente una tabella. RapidMiner offre operatori per ■ Manipolare i metadati, ossia rinominare attributi ■ Rimuovere valori non assegnati ■ Discretizzare ■ Convertire tra tipi differenti Queste operazioni sono fondamentali per la corretta estrazione di conoscenza [email protected] Archivi Multimediali e Data Mining - p. 13 Algoritmi RapidMiner offre operatori per l’esecuzione di numerosi algoritmi In generale questi operatori ricevono un ExampleSet e possono restituire ■ ExampleSet con i dati in uscita ■ Il modello costruito Entrambi i tipi di dati possono essere salvati su file per la lettura o l’applicazione successiva [email protected] Archivi Multimediali e Data Mining - p. 14 Applicare un modello - ModelApplier Riceve: ■ Modello ■ ExampleSet Restituisce ■ ExampleSet Applica un modello ai dati ottenuti come parametro. I dati restituiti dipendono dal modello applicato. [email protected] Archivi Multimediali e Data Mining - p. 15 Albero di decisione [email protected] Archivi Multimediali e Data Mining - p. 16 Iris Il dataset Iris contiene le caratteristiche di molti iris Per ogni fiore sono note 4 misure relative a petali e sepali. Ad ogni fiore è inoltre assegnata un’etichetta di classe indicante la varietà cui appartiene. Nel dataset sono presenti 3 classi (virginica, setosa e versicolor) [email protected] Archivi Multimediali e Data Mining - p. 17 Albero di decisione, processo 1. Lettura dataset e costruizione ExampleSet 2. Costruzione dell’albero di decisione [email protected] Archivi Multimediali e Data Mining - p. 18 Albero di decisione, modello [email protected] Archivi Multimediali e Data Mining - p. 19 Salvare il modello Posso aggiungere in cascata ModelWriter per salvare il modello [email protected] Archivi Multimediali e Data Mining - p. 20 Applicare il modello Posso leggere un altro dataset dello stesso tipo ed applicare il modello con ModelApplier [email protected] Archivi Multimediali e Data Mining - p. 21 Performance Posso interpretare quanto prodotto da ModelApplier con un operatore del gruppo Validation [email protected] Archivi Multimediali e Data Mining - p. 22 CrossValidation XValidation è un operatore che riceve un ExampleSet ed ha due figli. 1. divide opportunamente l’ExampleSet in training e test (varie strategie disponibili) 2. costruisce un modello usando il primo figlio 3. passa il modello al secondo figlio Se le operazioni dei figli non sono effettuabili con un unico operatore posso usare OperatorChain. [email protected] Archivi Multimediali e Data Mining - p. 23 CrossValidation ClassificationPerformance mette a disposizione numerose misure [email protected] Archivi Multimediali e Data Mining - p. 24 Regole di associazione [email protected] Archivi Multimediali e Data Mining - p. 25 Dati Il dataset contiene informazioni informazioni sui clienti di una banca Sono noti per ogni cliente ■ Età ■ Sesso ■ La zona in cui il cliente vive (inner city, rural, suburban, town) ■ Stato civile ■ Guadagni ■ Numero di figli ■ ... [email protected] Archivi Multimediali e Data Mining - p. 26 Regole di associazione Per poter estrarre le regole è necessario preprocessare il file ■ Discretizzare (è necessario che le variabili siano categoriche) ■ Trasformare i dati con Nominal2Binominal [email protected] Archivi Multimediali e Data Mining - p. 27 Regole di associazione [email protected] Archivi Multimediali e Data Mining - p. 28
Documenti analoghi
Archivi multimediali - DataBase and Data Mining Group
Archivi multimediali e
Data Mining
Introduzione