Gabriella Pasi - Information Retrieval Laboratory
Transcript
Gabriella Pasi - Information Retrieval Laboratory
CORSO DI INFORMATION RETRIEVAL Gabriella Pasi Università degli Studi di Milano Bicocca e-mail: [email protected] Programma del corso 1. Introduzione • Il problema dell’accesso a informazioni • Tipologie p g di sistemi p per l'accesso a informazioni ((DBMS,, Sistemi di Information Retrieval, Sistemi di Information Filtering) • Il concetto di Rilevanza, la sua soggettività, probabilità e parzialità. • Valutazione sperimentale di sistemi di IR: efficienza, efficacia 2. Il processo di indicizzazione Gli indici, specificità, esaustività Processo di estrazione automatica di termini indice: Full Text Indexing Associazioni di pesi ai termini indice Strutture dati per organizzazione di indici Programma del corso (segue) 3. Modelli base di IR • Modelli matematici di IR. • Il modello Booleano. • Ill modello d ll vettoriale. i l • I modelli probabilistici. 4. Modelli 4 M d lli avanzati ti di IR • Introduzione alla teoria dei fuzzy set. • I modelli basati sulla teoria dei fuzzy set. • I modelli vettoriali estesi. estesi 5. Valutazione di sistemi di IR Efficienza ed efficacia Recall, Precision e altre misure TREC collections Programma del corso (segue) 6. IR SU WEB • Sistemi distribuiti • I motori di ricerca • I meta-motori di ricerca 7. Meccanismi associativi in IR • Tesauri • algoritmi di clustering • Relevance Feedback 8. Information Filtering 9. Argomenti avanzati • • Multimedia IR XML e IR Lib i di testo per IR Libri R Non esiste un unico libro di testo che possa essere considerato completamente soddisfacente. I testi considerati per questo corso sono i seguenti (in ordine di di preferenza): f ) – Ricardo Baeza-Yates e Berthier Ribeiro-Neto, M d Modern i f information ti retrieval, t i l Addison Addi W l Wesley, Reading, US, 1999. – Soumen Chakrabarti, Mining the Web, Morgan Kaufmann, San Francisco, US, 2003. – Ian H. Witten, Alistair l Moffat, ff and d Timothy h C. C Bell, Managing gigabytes, 2nd Edition, Morgan Kaufmann,, San Francisco,, US,, 1999. Lib i di testo per IR Libri R Modern Information Retrieval, R. Baeza-yates and B. Ribeiro-Neto.,, Addison-Wesley and ACM Press, 1999, ISBN: 0 0-201201 39829-X Christopher D. Manning, Manning, Prabhakar Raghavan and Hinrich Schütze, Schütze, Introduction to Information Retrieval, Retrieval, Cambridge University Press. 2007. 2007 http://www--csli.stanford.edu/~schuetze/informationhttp://www csli.stanford.edu/~schuetze/information-retrievalretrievalbook.html Information f i R Retrieval i l Problema “vecchio” in Informatica. Ha assunto grande importanza p con la nascita e lo sviluppo pp del WWW Enorme e crescente quantità di informazioni disponibili p Necessità di sistemi che supportino un efficiente ed efficace reperimento di i f informazioni i i pertinenti ti ti a specifiche ifi h necessità. ità Information Retrieval: le “radici” dei motori di ricerca ricerca.. I motori di ricerca sono sistemi software intensivamente usati su Web. pp la Cio’ che molti non sanno è che essi rappresentano punta dell’iceberg dell’Information Retrieval, una disciplina fondata alla fine degli anni sessanta. Motori di ricerca Information Retrieval Ricerca su Web e Information Retrieval Classica ricerca in IR 1970 1970s 1980 1980s 1990 1990s ….sopraggiunge i il web b web searching 2000 2000s Il problema dell’accesso automatico a informazioni Sviluppo di sistemi che aiutino ll’utente utente a identificare informazioni rilevanti (pertinenti) alle loro necessità ((informare: ridurre l’ignoranza). g ) La definizione di tali sistemi è basata sulla soluzione di un problema decisionale: come identificare e “ordinare” informazione che soddisfi f le preferenze f dell’utente? Occorre: * interpretare il contenuto di testi, immagini, video, audio * interpretare le esigenze dell’utente Ruolo centrale della nozione di rilevanza rilevanza: la rilevanza è una proprietà soggettiva: difficile da definire e da misurare! Principali tipologie di sistemi per l’accesso a informazioni Sistemi di Information Retrieval (Motori di ricerca) Richiedono Sistemi per la Gestione di Basi di Dati Richiedono La formulazione di una “query” La formulazione di una “query” Sistemi di Information Filtering Profili utente, cioè descrizioni di esigenze specifiche Richiedono gg , anche sulla base del dinamicamente aggiornate, comportamento dell’utente (NO QUERY) Modalità di reperimento delle i f informazioni i i Tecnologia Pull L’utente richiede esplicitamente le informazioni in modalità d lità interattiva i t tti 3 modalità Browsing B i (ipertesti) (i t ti) Retrieval (sistemi di IR) Browsing e retrieval (librerie digitali e ricerche su web) Tecnologia Push L’utente viene automaticamente aggiornato con i f informazioni i i di possibile ibil interesse agenti software esempio: servizi di news, e-commerce filtering (retrieval) fornisce all’utente informazioni rilevanti per un utilizzo differito D fi i i Definizione di Informazione I f i Nel 1948 Claude Elwood Shannon (1916-2001) (1916 2001) pubblica la monografia A Mathematical Theory of Comunication che è un primo contributo all'inquadramento teorico del problema del trasferimento dell'informazione. “L'informazione è legata alla capacità di estrapolare notizie dall'ambiente per poterle poi riutilizzare per conquistare una posizione di vantaggio. vantaggio ” DEF 1: Informare: dare forma a qualcosa ⇒ eliminare l’incertezza, l’ignoranza DEF 2: acquisizione di contenuto trasferito da un soggetto ad un altro DEF 3: un insieme di dati + loro interpretazione dato ⇒ elemento di informazione L’i f L’informazione i produce d una variazione i i di conoscenza D fi i i Definizione di Informazione f i I dati sono quindi fatti elementari, elementari informazioni codificate, che hanno bisogno di essere interpretate per arricchire la conoscenza Esempio dati: “Marco Pagani” ’4261’ Informazione = dati + interpretazione Domanda implicita: a) Chi è l’esercitatore del corso? Qual è il suo n° di tel ? tel.? b) “Qual è il Nome del dipendente? Qual è il suo stipendio? Nei sistemi per la gestione di basi di dati le informazioni vengono rappresentate in modo essenziale, dai dati e da uno schema concettuale che permette la loro interpretazione G i Gestione automatica i d dell’informazione ll’i f i TESTI espressi in linguaggio naturale FORMA DELL’’ INFORMAZIONE SUONI e Registrazioni audio e video GRAFICI en IMMAGINI, MAPPE NUMERI, CODICI, SEGNALI Problema tecnico: GESTIONE AUTOMATICA DELL'INFORMAZIONE DELL INFORMAZIONE come rappresentare e manipolare l'informazione negli elaboratori? Æ efficienza Problema semantico: il modo in cui l'informazione viene sintetizzata e memorizzata conserva il suo significato originario? Æ efficacia Sistemi di Information Retrieval vs Si Sistemi i per la l gestione i di b basii di d datii Motivazioni I DBMS sono nati dalla necessità di gestire crescenti quantità di dati relativi ad applicazioni aziendali tradizionali I sistemi di IR sono nati dalla necessità di gestire classificare, gestire, classificare reperire libri e articoli in biblioteche/librerie Æ grandi quantità di testi Sistemi di Information Retrieval vs Sistemi per la gestione di basi di dati DBMS Reperimento di dati che soddisfano condizioni di selezione rigide, espresse mediante un linguaggio di interrogazione (V,F) S Semantica ti dei d i dati d ti e d delle ll condizioni di i i ben b d definita fi it Information retrieval Reperimento di informazioni circa un argomento o un tema Semantica delle richieste e dei documenti vaga. Piccoli errori nei risultati sono tollerabili Un Sistema di IR : interpreta il contento di documenti Æ costruisce una rappresentazione genera un ordinamento (ranking) che riflette la rilevanza stimata Concetto di rilevanza molto importante Si Sistemi i per lla gestione i di b basii di d datii Modello dei dati DATI DBMS A B Caratteristiche: C APPLICAZIONI Schema (descrizione intensionale della struttura dei dati ) Istanze (descrizione estensionale del valore attuale dei dati) Modello di dati (permette di rappresentare i p dal sistema): ) dati in modo indipendente relazionale orientato ad oggetti Gerarchico, ecc Definizione di Information Retrieval Due componenti principali Sorgente di informazioni = archivio di documenti Qualcuno con necessità di informazioni Decision making Interpretazione soggettiva Interpretazione soggettiva terza componente Intermediario che interpreta le necessità informative dell’utente e stima la rilevanza dei documenti rispetto a tali necessità. D fi i i Definizione di Information I f i R Retrieval i l “IR is i the th name for f the th process or method th d whereby h b a prospective ti user of information is able to convert his need for information into an actual list of citations to documents in storage containing information useful to him. him (. ( .. ). ) IR embraces the intellectual aspects of the description of information and its specification for search, and also whatever systems, techniques, and machines that are employed to carry out the operation”. [Mooers 1951]. operation 1951] IR è la disciplina informatica che si occupa della memorizzazione e del reperimento di documenti; il suo obbiettivo è la realizzazione di sistemi software che permettano la memorizzazione di ingenti quantità di documenti in un archivio, in modo tale da permettere un’efficiente reperimento dei documenti rilevanti alle necessità informative degli utenti. Glossario Documento (d): unità di informazione reperibile, espressa in formato lib libero ( (senza l’ l’applicazione li i di schemi h i o formati f ti specifici). ifi i) I documenti hanno un contenuto informativo. • IR TESTUALE Æ articoli scientifici, lettere, articoli di quotidiani, legende di immagini o grafici, grafici trascrizioni di audio • IR MULTIMEDIALE Æ immagini, grafici, audio (parlato o non parlato), o video, . . . , memorizzato in formato digitale A hi i (D) : insieme Archivio i i di documenti d ti accessibili ibili per mezzo di un IRS; IRS può essere statico (p.e. CD-ROM) o dinamico (p.e. librerie digitali e il Web), centralizzato o distribuiti Ingente dimensione: dimensione: i sistemi distribuiti e la diffusione di supporti di memoria come i CD-ROM hanno permesso la creazione di grandissime basi di documenti (archivi) (p.e. da 106 a 109 di documenti). Questa è la dimensione tipica degli archivi gestiti in IR; Necessità infomativa (q): (q) una necessità di informazione utile alla soluzione di un problema, o di risorse utili per un dato obiettivo; Rilevanza (RSV o Retrieval Status Value): ≈ pertinenza, utilità di un documento in accordo all’opinione dell’utente, rispetto a una query. I f Information i R Retrieval i l Finalità: Fi lità rappresentazione, Finalità t i memorizzazione, i i organizzazione, e accesso a elementi d’informazione (documenti – testuali o multimediali) Problemi: P bl Problemi i: Esempio:: Esempio la rappresentazione del contenuto informativo dei documenti (consideremo documenti testuali) l’interpretazione delle necessità à informative dell’utente “trova tutti i documenti contenenti informazioni relative alla diagnosi delle malattie esantematiche nei bambini a cura di associazioni pediatriche italiane” Obiettivo primario di un sistema di IR : “Reperire tutti i documenti che sono rilevanti per l’utente trascurando i documenti non rilevanti.” Sistema di Information Retrieval Documeents Necessità Informative Query Documenti reperiti Informazioni stimate rilevanti per l’utente Sistema di Information Retrieval Soggettività!!!! Obbiettivo primario di un sistema di IR: “Reperire tutti i documenti che sono rilevanti per l’utente e minimizzando il reperimento di documenti non rilevanti. rilevanti ” COME??? Struttura base di un IRS INDICIZZAZIONE ARCHIVIO DI DOCUMENTI Tipicamente p testi non strutturati o semistrutturati RAPPRESENTAZIONE FORMALE DEI DOCUMENTI DOCUMENTI STIMATI RILEVANTI FORMULAZIONE DELLA QUERY MECCANISMO DI MATCHING RAPPRESENTAZIONE DELLA QUERY Un IRS è basato su un modello matematico Off line On line Componenti di un Sistema di Information Retrieval Archivio di documenti il documento è l'unità di informazione reperibile. Può essere costituito da un testo in forma narrativa (testuale) o essere composto da parti narrative, pittoriali, codificate, etc. (multimediale); Rappresentazione formale dei documenti sintetizza il contenuto informativo dei documenti. E’ ottenuta mediante il processo indicizzazione; Linguaggio di query in una query sono espresse le condizioni per la selezione dei documenti di interesse per l'utente; Meccanismo di Confronto (matching) confronta la rappresentazione dei Documenti archiviati con le condizioni di selezione espresse nella query. M d lli di IR Modelli Un sistema U i t di IR è basato b t su un modello d ll matematico t ti che h fornisce una descrizione formale: Del documento Della query Del modo in cui confrontare rappresentazioni di query e per effettuare una stima della rilevanza dei documenti p documenti e produrre la lista dei documenti stimati rilevanti. N.B. un sistema di IR semplifica la realizzazione dell dell’attività attività di retrieval Æ i risultati prodotti non sono « perfetti » (stima di rilevanza) Va notato che l’uso della stessa tecnica di rappresentazione di documenti e query garantisce un matching corretto; Il processo di indicizzazione Problema: come descrivere il contenuto “semantico” semantico di un documento in un modo automaticamente gestibile? Il pocesso di indicizzazione è basato sull’estrazione di “elementi” (feature) che costituiscono la base della descrizione (rappresentazione) del documento. Per i testi tali elementi (detti indici) sono generalmente parole. I documenti sono rappresentati come insiemi ( (pesati) i) di parole. l (!! Idea concepita negli anni 60 e ancora di punta !!!!) {Information, retrieval, computer, science, discipline, keywords……} “The experimental “Th i t l evidence id accumulated l t d over the th pastt 20 years indicates that text indexing systems based on the assignment of appropriately weighted single terms produce retrieval results that are superior than those obtainable with other more elaborate text representations. These results depend crucially on the choice of effective term-weighting systems.” (Salton, 1988) Formulazione di richieste (li (linguaggi i di iinterrogazione) i ) Query semplici Generalmente composte di due o tre, fino a un massimo di 10 10-12 12, parole L’utente (keywords) sintetizza le es., ricerche su web sue necessità Query Booleane informative mediante Es. “neural networks” AND immagini parole l chiave hi Query con contesto operatori di prossimità, frasi di ricerca Query sul contenuto e sulla struttura Query in Linguaggio Naturale IR: Confronto tra rappresentazione dei documenti e query SCOPO: Reperire SCOPO R i i documenti d ti rilevanti il ti per l’utente, l’ t t ossia i pertinenti rispetto alle necessità informative espresse in una query (la rilevanza di un documento e’ relativa alla query formulata). formulata) Confronto esatto: Rilevante/ Non Rilevante Confronto parziale: Basato su un confronto “parziale” parziale tra documento e query (ad. es. similarità misura della vicinanza della query al documento) I documenti “sufficientemente vicini” alla query vengono reperiti. iti E’ necessario definire un metodo per valutare la rilevanza (dipende dal modello di Informazion Retrieval) Misure di Efficacia del Retrieval Precisione = |Rilevanti e Reperiti| | |Reperiti| i i| Richiamo = |Rilevanti e Reperiti| |Rilevanti| Difficoltà d dell’Information Retrieval L’ Information retrieval è caratterizzato da: L Incompletezza della rappresentazione dei documenti soggettività del concetto di rilevanza Ambiguità del significato dei termini Vaghezza delle richieste utente Incertezza della correttezza del risultato Approssimazione del meccanismo di confronto E un E’ un’attività attività che necessita di essere modellata con strumenti formali adatti a trattare imprecisione e incertezza “IR d deve cercare di soddisfare ddi f necessità i à di iinformazione f i espresse in modo vago, impreciso mediante le ambiguità del linguaggio naturale, e deve confrontarle, in un modo approssimativo con le informazioni contenute in un documento, documento ed espresse mediante lo stesso linguaggio naturale.” (Smeaton, 1997) Ambiti di sviluppo e contesti applicativi dell dell’IR IR Digital g Libraries Online Public Access Catalogs (OPAC) Millennium della Innovative Interface Inc., Excalibur della EOSi Produttori/Venditori di basi di dati: DIALOG www.dialog.com g ((500 databases es: New York times), ), LEXIS (documenti legali), NEXIS (documenti su editoria e commercio) (1.3 miliardi di documenti, 1.3 milioni di utenti, 120 milioni di ricerche all’anno) OCLC (Online Computer Library Center 70 databases e 1.5 millioni di articoli completi (full text)) H.W. Wilson (40 database per la scuola) National Library of Medicine (Medline database) Web (search engines: Altavista, Google, Yahoo, ecc E-commerce (Amazon, case editrici, ecc.) Documenti : caso + semplice Unità U ità reperibili ibili di Dimensione Di i arbitraria bit i testo in formato libero codifica EBCDIC, ASCII (8 bit), UNICODE (16 bit) ecc. Æ lingua composto da stringhe di caratteri di un alfabeto ecc; Es. sequenze del E d l genoma, formule f l di composti ti chimici, hi i i Parole in linguaggio naturale Esempi articoli di quotidiani, di riviste, messaggi, lettere, referti medici, pagine web, ecc.. Caratteristiche dei Documenti documento Testo + struttura + altri media (immagini, suoni, ..) + metadati Cos’è un documento? metadati semantica stile Metadati Tratto da htt // http://www.w3.org/Metadata/Activity 3 /M t d t /A ti it “Metadata is information about information - labeling, cataloging and descriptive information structured in such a way that allows pages to be properly searched and processed in particular by computer. In other words, what is now very much needed on the Web is metadata. W3C's Metadata Activity is concerned with ways to model and encode metadata. A particular priority of W3C is to use the Web to document the meaning of the metadata. metadata Our strong interest in metadata has prompted development of the Resource Description Framework (RDF) and Ontology Web Language (OWL) as W3C Recommendations” Metadati I metadati associati a un documento sono dati relativi al documento: metadati descrittivi (Dublin Core Metadata Set): relativi alla creazione del documento es: titolo, autori, data, lunghezza (in pagine, parole, bytes, ecc.), genere (libro, articolo, memo, mail, ecc) metadati semantici relativi all’argomento trattato dal documento es: Library Lib off C Congress subject bj t codes, d keywords controllate estratte da un’ontologia Formati per documenti testuali Nei sistemi di IR classici i documenti dovevano venire rappresentati in un formato “interno” per poter essere indicizzati e gestiti 1° OPERAZIONE: 1 (file sorgente ÆFILE DI INPUT O di GENERAZIONE) Documenti scritti con word-processor p comuni: •Word •TeX, RTF, HTML, XML ( Rich Text Format) (formato ASCII) Formati per la visualizzazione e la stampa: •PDF (Portable Document Format) •MIME (Multipurpose Internet Mail Exchange) per le e-mail e mail supporta varie codifiche di caratteri Formati compressi: •ARJ, ZIP (Winzip, Gzip) Compressione C p d dei d documenti testuali Necessaria per: • ottimizzare occupazione di spazio; • ridurre i tempi di trasmissione nell’ IR distribuito; Problemi critici : tempi di compressione e decompressione. Alcuni tipi di compressione permettono il “matching compresso” Formati F ti compressii senza perdita dit di informazione i f i Compressione di caratteri o di parole Æ riduzione n bit utili per rappresentare il carattere o la parola Compression rate (riduzione al 25% -da 8 bit a 2- bit molto buona, riduzione id i all 45% buona) b ) Documenti [semi]-strutturati Definizioni Un documento strutturato è composto da sezioni distinte , testuali o multimediali, di lunghezza variabile. Le sezioni sono sequenze di caratteri omogenee rispetto i tt all’argomento ll’ t che h trattano. t tt Gli archivi di documenti strutturati, sono collezioni di documenti che hanno una struttura rigidamente fissata, archivi semi-strutturati sono caratterizzati da irregolarità nella struttura, ad esempio i i documenti d ti su web. b Si assume che h ciascun i documento contenga un numero prefissato di sezioni comuni a tutti ((es: URL,, Titolo,, Testo). ) Documenti semi strutturati Documenti non strutturati Documenti strutturati Documenti con struttura omogenea Documento: è una sequenza di sezioni (campi) fissi non sovrapposti Es: una mail ha i seguenti campi: sender, receiver, date, subject e un corpo. d t data text campi text text I campii sono delimitati d li it ti dai d i tag t (per ( l’individuazione) l’i di id i ) Formati dei Documenti semi-strutturati semi strutturati I documenti [semi]-strutturati di una collezione sono conformi a un modello di dati semistrutturati (Abiteboul et al. 2000) U modello Un d ll di dati d ti semistrutturati i t tt ti è d definito fi it mediante di t un metalinguaggio. Ad es. un documento scritto in HTML è un istanza di un modello d ll d di d dati semistrutturati I d documenti i [ [semi]-strutturati i] i possono essere rappresentati da grafi diretti in cui i nodi sono le sezioni (sottoparti del documento) e le connessioni tra nodi le relazioni tra le sottoparti. Linguaggi per la codifica di documenti semi-strutturati i t tt ti I linguaggi di markup sono stati definiti per permettere di descrivere mediante comandi testuali inseriti nel testo di un documento istruzioni di formattazione, di strutturazione, e attributi del testo. SGML (Standard Generalized Markup Language ISO 8879) è il metalinguaggio standard per la d fi i i definizione di linguaggi li i di markup. k Le istruzioni di marcatura sono chiamate Tag e delimitano la parte di testo a cui sono applicate Linguaggi di codifica di documenti semi-strutturati HTML è un’istanza di SGML ed è diffuso su web per la rappresentazione di documenti strutturati; tuttavia permette una strutturazione sintattica e non semantica dell’informazione. I tag hanno la funzione di definire l’aspetto tipografico del testo anche se spesso sono usati per caratterizzare una struttura semantica implicita del documento XML (eXtensible Markup Language) e' un sottoinsieme di SGML adatto d a rappresentare documenti d strutturati concepiti come aggregazioni di unità indipendenti, chiamate entità o oggetti, che contengono l'informazione. Ci sono diverse istanze (specilizzazioni di XML) a contesti applicativi es. NewsML per notizie giornalistiche, GML per dati georiferiti ecc) Documenti semi-strutturati in XML Specifiche di XML in Italiano tradotte dal sito W3C http://www.xml.it:23456/XML/REC-xml-19980210-it.html#charencoding 1) Si definiscono dei vincoli sulla possibile struttura dei documenti XML di una collezione 1) A tale scopo si crea il DTD (Document Type Definition) (La specifica del DTD è opzionale in XML) Lo scopo di un Document Type Definition (definizione del tipo di documento) è quello di definire le componenti ammesse nella costruzione di un documento XML. XML schema h 2) Si creano i documenti della collezione. File XML. Ogni documento è un un’istanza istanza del DTD e può essere rappresentato da un grafo per specificare p l’aspetto p 3)) Si creano i file di stile p tipografico dei documenti. File XSL (eXtensible Stylesheet Language) 2) Documento XML E’ un albero ordinato etichettato i cui nodi sono elementi delimitati da inizio e fine tag: <nometag> </nometag> Può essere validato da un DTD. Il Document Object Model è un insieme standard di funzioni impiegato per manipolare i file XML da un linguaggio di programmazione. Document Type yp Definition DTD - Esempio <!DOCTYPE TechRepDip p p[ <!ELEMENT TechRepDip (Intestazione, Sezione+, Bibliografia?)> <!ELEMENT Intestazione (Numero, Data, Titolo, Autore+, Sommario?)> <!ELEMENT Data (Giorno?, Mese, Anno)> <!ELEMENT Autore (Cognome, Nome+)> <!ELEMENT Sezione (TitoloSezione, Testo?, Sezione*)> <!ELEMENT Bibliografia bl f ( (VoceBiblio)+> bl ) <!ELEMENT Numero (#PCDATA)> ... <!ELEMENT V VoceBiblio Bibli (#PCDATA)> <!ATTLIST Sezione id ID #REQUIRED num NMTOKEN #IMPLIED stato (finale | provvisorio) "finale" > <!ENTITY DIS "Dipartimento Dipartimento di Informatica e Sistemistica"> Sistemistica > <!ENTITY SEZIONE1 SYSTEM "sezione1.xml> <!ENTITY SEZIONE2 "<Sezione>Ancora da scrivere.</Sezione>"> ]> Rappresentazione di un documento XML Ad ogni documento XML corrisponde una struttura a grafo Æ generalmente semplificata in albero: ad ogni g elemento corrisponde p un nodo interno al testo libero corrispondono le foglie i figli di un nodo (elemento) sono gli elementi o il testo in esso contenuti il modello ad albero può essere esteso anche ad attributi, commenti, istruzioni, ... Il Document Object Model fornisce un'API per manipolare i nodi dell'albero: introduce un livello di astrazione tra il documento XML e l'applicazione che lo deve utilizzare/elaborare Documenti XML nella collezione INEX 12 000 articoli di riviste IEEE 12.000 article fm ti Ieee trans on Syst…. bdy atl Image analysis sec st introduction p This paper … Indicizzazione di documenti testuali Materiale tratto da: Modern Information Retrieval by Ricardo Baeza-Yates and Berthier Ribeiro-Neto http://www.sims.berkeley.edu/~hearst/irbook/ Capitoli 7.1-7.3 8.1-8.3 I Introduction d i to M Modern d IInformation f i R Retrieval i l by b G Gerard dS Salton l and d Mi Michael h l JJ. M McGill, Gill McGraw-Hill, 1983. Generazione di un archivio di Documenti Testuali •E’ E’ eseguita off-line off line •necessaria per accelerare il reperimento dei documenti E’ un processo che esegue le seguenti attività: Localizzazione : •inserimento dei documenti nella collezione •manuale, semiautomatica, automatica Decodifica Formato: •Riduzione del documento a stringhe Indicizzazione : •rappresenta il contenuto informativo dei documenti Generazione di struttura dati opportuna : •Memorizza in una struttura dati gli indici e i riferimenti ai documenti C Come rappresentare t id documenti? ti? Tipicamente ll’indicizzazione indicizzazione genera un insieme di termini indice (possibilmente pesati) come elementi base della rappresentazione formale di un documento (o di una query). Nell’IR testuale gli indici possono essere: 1. parole automaticamente estratte dal documento; 2 radici di parole (per esempio class-) automaticamente 2. estratte dal documento. Questa opzione è la più frequente; 3. frasi (ad esempio “classificazione di processi industriali”) automaticamente estratte dal documento. Questo tipo di indici non hanno dato risultati migliori di 1 e 2; 4. parole (o frasi) estratte da un vocabolario controllato; 5. metadati (ad esempio titolo, autori, data di creazione ecc. ) Indicizzazione automatica di d documenti ti testuali t t li L’indicizzazione automatica (automatic indexing) di un documento testuale è il processo che esamina automaticamente t ti t gli li oggetti tti informativi i f ti i che h compongono il documento e, utilizzando degli algoritmi appositi, produce una lista di termini indici ((index terms). ) Questa lista può essere utilizzata per una rappresentazione più compatta del contenuto informativo del documento di partenza Tipicamente: indicizzazione full-text. partenza. full text I termini indice sono utilizzati come surrogati per la rappresentazione del documento originale e, quindi, possono essere utilizzati al suo posto durante la fase di recupero. L’uso L uso degli indici semplifica e accelera il recupero (esempio: indice analitico di un libro). Metodi base di Indicizzazione dei documenti Insieme di termini o keywords y (parole (p chiave) ) estratti direttamente dal testo specificati da un esperto Å metadata rappresentazione più concisa qualità scadente del retrieval Accesso ai Rappresentazione Full text documenti tramite rappresentazione più completa d descrittori costi computazionali alti Grosse collezioni documenti Riduzione dell’insieme di termini indice Eliminazione delle stop words Generazione z di Stemming S i descrittori del testo Identificazione di frasi nominali • a mano Compressione p Rappresentazione della struttura • mediante analisi del testo Capitoli, sezioni, sotto-sezioni, ecc.. Schema del processo di indicizzazione automatica di documenti testuali INPUT Documenti testuali originali g OUTPUT Documenti in formato digitale g Indicizzazione automatica MODULO DI INDICIZZAZIONE Termini indice Documenti in formato digitale Indicizzazione: output Matrice sparsa! (presenza di molti 0 in ogni colonna) I pesi w possono essere binari o valori reali o interi positivi: sono calcolati in fase di indicizzazione Indicizzazione: esaustività e specificità Finalità: Fi lità Rappresentare il contenuto semantico di un documento con due obbiettivi: • esaustività: •assegnare un grande numero di termini indice • specificità : •termini generici: non sono adatti a distinguere i documenti rilevanti da quelli irrilevanti • termini specifici: permettono di reperire pochi documenti, ma la maggior parte di questi è rilevante Modalità: •estrazione diretta dal documento intero (full text) o mediante l’utilizzo di fonti esterne (es: dizionari controllati) •Tecniche associative ((tesauri,, pseudo-tesauri, p , clustering) g) Linguaggio di indicizzazione E’ il linguaggio g gg usato p per descrivere i documenti e le query è definito su un insieme di simboli (Vocabolario) Termini indice – sottoinsiemi di parole selezionate per rappresentare i contenuti del documento Derivate dal testo o associate indipendentemente Analisi statistica dei documenti basata sulla frequenza q delle occorrenze dei termini nel testo dei documenti Proautomatizzata, efficiente ConsC potenzialmente t i l t iinaccurata t Ricerca basata su parole chiave liberamente specificate dall’utente Ricerca basata su un vocabolario controllato Considerazioni sulla frequenza dei termini Termini funzionali es., "and", "or", "of", "but", … la l ffrequenza di questii termini i i è alta l in i tuttii i documenti Termini indicatori del contenuto parole che identificano i contenuti del documento hanno frequenza variabile da un documento all’altro della collezione la loro frequenza è indicativa dell’importanza nel rappresentare il contenuto del documento Frequenza dei termini in relazione a Recall e Precisione f favoriscono i il recall: ll i termini ad alta frequenza T Tecniche i h associative i ti di espansione i d degli li indici (tesauri, clustering) la precisione alta è data dalla capacità dell’indicizzazione di distinguere i contenuti dei documenti i termini ad alta frequenza servono a favorire la precisione quando la loro frequenza non è alta in tutti i documenti della collezione. Fasi del Processo di I di i Indicizzazione i Documenti Analisi Lessicale Eliminazione Stopwords d stemming Le fasi del processo di indicizzazione automatica che devono essere attuate in sequenza: 1 Analisi lessicale e selezione delle parole 1. Termini indice 2. Rimozione delle parole molto comuni o stop-words 3. Riduzione delle parole originali alle rispettive radici 4 Eventuale pesatura degli elementi dell 4. dell’indice indice (significatività) 5. Creazione dell’indice I sistemi i t i commerciali i li per il recupero delle d ll informazioni i f i i non implementano necessariamente tutte queste funzionalità. Analisi lessicale e selezione delle parole E’ il processo di trasformazione di un flusso di caratteri di input (il testo originario del documento) in un flusso di parole (o tokens ), ovvero o e o in una u a sequenza seque a di d caratteri ca atte po portatore tato e di d uno specifico significato. Nel testo le parole possono essere facilmente identificate grazie alla presenza di spazi, a capo, segni di interruzione, ecc… Collezione di documenti: un esempio p ID documento Contenuto testuale del documento D 1 Università degli Studi di Bologna Bologna. Facoltà di Lettere e Filosofia Corso di laurea in SCIENZE della COMUNICAZIONE D2 Libera Università di Lingue Comunicazione IULM; Facoltà di SCIENZE della COMUNICAZIONE e dello Spettacolo Corso di laurea in SCIENZE della COMUNICAZIONE D3 Università degli g Studi di Padova Facoltà di Lettere e Filosofia: Corso di laurea: SCIENZE della COMUNICAZIONE Collezione di documenti: un esempio p Es: P E Parole l estratte t tt dai d id documenti ti ((spazii ; : .)) •D 1 : università degli studi di bologna facoltà di l tt lettere e filosofia fil fi corso di llaurea iin scienze i d della ll comunicazione •D D 2 : libera lib università i ità di lilingue e comunicazione i i iulm facoltà di scienze della comunicazione e dello spettacolo corso di laurea in scienze della comunicazione •D 3 : università degli studi di padova facoltà di lettere e filosofia corso di laurea scienze della comunicazione Riconoscimento di parole (token) Es: Parole estratte dai documenti (spazi ; : . – “ “) Scelte euristiche: aren’t Æ aren t, arent, ? O’Neill Æ Oneill, O Neill? coeditorÆ coeditor, coeditor co editor? Hewlett-PackardÆ HewlettPackard, Hewlett Packard? lower case = lowercase ? P ti l i sequenze: Particolari email address: [email protected] URL:http://www.disco.unimib.it p Progr. Languages: C++, FORTRAN 90 IP addresses: 10.123.154.231 nomi composti: Volo Los Angeles Angeles-San San Francisco Æ Volo Los AngelesSan Francisco? - co-editor Æ coeditor NB: si usa lo stesso criterio anche per le query Dipende dalla lingua ad esempio in cinese le parole non sono separate da blankÆ segmentazione di parole mediante uso di vocabolario NORMALIZZAZIONE Conversione in lettere minuscole eliminazione simboli Normalizzazione date Normalizzazione nomi : Usa Æ usa naïve Æ naive March 1st 2007Æ03/01/07 Bejing Æ peking Alternativa al riconoscimento di parole (t k ) (tokens) Uso di brevi sequenze di caratteri (n-grams) utile per le lingue orientali 4-grams D1: università degli studi di bologna Rimozione delle Stopwords Le p parole molto frequenti q nell’insieme di tutti i documenti p portano poca informazione sul contenuto dei singoli documenti. informatica Ad es: computer in una collezione di Tali parole, stop-words, possono essere eliminate dalla lista dei token. Metodi: 1.Analisi statistica frequenza dei termini nella collezione e eliminazione dei termini con basso potere discriminante 2.Termini T i i ffunzionali i li (articoli, ( ti li preposizioni, i i i verbi bi ausiliari) ili i) sono Parole molto frequenti nella lingua in cui sono scritti i documenti 3.note a priori indipendentemente dalla collezione e raccolte in una tabella (stop list per l’inglese 200-300 termini) Ad es: “been" been , “a" a , “about" about , “otherwise“ otherwise , “the” the Rimozione delle Stopwords L’eliminazione delle stopword permette una riduzione tra il 30% e il 50% dei token Può diminuire la recall es: “to be or not to be” “l iit b “let be”” vengono eliminate li i NB: La maggior parte dei WEB search engine non o identificano de t ca o le e stopwords stop o ds Rimozione delle Stopwords stopt words d d dell’esempio ll’ i : DEGLI DI E IN DELLA DELLO Parole dell’esempio dell esempio che vengono considerate dopo l’eliminazione l eliminazione delle stop-words D 1 : università studi bologna facoltà lettere filosofia corso laurea scienze Comunicazione D 2 : libera università lingue comunicazione iulm facoltà scienze p corso laurea scienze comunicazione comunicazione spettacolo D 3 : università studi padova facoltà lettere filosofia corso laurea scienze comunicazione Stemming: Riduzione delle parole alle rispettive radici semantiche L’efficacia L’ ffi i del d l retrieval t i l aumenta t se la l query è espansa con i termini t i i che h hanno h lo stesso significato di quelli contenuti in essa. Gli algoritmi di Stemming sono procedure di conflation (fusione) che riducono tutte le parole con stessa radice a una singola radice In molte lingue, lingue parole che iniziano allo stesso modo (o che hanno delle sequenze di caratteri in comune) possono avere la stessa origine etimologica. Tali parole hanno un contenuto informativo molto simile. Generalmente rimuovono la parte finale delle parole riducendo tutte le parole affini ad un’unica “ radice” (in inglese stem). Es computer, computer computational, computational computing e computed Æ comput Is are being am Æ be paint painting painted painter Æ paint Colour colours Æ color different difference Æ differ Computers are painted different colours Æ comput be paint differ color Relazioni tra i termini indice Indicizzazione basata su termini singoli i termini singoli sono spesso ambigui. Molti termini singoli sono o troppo specifici o troppo generici. Individuazione di indici composti esperti indicizzatori analisi linguistica (NLP) metodi di espansione dei termini mediante tesauri o clustering dei termini Uso di tesauri per la risoluzione di sinonimia Un tesauro può essere: – tematico; in questo caso è una “mappa” del l lessico i specifico ifi di una certa t di disciplina i li iin un d dato t linguaggio; questo è il caso più frequente; – generale; in questo caso è una “mappa” mappa di un intero linguaggio. Per applicazioni P li i i di IR IR, sono stati t ti sviluppati il ti varii ti tipii di tesauro, tra cui tesauri gerarchici, tesauri clustered, e tesauri associativi. Tesauri Gerachici Elenco classificato dei termini usati in una disciplina: RELAZIONI: •sinonimia i i i (RT) R l t dT Related Term •quasi-sinonimia: (UF) Use For Ex UF(hg, ( g, mercury y (metal)), ( )), UF(planet (p Mercury,mercury y, y (planet)). (p )) RELAZIONI DI GERARCHIA •generalizzazione (BT) Broader Term •specializzazione (NT) Narrower Term I tesauri gerarchici sono stati oggetto di standardizzazioni ISO e ANSI e sono quasi sempre tematici. Uso di tesauri gerarchici in IR per espandere d la l query per espandere gli indici dei documenti (indicizzazione manuale) SCOPI normalizzazione uso di termini controllati Generalizzazione sostituzione con termini più generali Specificazione S ifi i sostituzione tit i con ttermini i i più iù specifici ifi i Espansione con termini correlati RT il problema della polisemia è evitato poichè i termini sono “qualificati”; il problema bl d ll sinonimia della i i i è evitato i ricorrendo i d alla ll relazione UF. Uso di tesauri gerarchici in IR Svantaggi dei tesauri gerarchici: devono essere costruiti manualmente, da esperti nel dominio;; una loro g generazione automatica è molto difficile, poichè, una volta che un algoritmo ha stabilito che esiste una forte connessione semantica tra due termini,, è molto difficile capire p di q quale tipo p di relazione si tratta (NT, BT, RT, UF/USE); richiedono un aggiornamento costante (manuale), (manuale) poichè nella maggior parte dei domini della conoscenza la terminologia è in evoluzione costante. Clustered tesauri Un tesauro clustered è un grafo di gruppi (o cluster, cluster o synset) di parole. parole Tra due gruppi collegati da un ramo esiste una correlazione semantica (tipicamente generica, cioè non tipizzata); ogni gruppo e’ un insieme di parole tra cui esiste una forte correlazione semantica (quasi-sinonimia). In WordNet, il più conosciuto tesauro «clustered» (costruito manualmente), la quasi-sinonimia è l’unione di un insieme di sottorelazioni,, quali: q – sinonimia (“stesso nome”; per esempio usa/utilizza); – iponimia (“sotto-nome”; per esempio elefante/animale); – meronimia ((“parte-nome”; p e.g. g orecchio/testa); ) – troponimia (“maniera-nome”; e.g. correre/camminare); – entailment, anche conosciuto come presupposizione (e.g. divorzio/sposare). I tesauri clustered possono essere generati automaticamente, ma solo nel caso in cui non sia fatta alcuna distinzione tra i tipi differenti di relazioni se a t c e; semantiche; Tesauri associativi o Pseudo--Tesauri Pseudo Un tesauro associativo è un grafo di parole, i cui nodi rappresentano pp parole e i rami rappresentano p pp una (generica) relazione di similarità semantica tra le due parole. I rami: – possono essere o meno orientati, dipendentemente d l fatto dal f che h si assume che h la l relazione l d similarità di l à sia simmetrica o no; – possono avere un peso numerico associato wij , che indica la “forza” dell’associazione semantica (es fuzzy pseudo-tesauri). T Tesauri i associativi i i i Vantaggi: Possono essere costruiti in modo completamente automatico, a partire ti da d una collezione ll i di documenti. d ti In questo caso la relazione semantica tra ti e tj rispecchia le caratteristiche della collezione, ed è basata sulla relazione di cooccorrenza ((o co-assenza)) tra ti e tjj . Costruzione di un tesauro associativo : 1. Generazione di una matrice di similarità tra termini sij , usando una funzione appropriata; 2. Applicazione di una soglia z a questa matrice, in modo tale che sij è posto a 0 quando sij ≤ z; Il passo critico iti è ovviamente i t il Passo P 1 1, per realizzare li il quale l sono state definite varie tecniche. Clustering in IR Costruzione di Pseudo-Tesauri R Raggruppamento t d deii termini t i i la l cuii rappresentazione rivela assegnamenti simili nei documenti della collezione. collezione Generazione di Cluster di documenti Raggruppamento dei documenti che hanno assegnati g indici simili. Clustering di documenti Raggruppamento di documenti simili in classi: Strategie di clustering: •globale: operazione che raggruppa i documenti basandosi sulle co-occorrenze degli indici nell’intera collezione •locale: operazione p che raggruppa gg pp i documenti sulla base di un contesto definito dalla query (su web) Analisi statistica dei testi: aumento della precisione Non tutte le parole di un documento lo descrivono con la stessa precisione. I termini i i indice i di possono essere assegnatii aii documenti d i della d ll collezione con un dato peso. Associando ai termini un peso si intende tenere conto della significatività (importanza) del termine nel documento . La funzione di p pesatura tiene conto della frequenza q del termine nel documento e nella collezione. Quando il peso è binario, a ogni termine viene assegnato: • un peso = 1 se presente in un documento e • un peso = 0 se assente; non si tiene conto della frequenza effettiva del termine nel documento ma solo della sua eventuale presenza. documento, presenza Indicizzazione con pesatura binaria documenti parole bologna comunicazione corso facoltà filosofia iulm laurea lettere libera lingue padova scienze spettacolo p studi università D1 1 1 1 1 1 0 1 1 0 0 0 1 0 1 1 D2 0 1 1 1 0 1 1 0 1 1 0 1 1 0 1 D3 0 1 1 1 1 0 1 1 0 0 1 1 0 1 1 Indice con pesatura in base alla frequenza documenti parole bologna comunicazione corso facoltà filosofia iulm laurea lettere libera lingue padova d scienze spettacolo studi università D1 1 1 1 1 1 0 1 1 0 0 0 1 0 1 1 D2 0 3 1 1 0 1 1 0 1 1 0 2 1 0 1 D3 0 1 1 1 1 0 1 1 0 0 1 1 0 1 1 Distribuzione della frequenza in f i funzione d l rank del k Per ogni parola w f(w) è la frequenza con cui w compare nella collezione r(w) è ll’indice indice rank (posizione) di w nella lista ordinata in funzione decrescente di frequenza, es, la parola che appare più comunemente ha un indice di rank uguale a 1 f w ha un rank r e e frequenza f 6 r Legge di Zipf Se le parole w, in una collezione vengono ordinate r(w), in ordine decrescente di frequenza f(w), soddisfano la seguente relazione: r(w) * f(w) = c Collezioni differenti hanno costanti c diverse. e test testi in lingua gua inglese, g ese, c te tende de a circa c ca n / 10, 0, o ove e Nei n è il numero di parole nella collezione. vedi Zipf, G. K., Human Behaviour and the Principle of Least Effort. Effort Adison-Wesley, Adison Wesley 1949 8 Analisi di Luhn Potere discriminante delle parole significative (curva di Zipf): capacità delle parole di discriminare il contenuto dei documenti è massima nella posizione intermedia tra i due livelli di cut-offs Criteri di indicizzazione basati sull sull’analisi analisi di Luhn Pesatura dei Termini indice: le parole più frequenti assumono un peso di significatività più basso Stop lists: Le parole più frequenti vengono eliminate li i t dagli d li indici i di i (cut-off ( t ff superiore) i ) Parole significative: g Le p parle p più frequenti q e meno frequenti vengono eliminate dagli indici ((cut-off superiore p e inferiore)) 10 Significatività dei termini indice E’ una funzione composta da due fattori: wtd= ftd * Discr Di t ftd frequenza del termine t in d è in relazione alla esaustività, fattore di recall Discrt è in relazione alla specificità, fattore di precisione Inverse Document Frequency q Inverse Document Frequency (IDF) del termine t discr t = idf t N = log df t ove dft (frequenza del termine t nei documenti) è il numero di documenti in cui tj appare e N il numero di documenti nella collezione Favorisce la precisione; è alta se il termine appare in pochi documenti della collezione Significatività dei termini indice Il peso wij del termine ti in un documento dj N w ij = tf ij × log df i d Dopo aver eliminato le parole funzionali si calcola wij per ogni termine ti in ogni documento dj Si assegnano ai documenti della collezione tutti i termini con valori alti di wij Significatività dei termini indice normalizzazione rispetto alla lunghezza dei documenti La frequenza assoluta tfij di un termine ti cresce con la lunghezza del documento dj. Per questo il peso wij del termine ti in un documento dj viene normalizzato tfij N w ij = × log max tf j dfi maxtfj è la frequenza massima dei termini nel documento dj Il primo fattore è la frequenza relativa del termine ti in dj Conclusione: efficacia dei metodi di indicizzazione automatica Base: indicizzazione automatica basata su singoli t termini i i Utilizzo di un tesauro tematico per raggruppare termini in un settore specifico +10% al +20% Uso di tesauri associativi (pseudo-tesauri) derivati automaticamente in una sottocollezione ll campione 0% al +10%
Documenti analoghi
Information Retrieval - Università degli Studi di Milano
(!! Idea concepita negli anni 60 e ancora di punta !!!!)
{Information, retrieval, computer, science,
discipline, keywords……}
“The experimental evidence accumulated over the past 20
years indicates ...