Information Retrieval - Università degli Studi di Milano
Transcript
Information Retrieval - Università degli Studi di Milano
Materiale tratto dal CORSO DI INFORMATION RETRIEVAL Gabriella Pasi Università degli Studi di Milano Bicocca e-mail: [email protected] Stefania Marrara Information Retrieval Problema “vecchio” in Informatica. Ha assunto grande importanza con la nascita e lo sviluppo del WWW Enorme e crescente quantità di informazioni disponibili Necessità di sistemi che supportino un efficiente ed efficace reperimento di informazioni pertinenti a specifiche necessità. Stefania Marrara Information Retrieval: le “radici” dei motori di ricerca. I motori di ricerca sono sistemi software intensivamente usati su Web. Cio’ che molti non sanno è che essi rappresentano la punta dell’iceberg dell’Information Retrieval, una disciplina fondata alla fine degli anni sessanta. Motori di ricerca Information Retrieval Stefania Marrara Ricerca su Web e Information Retrieval Classica ricerca in IR 1970s 1980s 1990s ….sopraggiunge il web web searching Stefania Marrara 2000s Il problema dell’accesso automatico a informazioni Sviluppo di sistemi che aiutino l’utente a identificare informazioni rilevanti (pertinenti) alle loro necessità (informare: ridurre l’ignoranza). La definizione di tali sistemi è basata sulla soluzione di un problema decisionale: come identificare e “ordinare” informazione che soddisfi le preferenze dell’utente? Occorre: * interpretare il contenuto di testi, immagini, video, audio * interpretare le esigenze dell’utente Ruolo centrale della nozione di rilevanza: rilevanza la rilevanza è una proprietà soggettiva: difficile da definire e da misurare!Stefania Marrara Principali tipologie di sistemi per l’accesso a informazioni Sistemi di Information Retrieval (Motori di ricerca) Richiedono Sistemi per la Gestione di Basi di Dati Richiedono La formulazione di una “query” La formulazione di una “query” Sistemi di Information Filtering Profili utente, cioè descrizioni di esigenze specifiche Richiedono dinamicamente aggiornate, anche sulla base del comportamento dell’utente (NO QUERY) Stefania Marrara Modalità di reperimento delle informazioni Tecnologia Pull Tecnologia Push L’utente richiede esplicitamente le informazioni in modalità interattiva 3 modalità L’utente viene automaticamente aggiornato con informazioni di possibile interesse Browsing (ipertesti) Retrieval (sistemi di IR) Browsing e retrieval (librerie digitali e ricerche su web) Stefania Marrara agenti software esempio: servizi di news, e-commerce filtering (retrieval) fornisce all’utente informazioni rilevanti per un utilizzo differito Definizione di Informazione Nel 1948 Claude Elwood Shannon (1916-2001) pubblica la monografia A Mathematical Theory of Comunication che è un primo contributo all'inquadramento teorico del problema del trasferimento dell'informazione. “L'informazione è legata alla capacità di estrapolare notizie dall'ambiente per poterle poi riutilizzare per conquistare una posizione di vantaggio.” DEF 1: Informare: dare forma a qualcosa ⇒ eliminare l’incertezza, l’ignoranza DEF 2: acquisizione di contenuto trasferito da un soggetto ad un altro DEF 3: un insieme di dati + loro interpretazione dato ⇒ elemento di informazione L’informazione produce una variazione di conoscenza Stefania Marrara Definizione di Informazione I dati sono quindi fatti elementari, informazioni codificate, che hanno bisogno di essere interpretate per arricchire la conoscenza Esempio dati: “Marco Pagani” ’4261’ Informazione = dati + interpretazione Domanda implicita: a) Chi è l’esercitatore del corso? Qual è il suo n° di tel.? b) “Qual è il Nome del dipendente? Qual è il suo stipendio? Nei sistemi per la gestione di basi di dati le informazioni Stefania Marrara vengono rappresentate in modo essenziale, dai dati e da uno schema concettuale che permette la loro interpretazione Gestione automatica dell’informazione TESTI espressi in linguaggio naturale FORMA DELL’ INFORMAZIONE SUONI e Registrazioni audio e video GRAFICI en IMMAGINI, MAPPE NUMERI, CODICI, SEGNALI Problema tecnico: GESTIONE AUTOMATICA DELL'INFORMAZIONE come rappresentare e manipolare l'informazione negli elaboratori? efficienza Problema semantico: il modo in cui l'informazione viene sintetizzata e memorizzata conserva il suo Stefania Marrara significato originario? efficacia Dati relativi al 1996 160 140 120 100 80 Non strutturati Strutturati 60 40 20 0 Volume delle informazioni Valore delle informazioni Stefania Marrara Dati relativi al 2006 160 140 120 100 80 Non Strutturati Strutturati 60 40 20 0 Volume di imformazioni Valore delle informazioni Stefania Marrara Sistemi di Information Retrieval vs Sistemi per la gestione di basi di dati Motivazioni I DBMS sono nati dalla necessità di gestire ad crescenti quantità di dati relativi applicazioni aziendali tradizionali I sistemi di IR sono nati dalla necessità di gestire, classificare, reperire libri e articoli in biblioteche/librerie grandi quantità di testi Stefania Marrara Sistemi di Information Retrieval vs Sistemi per la gestione di basi di dati DBMS Reperimento di dati che soddisfano condizioni di selezione rigide, espresse mediante un linguaggio di interrogazione (V,F) Semantica dei dati e delle condizioni ben definita Una singolo dato erroneo implica il fallimento della ricerca! Information retrieval Reperimento di informazioni circa un argomento o un tema Semantica delle richieste e dei documenti vaga. Piccoli errori nei risultati sono tollerabili Un Sistema di IR : interpreta il contento di documenti costruisce una rappresentazione genera un ordinamento (ranking) che riflette la rilevanza stimata Concetto di rilevanza molto Stefaniaimportante Marrara Sistemi per la gestione di basi di dati Modello dei dati DATI DBMS A B C APPLICAZIONI Caratteristiche: Schema (descrizione intensionale della struttura dei dati ) Istanze (descrizione estensionale del valore attuale dei dati) Modello di dati (permette di rappresentare i dati in modo indipendente dal sistema): relazionale orientato ad oggetti Gerarchico, ecc Stefania Marrara Definizione di Information Retrieval Due componenti principali Sorgente di informazioni = archivio di documenti Qualcuno con necessità di informazioni Decision making Interpretazione soggettiva Interpretazione soggettiva terza componente Intermediario che interpreta le necessità informative dell’utente e stima la rilevanza dei Stefania Marrara documenti rispetto a tali necessità. Definizione di Information Retrieval “IR is the name for the process or method whereby a prospective user of information is able to convert his need for information into an actual list of citations to documents in storage containing information useful to him. (. .. ). IR embraces the intellectual aspects of the description of information and its specification for search, and also whatever systems, techniques, and machines that are employed to carry out the operation”. [Mooers 1951]. IR è la disciplina informatica che si occupa della memorizzazione e del reperimento di documenti; il suo obbiettivo è la realizzazione di sistemi software che permettano la memorizzazione di ingenti quantità di documenti in un archivio, in modo tale da permettere un’efficiente reperimento dei documenti rilevanti alle necessità informative degli utenti. Stefania Marrara Glossario Documento (d): unità di informazione reperibile, espressa in formato libero (senza l’applicazione di schemi o formati specifici). I documenti hanno un contenuto informativo. • IR TESTUALE articoli scientifici, lettere, articoli di quotidiani, legende di immagini o grafici, trascrizioni di audio • IR MULTIMEDIALE immagini, grafici, audio (parlato o non parlato), o video, . . . , memorizzato in formato digitale Archivio (D) : insieme di documenti accessibili per mezzo di un IRS; può essere statico (p.e. CD-ROM) o dinamico (p.e. librerie digitali e il Web), centralizzato o distribuiti Ingente dimensione: i sistemi distribuiti e la diffusione di supporti di memoria come i CD-ROM hanno permesso la creazione di grandissime basi di documenti (archivi) (p.e. da 106 a 109 di documenti). Questa è la dimensione tipica degli archivi gestiti in IR; Necessità infomativa (q): (q) una necessità di informazione utile alla soluzione di un problema, o di risorse utili per un dato obiettivo; Rilevanza (RSV o Retrieval Status Value): ≈ pertinenza, utilità di Stefania Marrara un documento in accordo all’opinione dell’utente, rispetto a una query. Information Retrieval Finalità: rappresentazione, memorizzazione, organizzazione, e accesso a elementi d’informazione (documenti – testuali o multimediali) Problemi: Esempio: la rappresentazione del contenuto informativo dei documenti (consideremo documenti testuali) l’interpretazione delle necessità informative dell’utente “trova tutti i documenti contenenti informazioni relative alla diagnosi delle malattie esantematiche nei bambini a cura di associazioni pediatriche italiane” Obiettivo primario di un sistema di IR : “Reperire tutti i documenti che sono rilevanti per l’utente trascurando i documenti non rilevanti.” Stefania Marrara Sistema di Information Retrieval Documents Necessità Informative Query Documenti reperiti Informazioni stimate rilevanti per l’utente Sistema di Information Retrieval Soggettività!!!! Obbiettivo primario di un sistema di IR: “Reperire tutti i documenti che sono rilevanti per l’utente e minimizzando il reperimento di documenti non rilevanti.” COME??? Stefania Marrara Struttura base di un IRS INDICIZZAZIONE ARCHIVIO DI DOCUMENTI Tipicamente testi non strutturati o semistrutturati RAPPRESENTAZIONE FORMALE DEI DOCUMENTI MECCANISMO DI MATCHING DOCUMENTI STIMATI RILEVANTI FORMULAZIONE RAPPRESENTAZIONE DELLA QUERY DELLA QUERY Un IRS è basato su un modello matematico Stefania Marrara Off line On line Componenti di un Sistema di Information Retrieval Archivio di documenti il documento è l'unità di informazione reperibile. Può essere costituito da un testo in forma narrativa (testuale) o essere composto da parti narrative, pittoriali, codificate, etc. (multimediale); Rappresentazione formale dei documenti sintetizza il contenuto informativo dei documenti. E’ ottenuta mediante il processo indicizzazione; Linguaggio di query in una query sono espresse le condizioni per la selezione dei documenti di interesse per l'utente; Meccanismo di Confronto (matching) confronta la rappresentazione dei Documenti archiviati con le Stefania Marrara condizioni di selezione espresse nella query. Modelli di IR Un sistema di IR è basato su un modello matematico che fornisce una descrizione formale: Del documento Della query Del modo in cui confrontare rappresentazioni di query e documenti per effettuare una stima della rilevanza dei documenti e produrre la lista dei documenti stimati rilevanti. N.B. un sistema di IR semplifica la realizzazione dell’attività di retrieval i risultati prodotti non sono « perfetti » (stima di rilevanza) Va notato che l’uso della stessa tecnica di rappresentazione di documenti e query garantisce un matching corretto; Stefania Marrara Il processo di indicizzazione Problema: come descrivere il contenuto “semantico” di un documento in un modo automaticamente gestibile? Il pocesso di indicizzazione è basato sull’estrazione di “elementi” (feature) che costituiscono la base della descrizione (rappresentazione) del documento. Per i testi tali elementi (detti indici) sono generalmente parole. I documenti sono rappresentati come insiemi (pesati) di parole. (!! Idea concepita negli anni 60 e ancora di punta !!!!) {Information, retrieval, computer, science, discipline, keywords……} “The experimental evidence accumulated over the past 20 years indicates that text indexing systems based on the assignment of appropriately weighted single terms produce retrieval results that are superior than those obtainable with other more elaborate text representations. Stefania Marrara These results depend crucially on the choice of effective term-weighting systems.” (Salton, 1988) Formulazione di richieste (linguaggi di interrogazione) Query semplici Generalmente composte di due o tre, fino a un massimo di 10-12, parole L’utente (keywords) sintetizza le es., ricerche su web sue necessità Query Booleane informative Es. “neural networks” AND immagini mediante parole chiave Query con contesto operatori di prossimità, frasi di ricerca Query sul contenuto e sulla struttura Query in Linguaggio Naturale Stefania Marrara IR: Confronto tra rappresentazione dei documenti e query SCOPO: Reperire i documenti rilevanti per l’utente, ossia pertinenti rispetto alle necessità informative espresse in una query (la rilevanza di un documento e’ relativa alla query formulata). Confronto esatto: Rilevante/ Non Rilevante Confronto parziale: Basato su un confronto “parziale” tra documento e query (ad. es. similarità misura della vicinanza della query al documento) I documenti “sufficientemente vicini” alla query vengono reperiti. E’ necessario definire un metodo per valutare la rilevanza (dipende dal modello di Informazion Retrieval) Stefania Marrara Misure di Efficacia del Retrieval Precisione = |Rilevanti e Reperiti| |Reperiti| Richiamo = |Rilevanti e Reperiti| Stefania Marrara |Rilevanti| Difficoltà dell’Information Retrieval L’ Information retrieval è caratterizzato da: Incompletezza della rappresentazione dei documenti soggettività del concetto di rilevanza Ambiguità del significato dei termini Vaghezza delle richieste utente Incertezza della correttezza del risultato Approssimazione del meccanismo di confronto E’ un’attività che necessita di essere modellata con strumenti formali adatti a trattare imprecisione e incertezza “IR deve cercare di soddisfare necessità di informazione espresse in modo vago, impreciso mediante le ambiguità del linguaggio naturale, e deve confrontarle, in un modo approssimativo con le informazioni contenute in un documento, ed espresse mediante lo stesso linguaggio Stefania Marrara naturale.” (Smeaton, 1997) Ambiti di sviluppo e contesti applicativi dell’IR Digital Libraries Online Public Access Catalogs (OPAC) NOTIS della Endeavor IS, Millennium della Innovative Interface Inc., Excalibur della EOSi Produttori/Venditori di basi di dati: DIALOG www.dialog.com (500 databases es: New York times), LEXIS (documenti legali), NEXIS (documenti su editoria e commercio) (1.3 miliardi di documenti, 1.3 milioni di utenti, 120 milioni di ricerche all’anno) OCLC (Online Computer Library Center 70 databases e 1.5 millioni di articoli completi (full text)) H.W. Wilson (40 database per la scuola) National Library of Medicine (Medline database) Web (search engines: Altavista, Google, Yahoo, ecc Stefania Marrara E-commerce (Amazon, case editrici, ecc.)
Documenti analoghi
Gabriella Pasi - Information Retrieval Laboratory
Linguaggio di query in una query sono espresse le
condizioni per la selezione dei documenti di interesse
per l'utente;
Meccanismo di Confronto (matching) confronta la