Ricerca sul Web
Transcript
Ricerca sul Web
Abilità Informatiche A.A. 2010/2011
Lezione 7: Ricerca sul Web
Facoltà di Lingue e Letterature Straniere
Come usiamo internet…
Top 10 Sectors by Share of U.S. Internet Time
Rank
Category
Share of Time Share of Time Change in Share
June 2010 (%) June 2009 (%)
of Time (%)
1
Social Networks
22.7
15.8
43
2
3
4
5
Online Games
E-Mail
Portals
Instant Messaging
10.2
8.3
4.4
4.0
9.3
11.5
5.5
4.7
10
-28
-19
-15
6
7
8
Videos/Movies
Search
Software Manufacturers
3.9
3.5
3.3
3.5
3.4
3.3
12
1
0
9
Multi-Category Entertainment
2.8
3.0
-7
10
Classifieds/Auctions
2.7
2.7
-2
Other
34.3
37.3
-8
Source: The Nielsen Company
Una “ricerca” su web, in media dura 11 minuti. Il 50% delle ricerche sono abbandonate
2
3
4
5
6
Domain Counts & Internet Statistics
Overview for October 14, 2010
All
New
Deleted
Transferred
TLD
123,554,269
134,101
81,326
144,359
All TLDs
90,320,858
95,267
53,554
108,675
.COM
13,426,580
12,357
8,005
17,665
.NET
8,832,647
9,894
5,749
6,945
.ORG
7,120,213
11,889
11,013
8,496
.INFO
2,132,866
2,604
1,672
1,491
.BIZ
1,721,105
2,090
1,333
1,087
.US
7
Browser Statistics Month by Month
2010
September
August
July
June
May
April
March
February
January
2008
December
8
8
Internet
Explorer
31.1 %
30.7 %
30.4 %
31.0 %
32.2 %
33.4 %
34.9 %
35.3 %
36.2 %
Firefox
Chrome
Safari
Opera
45.1%
45.8%
46.4%
46.6%
46.9%
46.4%
46.2%
46.5%
46.3%
17.3%
17.0%
16.7%
15.9%
14.5%
13.6%
12.3%
11.6%
10.8%
3.7%
3.5%
3.4%
3.6%
3.5%
3.7%
3.7%
3.8%
3.7%
2.2%
2.3%
2.3%
2.1%
2.2%
2.2%
2.2%
2.1%
2.2%
Internet
Explorer
Firefox
Chrome
Safari
Opera
46.0 %
44.4%
3.6%
2.7%
2.4%
9
Come è fatto web?
web di “superficie” (surface web)
costituito dalle pagine statiche (HTML puro) pubblicamente disponibili
web “profondo” (deep web)
costituito dai siti web dinamici e dai database accessibili attraverso una
interfaccia web
10
Database “nascosti”
(2) View form
Form page
(1) Download form
(4) Submit form
(3) Fill-out form
(5) Download
Web query
response
front-end
(6) View result
Response
page
Browser
11
Hidden
Database
Quanto grande?
web profondo (pagine dinamiche)
database commerciali
siti che richiedono login
cataloghi, elenchi, orari
550 volte più grande del web statico
12
Cercare in rete...
Cerchiamo “musica per liuto”... cosa cerchiamo davvero?
la definizione di “musica per liuto”
una bibliografia
articoli e notizie disponibili direttamente in rete
spartiti di musica per liuto
un corso su come si suona il liuto
immagini di liuti
notizie utili ad acquistare un liuto
dischi di musica per liuto acquistabili in rete
brani registrati di musica per liuto
informazioni e valutazioni critiche su diversi esecutori
13
Informazione strutturata e
informazione non strutturata
Per svolgere correttamente una ricerca non basta conoscerne
l'argomento - sapere cioè su che cosa vogliamo trovare informazione.
Bisogna anche sapere che tipo di informazione vogliamo trovare.
Nel cercare informazione in rete va tenuta presente la differenza
fondamentale fra informazione fortemente strutturata e informazione
„libera‟, non strutturata e a volte occasionale.
14
Cercare informazione strutturata
Esempio: per raccogliere una bibliografia sul liuto e la musica per liuto, un
buon punto di partenza può essere, evidentemente, il catalogo di una
biblioteca
I cataloghi accessibili on-line vengono spesso denominati OPAC: On-line
Public Access Catalog
Esempi:
la Library of Congress: http://catalog.loc.gov/
il catalogo del Servizio Bibliotecario Nazionale:
http://www.internetculturale.it/genera.jsp/
le biblioteche italiane http://www.aib.it
15
Ricerca bibliografica
Che tipo di informazione abbiamo cercato?
Se la ricerca ha esito positivo, ne ricaveremo un certo numero di schede
bibliografiche, con una struttura costante (autore, titolo, luogo e anno di
edizione, numero delle pagine, formato, collocazione...).
Il catalogo di una biblioteca contiene schede di libri, non direttamente i libri.
Il libro di norma non è in rete: il catalogo di una biblioteca raccoglie
informazioni sui libri, i libri fisici stanno negli scaffali.
Sapere quali libri è possibile consultare su un determinato argomento, e dove
reperirli, è un primo passo fondamentale: Internet modifica radicalmente questa
fase della ricerca.
Internet fornisce un grosso aiuto per trovare informazioni bibliografiche, ma di
norma non consente l'accesso diretto al testo dei libri di cui abbiamo reperito i
dati.
Ma nessuno userebbe il catalogo di una biblioteca per cercare una immagine di
un liuto, o informazioni su quali dischi di liuto comprare.
16
Ricerca su banche dati
Il catalogo della Library of Congress è un esempio di banca dati
specializzata
Il contenuto di una di queste banche dati è accessibile attraverso
Internet, ma non nello stesso senso in cui lo è, ad esempio, una pagina
di World Wide Web: se utilizzassimo un motore di ricerca che indicizza
le informazioni presenti su World Wide Web, non arriveremmo mai
dentro al catalogo di una biblioteca (a meno, naturalmente, che il
catalogo stesso non sia interamente costruito utilizzando pagine
HTML).
17
Perché?
Le pagine HTML che ci forniscono il risultato di una ricerca in una banca
dati specializzata
sono generate 'al volo' dal server in risposta alla nostra interrogazione
non sono dunque conservate su un file permanente.
Ciò significa che i motori di ricerca non possono raggiungerle e indicizzarle
Sarebbe del resto ovviamente impossibile indicizzare i risultati di tutte le
possibili ricerche su una base dati catalografica.
18
Informazione “sparsa”
Per gli altri tipi di ricerca concernenti il liuto non ricorreremo a banche dati
altamente strutturate come il catalogo di una biblioteca, ma all'informazione
sparsa disponibile in rete.
Vuol dire che qualcuno - una istituzione musicale, un appassionato, un
negozio di musica - ha ritenuto di rendere accessibili informazioni da lui
considerate interessanti o utili.
Troveremo immagini di liuti? Molto probabilmente sì, ma non ne siamo
sicuri.
Che affidabilità avranno le notizie che raccoglieremo? Impossibile dirlo a
priori!
19
L’informazione cresce?
Facendo una ricerca con AltaVista della parola “lute”:
20
marzo 1996 :
5.000 pagine
marzo 1997 :
8.000 pagine
marzo 1998 :
34.000 pagine
gennaio 2002 : 164.000 pagine
maggio 2005: 1.530.000 pagine
maggio 2006: 2.490.000 pagine
ottobre 2008: 12.500.000 pagine
ottobre 2009: 11.800.000 pagine (hanno fatto “pulizia”?)
dicembre 2010: 15.100.00 pagine
Dall'informazione ordinata e (dal punto di vista formale) prevedibile di un
catalogo di biblioteca siamo passati al mare ricchissimo, ma caotico e
disorganizzato, di World Wide Web.
In entrambi i casi, Internet è uno strumento prezioso di reperimento
dell'informazione. Ma le strategie di ricerca non possono evidentemente
essere le stesse.
Ordine e Disordine
L'informazione ordinata di una banca dati è in genere più puntuale e
affidabile, ma, pur essendo raggiungibile attraverso Internet, non è in genere
integrata nella grande ragnatela ipertestuale del World Wide Web.
L'informazione disordinata di World Wide Web è più difficile da valutare dal
punto di vista dell'affidabilità, e per reperirla siamo spesso costretti a
navigazioni che possono sembrare quasi casuali, e talvolta frustranti.
21
Fare ricerca in una banca dati
Perché la ricerca possa svolgersi in maniera fruttuosa è necessario che
l'utente sappia, almeno per linee generali, come è strutturata la base di dati:
quali tipologie di campi siano presenti,
quali siano le convenzioni adottate per la schedatura (è presente un
thesaurus? Vengono usate abbreviazioni, e quali?)
quali tipi di ricerca possano essere svolti
e così via
22
Operatori booleani
La condizione complessa della forma 'a AND b' sarà soddisfatta solo se lo
sono entrambe le condizioni più semplici a e b.
La condizione complessa della forma 'a OR b' sarà soddisfatta solo se
almeno una delle condizioni a e b (e non necessariamente entrambe) è
soddisfatta.
ad esempio, se cerco un libro che si occupi di musica per liuto, e scritto in
italiano o in inglese…
(argomento = liuto) AND
((lingua = italiano) OR (lingua = inglese))
23
Ricerca di informazioni non testuali
Molti motori di ricerca
mettono a disposizione
strumenti specifici per la
ricerca di informazione non
testuale
www.alltheweb.com
24
Ricerca di informazioni non testuali
… a volte confondendo categorie di informazione piuttosto diverse:
www.altavista.com
25
Ricerca di informazioni non testuali
Nella ricerca di informazione non testuale, è particolarmente importante
il concetto di metainformazione.
Infatti per trovare un‟immagine, un brano musicale, un video, dobbiamo
comunque usare delle parole chiave o una descrizione testuale (usando
dunque un codice diverso rispetto a quello dell‟informazione cercata).
La metainformazione disponibile dipende, naturalmente, da chi ha
immesso in rete l‟immagine, il suono o il video che cerchiamo.
Purtroppo, raramente vengono utilizzati criteri rigorosi o uniformi.
26
Ricerca di informazioni non testuali
Basti pensare ai risultati che
otteniamo in una ricerca di
file musicali usando un
programma come Napster…
I criteri con i quali sono
catalogati i brani musicali
differiscono da utente a
utente, rendendo assai difficile
la lettura dei risultati.
27
Ricerca di informazioni non testuali
Anche quando cerchiamo immagini o brani video, molto spesso le
indicazioni fornite dal nome del file, dal testo descrittivo (ALT="…")
dell‟immagine o dal contesto della pagina nella quale il documento
audiovisivo è collocato non sono sufficientemente esplicite.
Occorre quindi eliminare molto „rumore‟.
28
Portali
“Un portale è un prodotto editoriale on-line che svolge la funzione di punto
privilegiato di accesso al Web per gli utenti e che fornisce loro risorse
informative, servizi di comunicazione personale, e strumenti con cui
localizzare e raggiungere i contenuti e i servizi on-line di cui hanno
comunemente bisogno”
(Calvo, Ciotti, Roncaglia, Zela, Frontiere di rete, Laterza 2001)
29
Portali
Possiamo distinguere due principali tipologie di portali:
Portali orizzontali (o generalisti)
I portali orizzontali sono rivolti in maniera indifferenziata a tutte le
categorie di utenti, e cercano di soddisfarne il maggior numero
possibile di necessità.
Portali verticali (o tematici)
30
I portali verticali sono invece dedicati a temi o categorie di utenti
specifiche, e hanno l‟ambizione di fornire accesso a un insieme
completo e organizzato di risorse nell‟ambito tematico prescelto.
Portali
MSN, il
portale
orizzontale di
casa
Microsoft:
www.msn.it
31
Ricerca di informazioni non testuali
Risultati di una ricerca di immagini con chiave “Alessandro Manzoni”
La filiale di
una banca
in Viale
Alessandro
Manzoni
Un albergo
della stessa
catena si
trova in Via
Manzoni
32
Cercare un indirizzo di email
Su Internet non esiste l'equivalente diretto di un elenco telefonico, e non
c'è quindi un sistema certo per trovare un indirizzo di posta elettronica.
Non si tratta di una carenza casuale: il meccanismo di funzionamento della
rete è totalmente decentrato:
L‟aggiunta di nuovi nodi può avvenire in ogni momento senza bisogno di
„informarne‟ direttamente tutta la rete
lo stesso vale per l‟aggiunta di singoli utenti.
33
Che fare?
motori di ricerca specializzati:
http://www.123people.com/
Yahoo! People Search (http://people.yahoo.com/)
Bigfoot (http://www.bigfoot.com) -USA
Internet Address Finder (http://www.iaf.net) - USA
WhoWhere (http://www.whowhere.lycos.com/) - USA
Switchboard (http://www.switchboard.com) - USA
Infospace (http://www.infospace.com/) - USA
Pagine Bianche (http://www.paginebianche.it) - Italy
Meta-indici:
Meta Email Search Agent (http://mesa.rrzn.uni-hannover.de/)
Ultimate e-mail directory (http://www.theultimates.com/email/)
34
Ricerca “libera”
Le pagine informative immesse in rete riguardano gli argomenti più vari, e
provengono da fornitori di informazione di natura assai eterogenea: dalle
università alle industrie private (grandi e piccole), dai centri di ricerca ai
negozi, dalle imprese editoriali ai partiti politici.Vi sono poi le
numerosissime 'home page' personali del popolo di Internet.
Chi svolge una ricerca in rete si trova dunque davanti un duplice problema:
reperire l'informazione cercata e valutare la sua correttezza, completezza,
imparzialità.
35
Da dove partire
Vi sono due tipi di risorse che è bene conoscere e che, innanzitutto,
occorre saper distinguere :
i motori di ricerca per termini: permettono di ricercare parole o
combinazioni di parole in un archivio indicizzato di documenti in formato
digitale.
gli indici sistematici: la ricerca avviene su cataloghi ragionati di risorse,
suddivisi per settori e organizzati gerarchicamente.
36
Indici sistematici
Il modello adottato ricorda l'arbor scientiae di derivazione medievale e
rinascimentale, largamente usato anche in ambito enciclopedico e
bibliotecario come alternativa alla organizzazione alfabetica
L‟esempio per eccellenza è Yahoo! ('Yet Another Hierarchical Officious
Oracle'), nato nell'aprile 1994, quando David Filo e Jerry Yang, studenti di
ingegneria elettronica all'Università di Stanford, iniziarono a creare pagine
riassuntive con link ai siti Internet di loro interesse.
37
Repertori chiusi
Gruppo chiuso di revisori/classificatori (editors)
Editors professionisti
Esempi:
Yahoo Directory (dir.yahoo.com)
Looksmart (www.looksmart.com)
Librarians‟ Index to the Internet (lii.org)
Internet Public Library (www.ipl.org)
InfoMine (infomine.ucr.edu)
www.excite.it/directory
directory.virgilio.it/
38
Repertori open
Editors su base volontaristica
Compilano l‟indice su aree di specifica competenza personale
Open Directory Project (ODP)
http://dmoz.org
Catalogo molto grande
5,302,785 sites - 72,287 editors - over 590,000 categories
Utilizzato da molti altri siti
Google (ad esempio: directory.google.it)
WWW Virtual Library
catalogo del Web iniziato da Tim Berners-Lee
Molto più piccolo di ODP: propone link verso cataloghi locali
http://vlib.org
39
Repertori specializzati
Cataloghi limitati ad argomenti particolari
Esempi
The Internet Guide to Engineering, Mathematics and Computing
http://www.intute.ac.uk/sciences/
Molti siti propongono un piccolo elenco di link verso siti che
trattano argomenti simili ("related links")
È molto interessante se il catalogo è proposto da un sito di alta
qualità
40
I motori di ricerca per termini
In questi casi la ricerca avviene indicando una parola, o una combinazione di
parole, che consideriamo associata al tipo di informazione che vogliamo
reperire, e insieme abbastanza specifica da non produrre una quantità
eccessiva di risultati non pertinenti.
Questo evidentemente può avvenire solo se abbiamo un'idea
sufficientemente chiara di quello che stiamo cercando, e se l'ambito della
nostra ricerca può essere associato in maniera ragionevolmente immediata
a un termine, o a un piccolo insieme di termini.
41
Il punto di vista degli utenti
L‟utente occasionale
esprime queries estremamente semplici, che contengono pochi termini,
preferisce ripetere la query quando il risultato non lo soddisfa
Giudica la qualità della ricerca sulla base dei primi 10 risultati
non ha idea di quello che non è stato trovato
si aspetta che il motore gli restituisca informazione rilevante
42
Alcuni dati sugli utenti…
Queries mal definite
Corte
MEDIA 2001: 2.54 termini in
media, 80% < 3 parole
Termini imprecisi
Sintassi non ottimale (80% queries
senza operatori)
Sforzo non significativo
Ampia varianza in
Necessità
Attese
Conoscenza
Banda
43
Comportamenti
85% esaminano solo una schermata
di risposta
78% delle queries non vengono poi
modificate
(una query/sessione)
1% utenti usa advanced search
Il punto di vista
degli autori web
Qualunque sia l‟informazione messa in rete, la ragione per cui viene
pubblicata è perché sia visitata da altri
Il desiderio è quello di essere trovati facilmente
Ed essere trovati da quelli che sono realmente interessati a quel
materiale messo in rete
Ci può essere un profitto legato semplicemente all‟accesso a quella pagina
(es, a fini di raccolta pubblicitaria)
44
Il punto di vista
del motore di ricerca
Il punto essenziale è vendere il banner pubblicitario
Per attrarre “visitatori”:
devono convincere che il motore risponde alle attese
deve dare risposta in tempi brevi
Possono “tentare” il visitatore a fare molteplici queries (per incrementare l
numero di visite)
45
…ma sono onesti?
Alcuni motori di ricerca, oltre ai banner pubblicitari, “vendono” le posizioni
(ranking)
viene trovato prima chi “paga” di più.
non c‟è nessuna garanzia che il ranking corrisponda al contenuto reale
delle pagine
Devono usare tecnologie a basso costo (il ritorno pubblicitario non
giustifica forti investimenti).
46
Come funziona
un motore di ricerca?
Ci sono una serie di agenti (spiders) che girano per la rete alla ricerca di
documenti da indicizzare
I documenti HTML sono indicizzati automaticamente usando soprattutto le
parole chiave presenti nel testo
Quando un utente sottomette una query, interroga l‟indice locale del
motore di ricerca (IR Engine)
Il risultato è una lista di puntatori a documenti che sono ritenuti rilevanti
rispetto alla query
Utenti e WebMaster possono “sottomettere” direttamente ai motori di
ricerca pagine da indicizzare
47
Spiders e Indexer
48
Spiders e Indexer
Il Web è un enorme grafo, i cui nodi sono le pagine web e gli archi
sono costituiti dai links.
Gli Spiders devono attraversare questo grafo e passare all‟Indexer i
documenti trovati
49
Da dove partono gli spiders?
Da una seed-URL
Da un insieme di URL selezionate in base alla popolarità
Associando a spiders diversi diverse partizioni del web
Partendo dalle URL sottomesse dai webmasters
Nell‟esplorare un sito web, usano l‟ipotesi che esso sia ordinato
gerarchicamente
50
Coverage
I motori di ricerca visitano fino a 10 milioni di pagine al giorno (sia vecchie
che nuove pagine)
Il più grosso motore di ricerca indicizza il 50% delle pagine presenti in rete,
gli altri solo il 15-20%.
La sovrapposizione tra motori di ricerca è molto limitata
51
Freshness
Spesso i risultati di una ricerca sono link a pagine non più esistenti, o con
contenuto diverso da quello indicizzato
Gli spiders possono “imparare” ad aggiornare la frequenza di visita di certi siti
In ogni caso, c‟è sempre un ritardo dal momento in cui una pagina viene creata
o modificata rispetto al momento in cui il motore di ricerca se ne accorge
52
Information Retrieval Engine
Quando l‟utente scrive una lista di parole…
alcuni motori di ricerca selezionano le pagine indicizzate che contengono
tutte le parole
altri motori selezionano quelle che contengono almeno una delle parole
Alcuni motori sono “case sensitive”
Alcuni motori eliminano automaticamente alcune parole se non esplicitamente
impedito con i doppi apici
Alcuni motori suggeriscono quali termini aggiungere alla query per raffinare il
risultato
53
Indexer
L‟Indexer produce una rappresentazione interna del documento
Ad ogni keyword viene associato un peso che descrive quante volte esso è
presente nel documento
Ci sono varie strategie per assegnare questo peso:
54
la posizione nel documento
la formattazione (boldface,…)
la frequenza relativa
strategie anti-spamming
Indexer
La posizione dei termini in un documento è cruciale:
Termini contenuti nel “title”
Termini contenuti nell‟”head”
Termini contenuti nelle prime righe di testo
Da ogni elemento della lista restituita dal motore di ricerca in corrispondenza
di una query ricaviamo: ranking, URL, titolo, abstract e altra informazione
55
come farsi conoscere?
Quando si crea una pagina nuova nessuno ci linka (ancora)
Registrarsi presso i diversi siti dei motori
Farsi classificare in repertori e indici
Farsi linkare da siti ben noti
56
57
Ranking: tre approcci base
ranking by relevance
higher statistical relevance of keywords
altavista.com
ranking by pay (pay-per-click)
more you pay higher your rank
overture.com
ranking by popularity
a page with many links to it, is assumed to be more important
google.com
58
Nel 1998
Due idee simili:
HITS (John Klimberg)
PageRank (S. Brin & L. Page)
L’importanza di una pagina non
dipende da colui che “possiede” e
scrive la pagina
59
Idea di base
Si guarda la struttura dei link
p
q
L‟autore della pagina p da‟ un voto alla pagina q
Idea: Se una pagina ha un contenuto interessante ci
saranno molte pagine che la riferiscono.
60
Ranking
L‟importanza delle pagine è determinata dalla struttura del
grafo web
Questi algoritmi non utilizzano informazioni sul contenuto
delle pagine
È il grafo stesso a dirci se la pagina è interessante
61
HITS (Kleimberg)
Ogni pagina ha due punteggi:
ai punteggio autority
hi punteggio hub
Una pagina è una buona “autority” se è riferita da buoni hub.
Una pagina è un buon “hub” se contemporaneamente riferisce buone
autority su uno stesso argomento.
Se la pagina p punta a pagine con un alto valore come autority
deve ricevere un alto punteggio come hub
Se p è riferita da molte pagine che hanno un alto punteggio
come hub, allora deve ricevere un alto punteggio come autority
62
HITS
Authority
Hubness
1 2
3
4
5
6
7 8
9 10 11 12 13 14 15
Authority and hubness weights
La pagina 1 e la pagina 10 sono le più autorevoli
Sono riferite da buone pagine hub: la 2 e la 12
63
PageRank (Google)
Ranking “statico”- PageRank
A tempo di query si trovano le pagine pertinenti la query
L‟ordinamento delle pagine restituite si basa sul PageRank delle pagine che
era stato precomputato
64
PageRank
Una pagina è importante se è votata da
pagine importanti
Il voto si esprime “linkando” una pagina
A differenza di HITS non ho pagine hub!
65
Metaricerca
Gli strumenti di metaricerca – in grado di interrogare al posto nostro e in
maniera intelligente più strumenti di ricerca „di primo livello‟ – sono molti.
Un buon esempio di strumento di metaricerca è IxQuick, che interroga in
parallelo più motori di ricerca e ha un proprio algoritmo per l‟ordinamento
dei risultati trovati.
www.ixquick.com
66
Agenti di ricerca
Un agente di ricerca potrebbe anche non risiedere sul nostro computer
(in modo da continuare il suo lavoro anche quando non siamo collegati a
Internet); potrebbe ‘collaborare’ con altri agenti di ricerca impegnati in
ricerche simili alla sua; potrebbe organizzare e formattare i risultati della
sua ricerca in base a criteri fissati in precedenza, ecc.
67
Agenti di ricerca: qualche esempio
Copernic è un esempio di
utlizzo di strumenti di ricerca
per accedere all‟informazione
contenuta nei propri files e
nelle proprie e-mail,
indipendentemente da come
questa è organizzata
www.copernic.com
68
Agenti di ricerca: qualche esempio
EndNote è in grado di generare
automaticamente bibliografie,
reperendo i dati bibliografici
completi di testi da noi citati in
maniera approssimativa
attraverso una ricerca su basi
dati bibliografiche.
www.niles.com
69
Il futuro
soddisfare “the need behind the query”
Query language determination
Different ranking
(if query Japanese do not return English)
Hard & soft matches
Personalities (triggered on names)
Cities (travel info, maps)
Medical info (triggered on names and/or results)
Stock quotes, news (triggered on stock symbol)
Company info, …
Integration of Search and Text Analysis
70