Linguistica dei Corpora (2) Lezione 15: Tipi di Corpora e loro usi
Transcript
Linguistica dei Corpora (2) Lezione 15: Tipi di Corpora e loro usi
Informazione “esterna” Tipi di corpora Sommario Linguistica dei Corpora (2) Lezione 15: Tipi di Corpora e loro usi Malvina Nissim [email protected] 20 Maggio 2009 Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Patterns Outline 1 Informazione “esterna” Patterns 2 Tipi di corpora Corpora monolingui Corpora paralleli Il Web 3 Sommario Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Patterns Features più avanzate parole intorno non ci dicono tutto raggruppamenti di parole su base semantica, per esempio strutture più specifiche Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Patterns Hyponymy patterns (Hearst 1992) NP such as NP “animals such as dogs” such NP as NP “works by such authors as Herrick, Goldsmith, and Shakespeare” NP or/and other NP “bruises, wounds, broken bones or other injuries” “temples, treasuries, and other important civic buildings” NP, including NP “all Shengen countries, including Italy and Germany” NP, especially NP “most European countries, especially France, England, and Spain” Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Patterns Meronymy patterns (Berland & Charniak 1998) N’s N “building’s basement” N of/in the/a Adj* N “basement of/in a building” N-PL of/in N-PL “basements of/in buildings” Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Patterns Antonymy patterns ? Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Outline 1 Informazione “esterna” Patterns 2 Tipi di corpora Corpora monolingui Corpora paralleli Il Web 3 Sommario Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Caratteristiche auspicabili Quantità : the bigger, the better Qualità : i testi sono autentici, l’annotazione è valida (XML) Semplicità : la rappresentazione digitale è comprensibile, l’annotazione può facilmente essere rimossa dal testo Documentazione : metadata corpus monolingue corpus multilingue Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Generici Caratteristiche: uno spaccato della lingua completa criteri di design curati e dettagliati documentazione e annotazione questioni legali, disponibilità Criteri per la scelta dei testi: rappresentatività: il corpus include tutti i tipi di testi bilanciamento: le dimensioni degli esempi dei tipi di testo devono essere proporzionali all’“importanza” di tali esempi per i parlanti di una data lingua metodologia ottimale vs questioni pratiche Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Specifici tematici (legge, biologia, arte, ...) specifica “sorgente” (solo adulti, solo bambini, ...) specifico fenomeno linguistico ... Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Metodi di Annotazione manuale: documentazione, strumenti generici quali XML e stylesheets, softare specifico (es. GATE) semi-automatica: interazione con strumenti auotmatici approccio ciclico: automatico, manuale, validazione, correzione, automatico, manuale, ... automatica, con regole scritte a mano: espressioni regolari, usato per tokenizzazione, per esempio automatica tramite apprendimento: modelli costruiti da dati annotati: “supervised learning” (algoritmi vari, vedi Weka) automatica tramite clustering : modelli costruiti da dati non-annotati “unsupervised leaning” Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Corpora paralleli corpus parallelo bilingue o multilingue: collezione di testi in due o più lingue con i medesimi contenuti utile per ricerche in linguistica computazionale, traduzioni, lessicografia, ...: estrazione di terminologia specifica in lingue diverse per la creazione di glossari aiuto per il traduttore specialmente in casi di traduzione non-letterale studi di strategie di traduzione ... Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Allineamento per frase per parola (GIZA++) Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Alcuni corpora paralleli Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Alcuni corpora paralleli Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Alcuni corpora paralleli La Bibbia Hansards of the 36th Parliament of Canada (http: //www.isi.edu/natural-language/download/hansard/): 1.3 milioni di coppie di frasi (19.8 milioni di parole in Inglese e 21.2 milioni di parole in Francese) Europarl corpus (European Parliament Proceedings Parallel Corpus 1996-2003) (http://www.isi.edu/~koehn/europarl/) 11 lingue: Danish, Dutch, English, Finnish, French, German, Greek, Italian, Portuguese, Spanish, Swedish OPUS corpus parallelo open source (http://logos.uio.no/opus/) Europarl corpus + vari manuali di software (oltre 20 lingue, tra cui Cinese, Ebraico, Giapponese, Coreano, Russo, Turco) Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Alcuni corpora paralleli Europarl Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Il Web: Vantaggi grandezza più grande collezione di dati esistente: molti algoritmi di apprendimento automatico raggiungono risultati migliori con più dati, anche se questi dati non sono perfetti; alcuni fenomeni rari si trovano in quantità sufficiente solo se i dati sono davvero tanti multi-lingualità si possono costruire corpora per lingue per le quali corpora di riferimento standard non esistono, o per le quali esistono solo corpora mono-sorgenti (articoli di giornale, per esempio) varietà generi che non sono presenti se non sul Web: blog, comunicazione interattiva scritta che presenta caratteristiche della comunicazione orale, . . . Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Il Web: Svantaggi rumore i dati non sono affatto controllati da un punto di vista di correttezza, possono essere duplicati, ... questioni legali praticamente impossibile ottenere il permesso per l’utilizzo di tutti i dati diversi usati Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Corpora monolingui Corpora paralleli Il Web Uso del Web Web come corpus: ottenere frequenze direttamente dal Web come se fosse un qualsiasi corpus. Sfrutta interfacce preconfezionate (API, Application Programmer Interface) funzionanti su GOOGLE, Altavista, . . . Il numero di richieste al giorno può essere limitato. Non si possono usare espressioni regolari. Problema con function words. I numeri non sono mai veramente gli stessi. Corpus dal Web: sfruttando gli APIs dei motori di ricerca e query specifiche costruire corpora che possono poi essere soggetti a post-processing linguistico di vario tipo. Le pagine ottenute sono comunque soggette a scelte non controllabili (limite massimo di dati scaricabili al giorno, ranking) Corpus dal Web “artigianalmente”: creare strumenti di crawling diretto di pagine web. ⇒ Wacky initiative, BootCat Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Outline 1 Informazione “esterna” Patterns 2 Tipi di corpora Corpora monolingui Corpora paralleli Il Web 3 Sommario Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Sommario lo facciamo insieme Malvina Nissim LC2 – Lezione 15 Informazione “esterna” Tipi di corpora Sommario Cercate cercate cercate... ... e troverete! Malvina Nissim LC2 – Lezione 15
Documenti analoghi
Proposte didattiche attorno ad un corpus di testi
(http://info.ox.ac.uk/bnc/using/papers/astor96a.html). Chris
Tribble (un altro dei pionieri dell’uso didattico di questi strumenti)
offre utili indicazioni pratiche per chi è interessato all’acquis...
1) cosa è un corpus e cosa è la corpus linguistics (P)/
data lingua sono state rese in un’altra. Ad esempio l’avverbio inglese “still” può
essere espresso in francese con “toujours” o “encore”, o con l’espressione
“couramment” o addirittura con il verbo...