Treebank sintattico-semantica della lingua italiana
Transcript
Treebank sintattico-semantica della lingua italiana
SI-TAL Documento di Specifiche Tecniche di SI-TAL Manuale Operativo Capitolo 4 Specifiche tecniche per la Treebank sintattico-semantica dell’italiano ** Consorzio Pisa Ricerche - (CPR) Consorzio Venezia Ricerche - (CVR) Istituto Trentino di Cultura - Istituto per la Ricerca Scientifica e Tecnologica - (ITC-irst) Centro per la Ricerca, Sviluppo, Formazione nelle Tecnologie ed Applicazioni Informatiche - (CERTIA) Synthema Linea 1.1 - Treebank sintattico-semantica dell'italiano Sommario 1 INTRODUZIONE 6 2 IL CORPUS DELLA TREEBANK DI SI-TAL 8 2.1 Composizione del corpus............................................................................................................................... 8 2.2 Annotazione morfo-sintattica ....................................................................................................................... 9 3 ANALISI E CONFRONTO DI MODELLI DI ANNOTAZIONE ESISTENTI: RISULTATI 11 3.1 Annotazione sintattica ................................................................................................................................. 11 3.1.1 Schemi di annotazione considerati............................................................................................................ 11 3.1.2 Schemi di annotazione: parametri di confronto ........................................................................................ 11 3.1.3 La Treebank sintattica di SI-TAL nel panorama dei corpora annotati...................................................... 13 3.2 4 Annotazione semantico-lessicale................................................................................................................. 14 SCHEMA DI ANNOTAZIONE 15 4.1 Specifiche di annotazione per il livello sintattico ...................................................................................... 15 4.1.1 Articolazione interna dello schema di annotazione sintattica ............................................................. 16 4.1.2 Strategie di base per l’annotazione........................................................................................................ 17 4.1.3 Specifiche di annotazione per il livello sintattico a costituenti ................................................................. 18 4.1.3.1 Teoria X-barra e costituenza sintattica ............................................................................................ 18 4.1.3.2 Costituenti sintattici nello schema di annotazione di SI-TAL......................................................... 19 4.1.3.2.1 F ................................................................................................................................................. 20 4.1.3.2.2 IBAR .......................................................................................................................................... 20 4.1.3.2.3 SN .............................................................................................................................................. 21 4.1.3.2.4 SP ............................................................................................................................................... 22 4.1.3.2.5 SPDA ......................................................................................................................................... 22 4.1.3.2.6 SPD ............................................................................................................................................ 22 4.1.3.2.7 SA .............................................................................................................................................. 22 4.1.3.2.8 SAVV......................................................................................................................................... 23 4.1.3.2.9 SV2 ............................................................................................................................................ 23 4.1.3.2.10 SV3 .......................................................................................................................................... 23 4.1.3.2.11 SV5 .......................................................................................................................................... 23 4.1.3.2.12 F2 ............................................................................................................................................. 24 4.1.3.2.13 FINT......................................................................................................................................... 24 4.1.3.2.14 FAC.......................................................................................................................................... 24 4.1.3.2.15 COMPT.................................................................................................................................... 25 4.1.3.2.16 COMPIN .................................................................................................................................. 25 4.1.3.2.17 COMPC.................................................................................................................................... 26 4.1.3.2.18 COORD.................................................................................................................................... 26 4.1.3.2.18.1 FC.......................................................................................................................................... 27 4.1.3.2.19 FP ............................................................................................................................................. 27 4.1.3.2.20 CP............................................................................................................................................. 28 4.1.3.2.21 FS e CP .................................................................................................................................... 29 4.1.3.3 Tipologia dei costituenti sintattici della Treebank di SI-TAL......................................................... 30 4.1.3.3.1 Costituenti Funzionali Strutturali ............................................................................................... 31 4.1.3.3.2 Costituenti Funzionali Lessicali ................................................................................................. 31 4.1.3.3.3 Costituenti Sostanziali................................................................................................................ 32 4.1.3.4 Criteri di annotazione ...................................................................................................................... 32 4.1.3.4.1 Costituenti minori, Modificatori e Marcatori Semantici ............................................................ 32 D-2 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4.1.3.4.2 Costituenti vuoti......................................................................................................................... 33 4.1.3.4.3 Clitici.......................................................................................................................................... 33 4.1.3.4.4 Il “SI” espletivo: inerente, passivante, medio e impersonale ..................................................... 34 4.1.3.4.5 Preposizioni e SP ....................................................................................................................... 34 4.1.3.4.6 Modali e costruzioni perifrastiche di varia natura (aspettuali, causativi) ................................... 34 4.1.4 Specifiche di annotazione per il livello funzionale................................................................................ 35 4.1.4.1 Tipologia delle relazioni funzionali................................................................................................. 37 4.1.4.1.1 Inventario delle relazioni......................................................................................................... 38 4.1.4.1.2 Tratti associati agli elementi della relazione.......................................................................... 43 4.1.4.1.2.1 Tratti distintivi del DIPENDENTE ......................................................................................... 43 4.1.4.1.2.2 Tratti distintivi della TESTA ................................................................................................ 45 4.1.4.1.2.3 Tratti distintivi della TESTA e del DIPENDENTE ................................................................... 45 4.1.4.1.2.4 Tratti distintivi della TESTA e del DIPENDENTE: riepilogo................................................... 46 4.1.4.1.3 Altri tipi di relazioni................................................................................................................. 47 4.1.4.1.3.1 Annotazione di costruzioni coordinate ............................................................................... 47 4.1.4.1.3.2 Annotazione di relazioni di coreferenza............................................................................. 47 4.1.4.2 Criteri di annotazione per il livello funzionale ................................................................................ 48 4.1.4.2.1 La distinzione tra argomenti e modificatori .......................................................................... 49 4.1.4.2.2 Costruzioni di base................................................................................................................... 50 4.1.4.2.2.1 Costruzioni con verbo intransitivo ..................................................................................... 50 4.1.4.2.2.2 Costruzioni con verbo intransitivo inaccusativo................................................................. 51 4.1.4.2.2.3 Costruzioni con verbo transitivo con oggetto diretto ......................................................... 51 4.1.4.2.2.4 Costruzioni con verbo transitivo con oggetto indiretto ...................................................... 51 4.1.4.2.2.5 Costruzioni con verbo transitivo con complemento obliquo .............................................. 51 4.1.4.2.2.6 Costruzioni passive............................................................................................................. 51 4.1.4.2.2.7 Costruzioni con completive sottocategorizzate .................................................................. 52 4.1.4.2.2.8 Costruzioni con modificazione frasale (gerundive, participiali, infinitive) ........................ 53 4.1.4.2.2.9 Costruzioni con complementi predicativi del soggetto e dell’oggetto................................ 53 4.1.4.2.2.10 Complementazione di nomi e aggettivi......................................................................... 55 4.1.4.2.2.11 Negazione ........................................................................................................................ 56 4.1.4.2.2.12 Costruzioni esistenziali................................................................................................... 56 4.1.4.2.2.13 Costruzioni coordinate................................................................................................... 56 4.1.4.2.2.14 Condivisione di complementi in costruzioni coordinate ............................................. 58 4.1.4.2.3 Costruzioni ellittiche ................................................................................................................ 58 4.1.4.2.3.1 Ellissi del soggetto ............................................................................................................. 58 4.1.4.2.3.2 Ellissi del verbo.................................................................................................................. 58 4.1.4.2.4 Annotazione di relazioni di coreferenza................................................................................. 60 4.2 Interrelazioni tra i due livelli di annotazione sintattica............................................................................ 60 4.3 Specifiche di annotazione per il livello semantico-lessicale ...................................................................... 61 4.3.1.1 L’input all’annotazione semantico-lessicale ................................................................................... 62 4.3.1.2 L’annotazione semantico-lessicale: elementi e tratti descrittivi ...................................................... 62 4.3.1.2.1 L’elemento <us .......................................................................................................................... 64 4.3.1.2.1.1 alter..................................................................................................................................... 64 4.3.1.2.1.2 fig ....................................................................................................................................... 64 4.3.1.2.1.3 np........................................................................................................................................ 65 4.3.1.2.1.4 Sommario dei tratti che descrivono <us ............................................................................. 65 4.3.1.2.2 L’elemento <usc......................................................................................................................... 66 4.3.1.2.2.1 tipousc ................................................................................................................................ 66 4.3.1.2.2.2 fig ....................................................................................................................................... 67 4.3.1.2.2.3 Sommario dei tratti che descrivono <usc ........................................................................... 67 4.3.1.2.3 L’elemento <ust ......................................................................................................................... 67 4.3.1.2.3.1 Sommario dei tratti che descrivono <ust ............................................................................ 68 4.3.1.2.4 Altri tratti che possono essere usati nella definizione di unità di senso ..................................... 68 4.3.1.2.4.1 Sommario dei tratti relativi all’annotazione ....................................................................... 68 4.3.1.2.5 Tabella sinottica dei tratti per l’annotazione semantico-lessicale .............................................. 69 4.3.2 Criteri di annotazione................................................................................................................................ 69 4.3.2.1 Criteri di annotazione delle <us....................................................................................................... 69 4.3.2.1.1 Alterati e aggettivi superlativi .................................................................................................... 69 4.3.2.1.2 Nomi Propri ............................................................................................................................... 71 D-3 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4.3.2.1.3 Parole Straniere .......................................................................................................................... 71 4.3.2.2 Criteri di annotazione delle <usc..................................................................................................... 72 4.3.2.2.1 Perché l’annotazione delle <usc................................................................................................. 72 4.3.2.2.2 Problemi nell’identificazione ed interpretazione delle <usc ...................................................... 73 4.3.2.2.3 Identificazione degli elementi costitutivi delle <usc .................................................................. 74 4.3.2.2.4 Espressioni idiomatiche e composti ........................................................................................... 75 4.3.2.2.4.1 Criteri di identificazione delle espressioni idiomatiche e dei composti.............................. 76 4.3.2.2.5 Espressioni con verbo supporto.................................................................................................. 78 4.3.2.3 Criteri di annotazione delle <ust...................................................................................................... 81 4.3.2.4 Gli Usi Figurati................................................................................................................................ 82 4.3.2.4.1 La Metafora................................................................................................................................ 82 4.3.2.4.2 La Metonimia............................................................................................................................. 83 4.3.2.5 Terminologia ................................................................................................................................... 84 4.3.2.6 Casi di mancata corrispondenza tra la risorsa lessicale di riferimento e l’uso attestato .................. 85 4.3.2.6.1 Assenza del lemma..................................................................................................................... 85 4.3.2.6.2 Assenza del senso rilevante di un lemma già presente in IWN.................................................. 85 4.3.2.6.3 Corrispondenza con più sensi dello stesso lemma ..................................................................... 86 5 METODOLOGIA DI ANNOTAZIONE 87 5.1 Metodologia di annotazione per il livello sintattico (a costituenti e funzionale)..................................... 87 5.1.1 Modalità dell’annotazione a costituenti .................................................................................................... 88 5.1.1.1 Parentesizzazione di base ................................................................................................................ 88 5.1.1.2 Parentesizzazione dei costituenti dominanti.................................................................................... 89 5.1.2 Modalità dell’annotazione funzionale....................................................................................................... 90 5.2 Metodologia di annotazione per il livello semantico-lessicale .................................................................. 91 5.2.1 Integrazioni richieste della risorsa lessicale di riferimento: casistica ....................................................... 93 5.2.1.1 Criteri per la definizione di un nuovo senso.................................................................................... 93 6 SPECIFICHE DEL SOFTWARE PER L’ANNOTAZIONE E LA NAVIGAZIONE NELLA TREEBANK 96 6.1 Requisiti Funzionali..................................................................................................................................... 97 6.1.1 Annotazione Sintattica a costituenti.......................................................................................................... 98 6.1.2 Annotazione Sintattico-funzionale............................................................................................................ 98 6.1.3 Annotazione Semantico-Lessicale ............................................................................................................ 98 6.1.4 Validazione ............................................................................................................................................... 99 6.2 Architettura del sistema .............................................................................................................................. 99 6.3 Requisiti Software...................................................................................................................................... 101 7 VALUTAZIONE 101 7.1.1 Rapida descrizione del sistema di traduzione ......................................................................................... 102 7.1.2 Modifiche al sistema di traduzione e modalità di interrogazione della Treebank................................... 104 7.1.2.1 Modifiche da apportare al contenuto dei dizionari ........................................................................ 104 7.1.2.1.1 Aggiunta dei lemmi del corpus mancanti................................................................................. 105 7.1.2.1.2 Inserimento di nuove MWE. .................................................................................................... 105 7.1.2.1.3 Analisi dell’annotazione semantica.......................................................................................... 105 7.1.2.2 Ampliamento e raffinamento dell’insieme delle regole di analisi ................................................. 106 7.1.2.2.1 Verifica delle strutture previste ................................................................................................ 106 7.1.2.3 Ampliamento e raffinamento dell’insieme delle regole di ‘transfer’............................................. 107 7.1.3 Valutazione dei risultati .......................................................................................................................... 107 7.1.3.1 Individuazione di un corpus sul quale effettuare la validazione.................................................... 107 7.1.3.2 Criteri per la valutazione ............................................................................................................... 107 RIFERIMENTI BIBLIOGRAFICI 109 D-4 Linea 1.1 - Treebank sintattico-semantica dell'italiano APPENDICE 1: IL TAGSET PER L’ANNOTAZIONE MORFO-SINTATTICA 114 1 1.1 INTRODUZIONE 114 Formato di annotazione ............................................................................................................................ 115 1.2 Inventario delle etichette ed esempi ......................................................................................................... 115 1.2.1 Nomi (S) ................................................................................................................................................. 115 1.2.2 Verbi (V)................................................................................................................................................. 116 1.2.3 Aggettivi (A)........................................................................................................................................... 118 1.2.4 Pronomi (P)............................................................................................................................................. 120 1.2.5 Predeterminatori (T) ............................................................................................................................... 121 1.2.6 Determinatori (D) ................................................................................................................................... 122 1.2.7 Articoli (R).............................................................................................................................................. 123 1.2.8 Avverbi (B)............................................................................................................................................. 123 1.2.9 Preposizioni (E) ...................................................................................................................................... 123 1.2.10 Congiunzioni (C)................................................................................................................................ 124 1.2.11 Numerali (N) ...................................................................................................................................... 124 1.2.12 Interiezioni (I) .................................................................................................................................... 125 1.2.13 Punteggiatura (@@) .......................................................................................................................... 125 1.2.14 Abbreviazioni (SA) ............................................................................................................................ 125 1.2.15 Classe Residua (X)............................................................................................................................. 125 1.3 Legenda delle abbreviazioni ..................................................................................................................... 125 APPENDICE 2: STUDIO COMPARATIVO DI PRATICHE DI ANNOTAZIONE SINTATTICA A COSTITUENTI: SI-TAL E GLI ALTRI 129 D-5 Linea 1.1 - Treebank sintattico-semantica dell'italiano 1 Introduzione Obiettivo del tema “Treebank sintattico-semantica dell’italiano” è la costruzione di un corpus dell’italiano annotato ai seguenti livelli di descrizione linguistica: • struttura sintattica a costituenti - per una copertura di circa 80.000 parole, verranno annotati i costituenti sintagmatici e le loro relazioni di incassamento gerarchico; • struttura sintattica a livello funzionale - per una copertura di circa 300.000 parole, verranno annotate le relazioni funzionali principali (es. soggetto, oggetto diretto); • semantico-lessicale - circa 80.000 parole piene (distribuite tra nomi, verbi e aggettivi) verranno annotate semanticamente con l’assegnazione del senso rilevante (ricavato da ItalWordNet) nei loro contesti di occorrenza. Il corpus da annotare è ripartito in una parte “bilanciata” (costituita da diversi tipi di testi italiani, scelti in particolare per aspetti di rilevanza applicativa e industriale), e da una parte specialistica. La porzione di corpus specialistica avrà un ruolo cruciale per la valutazione della risorsa Treebank che verrà usata nell’ambito di un sistema applicativo di traduzione automatica. Questo tema risponde ad una esigenza prioritaria sia nel dominio applicativo sia in quello più teorico e di ricerca, ovvero la necessità di produrre e di mettere a disposizione della comunità culturale e industriale italiana risorse annotate a diversi livelli di descrizione linguistica che possano svolgere la stessa funzione rivestita per la lingua inglese dalla “Penn Treebank” (Marcus et al. 1993, 1994) per quanto riguarda la sintassi oppure da “SEMCOR” (Landes et al. 1998) per quanto concerne la semantica. Proprio l’esperienza di queste ultime dimostra come corpora annotati a livello sintattico e semantico rappresentino un fattore determinante per lo sviluppo e valutazione di applicazioni basate sul trattamento automatico del linguaggio. In questo capitolo, vengono fornite le specifiche per i singoli livelli di annotazione insieme ad una descrizione delle funzionalità del software di annotazione e della metodologia di valutazione adottata nell’ambito del progetto per la validazione della Treebank. La definizione delle specifiche è stata guidata dallo spettro di usi che si prospettano per il risultato finale di questo tema nell’ambito di applicazioni di elaborazione del linguaggio naturale. La tipologia degli usi di cui una risorsa di questo tipo si rende suscettibile è varia: si va dall’ambito più propriamente applicativo, per compiti quali la disambiguazione di senso, all’addestramento automatico (“training/tuning”) di sistemi per l’analisi sintattica automatica e per la disambiguazione semantica dell’italiano, alla valutazione di sistemi di elaborazione del linguaggio naturale. L’aspetto della valutazione dei risultati di diversi sistemi e tecniche è oggi cruciale, e anche per questo è essenziale la creazione di corpora annotati da usarsi come riferimento per la valutazione (“testbed”). Inoltre, corpora testuali annotati a diversi livelli di descrizione possono essere usati per l’induzione di modelli linguistici e per l’acquisizione di informazione linguistica. In relazione a questi usi, sono stati identificati una serie di desiderata che la Treebank di SI-TAL intende soddisfare: • usabilità per diversi scopi sia di tipo applicativo sia di ricerca; • compatibilità con diversi approcci alla sintassi: • basati su un’analisi a costituenti oppure su un’analisi a dipendenze; D-6 Linea 1.1 - Treebank sintattico-semantica dell'italiano • adottati in ambito sia teorico sia di sistemi di trattamento automatico del linguaggio; • evitare trattamenti e rappresentazioni troppo condizionati dagli assunti teorici di un certo paradigma e non facilmente ritraducibili in altri tipi di analisi; • applicabilità alla lingua scritta e al parlato; • applicabilità in modo coerente e riproducibile, riducendo al massimo il margine di arbitrarietà nell’annotazione del testo. Questi desiderata hanno trovato soddisfazione nell’architettura globale dello schema di annotazione della Treebank di SI-TAL come segue: • i requisiti di usabilità e compatibilità sono stati interpretati in termini di (inter)traducibilità dello schema della Treebank negli schemi di annotazione dei sistemi che ne faranno uso; in particolare questi hanno portato a: • un’annotazione sintattica distribuita su più livelli (a costituenti e funzionale) indipendenti ma correlabili nella misura in cui è possibile costruire una funzione di proiezione dall’uno all’altro; • per ogni livello, una fattorizzazione dell’informazione linguistica in varie dimensioni; • i requisiti di coerenza e convergenza dell’annotazione inter-livello hanno trovato risposta nel ridurre ai minimi termini possibili ridondanze dell’annotazione: un dato tipo di informazione sintattica viene specificato solo una volta, al livello di annotazione identificato come appropriato; • i requisiti di coerenza e riproducibilità dell’annotazione intra-livello hanno imposto di: • fornire criteri di annotazione precisi e di ampia copertura; • ridurre al massimo decisioni arbitrarie, ovvero annotare casi di incertezza nell’assegnazione di una data categoria, tratto, relazione di dipendenza o senso mediante analisi sottospecificate; • infine, l’applicabilità sia alla lingua scritta sia al parlato trova una risposta nell’indipendenza dei livelli di annotazione; vengono creati così i presupposti per possibili sinergie con il tema “Dialoghi annotati”. Il componente Treebank comprende anche lo sviluppo di un software per la creazione, validazione e gestione del corpus annotato. In questo capitolo le caratteristiche della Treebank sintattico-semantica della lingua italiana sono illustrate in dettaglio. Nella sezione 2, sono brevemente illustrate le caratteristiche del corpus selezionato per l’annotazione. Nella sezione 3, sono riportati i risultati della valutazione comparata di corpora annotati ai livelli sintattico e semantico per diverse lingue. Seguono le specifiche di annotazione, dettagliate nella sezione 4 a sua volta articolata in diverse sottosezioni, ciascuna dedicata ad un livello di annotazione specifico: l’annotazione sintattica è descritta nelle sezioni 4.1 e 4.2 (l’annotazione a costituenti in 4.1.1 e l’annotazione funzionale in 4.1.2), mentre l’annotazione semantica nella sezione 4.3. La metodologia che intendiamo seguire per procedere all’annotazione è illustrata nella sezione 5. Seguono infine le specifiche delle funzionalità del software di annotazione D-7 Linea 1.1 - Treebank sintattico-semantica dell'italiano e browsing della Treebank (sezione 6) ed una descrizione della metodologia di valutazione che si intende adottare (sezione 7). Sono infine accluse due appendici, volte ad integrare le informazioni fornite nel documento. In particolare, esse riguardano: il tagset per l’annotazione morfo-sintattica (Appendice 1) e uno studio comparativo di diverse pratiche di annotazione sintattica a costituenti rapportate allo schema di annotazione a costituenti proposto nell’ambito di SI-TAL (Appendice 2). 2 Il corpus della Treebank di SI-TAL 2.1 Composizione del corpus Il corpus della Treebank di SI-TAL è suddiviso in due partizioni: 1. corpus “bilanciato”, costituito da una selezione di diversi tipi di testi italiani; 2. corpus specializzato, costituito da testi appartenenti al dominio economico-finanziario. Tra i fattori determinanti la scelta del dominio va annoverato il fatto che la partizione specialistica di ItalWordNet, che rappresenta la risorsa lessicale di riferimento per quanto riguarda l’annotazione semantico-lessicale, riguarda appunto il dominio economico-finanziario. Come punto di partenza è stato selezionato il corpus di italiano sviluppato nell’ambito del progetto europeo PAROLE (LE-4017) il cui fine, per quanto riguarda i corpora, era quello di produrre e mettere a disposizione della comunità scientifica e industriale un insieme di corpora di riferimento per le principali lingue europee costruiti secondo specifiche comuni riguardo alla composizione, alla codifica e all’annotazione linguistica. In particolare, si è deciso di partire dalla porzione del corpus di PAROLE corredata di annotazione morfo-sintattica rivista manualmente, che è costituita da circa 250.000 parole (tokens) suddivise in: • articoli estratti dai quotidiani: • • • • Il Sole-24 Ore: tutti gli articoli del 25/5/1994 La Repubblica: tutti gli articoli del 15/7/1995 Il Corriere della Sera: tutti gli articoli del 7/8/1995 articoli estratti da periodici usciti nell’anno 1988, che coprono una varia tipologia di soggetti e argomenti, con una media di circa 2 articoli per testata: • • • • • • • • • Casaviva Centocose Epoca Espansione Grazia Panorama Starbene Storia Illustrata Zerouno Per raggiungere il totale richiesto, ovvero 300.000 parole, al corpus annotato di PAROLE è stato affiancato un altro corpus di circa 50.000 parole costruito nell’ambito del progetto ELSNET (Corazzari e Monachini 1995), con articoli tratti dal quotidiano La Repubblica, selezionati come D-8 Linea 1.1 - Treebank sintattico-semantica dell'italiano rappresentativi di soggetti vari (politica, cultura, economia, sport, ecc.) e che spaziano tra gli anni 1985 e 1988. Anche in questo caso si tratta di un corpus morfo-sintatticamente taggato. La porzione specialistica del corpus della Treebank di SI-TAL è costituita dagli articoli estratti da Il Sole-24 Ore, per un totale di circa 80.000 parole (“tokens”). La rimanente parte, per un totale di circa 220.000 parole, costituisce il corpus “bilanciato”. I testi sopra menzionati sono codificati in formato SGML e contengono indicazione dell’organizzazione macro-testuale (ovvero, titolo, didascalia, sottotitolo, corpo del testo, ecc.); per maggiori dettagli sulla codifica del testo si rinvia a Goggi et al. 1997. Al fine dell’inserimento di questi testi nella Treebank di SI-TAL, è richiesta una conversione di formato da SGML a XML che verrà effettuata nella fase iniziale della linea 1.2, prima di procedere alla fase di annotazione vera e propria. 2.2 Annotazione morfo-sintattica Entrambi i corpora selezionati come punto di partenza sono corredati di annotazione morfosintattica con indicazione del lemma di appartenenza. L’annotazione è stata effettuata automaticamente, mediante il Pi-Tagger (Picchi 1994), il componente del Pi-System per l’annotazione morfo-sintattica, basato su due sottocomponenenti, ovvero Pi-Morpho (morfologia dell’italiano) e il DMI (Dizionario Macchina dell’Italiano). Il PiTagger assegna ad ogni occorrenza di una parola nel testo tutte le possibili interpretazioni, con indicazione del relativo lemma. La selezione tra le possibili interpretazioni di quella appropriata al contesto specifico viene effettuata da una procedura statistica che seleziona l’interpretazione più probabile nel contesto, con una percentuale di successo del 97%. L’output del Pi-Tagger è stato poi rivisto manualmente da due linguisti che, per mezzo di una procedura di verifica e correzione, hanno verificato la correttezza delle etichette e dei lemmi selezionati e, ove necessario, hanno apportato le necessarie correzioni. Il tagset usato per l’annotazione morfo-sintattica è quello sviluppato presso l’Istituto di Linguistica Computazionale (Monachini 1995) e adottato nell’ambito del progetto PAROLE con le dovute modifiche di formato di rappresentazione (Goggi et al. 1997), ed è conforme agli standard esistenti per quanto riguarda questo livello di annotazione (ovvero EAGLES, si veda Monachini 1996). Sul versante specifico del progetto, va poi menzionato il fatto che si tratta dello stesso schema di annotazione adottato, con le modifiche necessarie all’annotazione del parlato, nell’ambito del tema “Dialoghi Annotati”: questo costituisce un importante punto di contatto tra i due temi del progetto e crea i presupposti, negli usi futuri di SI-TAL, per la comparabilità e l’integrabilità delle risorse sviluppate. Diamo qui di seguito alcuni cenni sul formato di annotazione: per le specifiche complete dello schema di annotazione morfo-sintattica si rinvia alla sezione 3.2 del Capitolo 5 relativo al tema “Dialoghi Annotati”, riportata in appendice a questo documento per convenienza del lettore. Il formato di annotazione consiste in una stringa di caratteri che viene associata ad ogni parola del testo. Prima di tutto viene indicato il lemma, separato dal resto dal carattere #. Segue l’informazione morfo-sintattica relativa alla forma: ogni carattere alfabetico della stringa che segue rappresenta il valore di un attributo; ogni attributo ha una posizione fissa e predefinita all’interno della stringa. La stringa di annotazione si suddivide in due parti, separate dal carattere @. La parte che precede @ contiene indicazione della categoria morfo-sintattica, marcata da una lettera maiuscola secondo la tipologia che segue: D-9 Linea 1.1 - Treebank sintattico-semantica dell'italiano • • • • • • • • • • • • • • • Nomi (S) Verbi (V) Aggettivi (A) Pronomi (P) Predeterminatori (T) Determinatori (D) Articoli (R) Avverbi (B) Preposizioni (E) Congiunzioni (C) Numerali (N) Interiezioni (I) Punteggiatura (@@) Abbreviazioni (SA) Classe Residua (X) Segue, dopo il carattere @, l’indicazione dei tratti morfo-sintattici relativi al genere, numero, tempo, modo, persona, ecc., anch’essi espressi in lettere maiuscole. Per la tipologia dei tratti morfosintattici si rinvia all’Appendice 1 di questo documento. Il testo morfo-sintatticamente taggato della Treebank di SI-TAL apparirà dunque come segue: La IL#RD@FS Mondadori MONDADORI#SP@NN ha AVERE#V@S3IP annunciato ANNUNCIARE#V@MSPR che CHE#CS@ il IL#RD@MS prossimo PROSSIMO#A@MS 26 26# N@ ottobre OTTOBRE#S@MS uscira’ USCIRE#V@S3IF in IN#E@ contemporanea CONTEMPORANEO#S@FS mondiale MONDIALE#A@NS il IL#RD@MS primo PRIMO#NO@MS libro LIBRO#S@MS scritto SCRIVERE#V@MSPR dalla DA#E@FS suora SUORA#S@FS albanese ALBANESE#A@NS . .# @ L’annotazione morfo-sintattica del testo conterrà anche indicazione di eventuali espressioni polilessicali (o multi-word expressions) presenti nel testo. A questo livello di base, al quale fanno riferimento tutti i livelli di annotazione della Treebank, saranno annotate espressioni del tipo ad_hoc, al_di_là, alla_spicciolata, allo_scoperto, all’_impazzata, a_disposizione che sono da trattarsi come espressioni polilessicali sia a livello sintattico che semantico. Vi saranno altri casi, come ad esempio avere un’idea, fare soldi, fare esperienza, avere familiarità che verranno trattati in termini di espressioni polilessicali solo al livello semantico (per maggiori dettagli si rinvia alla sezione 4.3.2.2). D-10 Linea 1.1 - Treebank sintattico-semantica dell'italiano A livello morfo-sintattico saranno trattate come espressioni polilessicali: a) espressioni caratterizzate da invariabilità e fissità della forma come alla_spicciolata, allo_scoperto, all’_impazzata oppure espressioni che mostrano un ristretto e controllato range di variazione come a_disposizione che permette solo l’inserimento di un aggettivo possessivo tra la preposizione e il nome (es. a vostra disposizione); b) espressioni non analizzabili sintatticamente come le frasi libere, ad esempio ad_hoc e al_di_là contenenti termini non italiani (la prima) oppure caratterizzate da sequenze di categorie morfo-sintattiche non previste dalla grammatica italiana (ad esempio prep-prepavverbio nel caso di al_di_là). La definizione dei criteri di identificazione delle espressioni polilessicali del livello morfosintattico sarà condotta nel primo periodo della linea 1.2, prima dell’inizio dell’annotazione vera e propria. 3 Analisi e confronto di modelli di annotazione esistenti: risultati Lo scopo di questa sezione è quello di fornire informazione di background alle specifiche di annotazione che saranno seguite nella costruzione della Treebank di SI-TAL e dettagliate nella sezione 4 di questo Capitolo. La sezione 3.1 riguarda l’annotazione sintattica (a costituenti e funzionale) mentre la sezione 3.2 quella semantico-lessicale. 3.1 Annotazione sintattica 3.1.1 Schemi di annotazione considerati Per quanto riguarda l’annotazione sintattica, l’analisi ed il confronto di modelli di annotazione esistenti hanno riguardato sia quelli effettivamente adottati nella costruzione di Treebanks per diverse lingue, sia le raccomandazioni emerse nell’ambito di iniziative di standardizzazione (in particolare i risultati del gruppo EAGLES sulla Annotazione Sintattica), sia le proposte avanzate nell’ambito di progetti europei quali SPARKLE (LE-2111) per i livelli di annotazione sintattica a costituenti e funzionale, e MATE (Telematics Project LE4–8370) ed ELSE (LE4-8340) solo per il livello funzionale. 3.1.2 Schemi di annotazione: parametri di confronto Le differenze e le comunalità tra i diversi schemi di annotazione sintattica effettivamente adottati per la costruzione di Treebanks sono stati oggetto di diversi studi condotti nell’ambito di progetti europei per la costruzione di corpora e per la definizione di standards. Citiamo qui il lavoro svolto nell’ambito del progetto NERC (Network of European Reference Corpora), i cui risultati per quanto riguarda l’annotazione sintattica sono riportati in Montemagni (1992) e Calzolari et al. 1995, ed i più recenti sforzi di standardizzazione svolti nell’ambito del progetto EAGLES, i cui risultati sono descritti in Leech, Barnett e Kahrel (1996). Mentre per una panoramica delle diverse pratiche di annotazione sintattica si rinvia alla letteratura indicata sopra, forniremo in questa sede parametri di classificazione degli schemi di annotazione sintattica in modo da poter situare la risorsa Treebank di SI-TAL nell’ambito del panorama più generale dei corpora annotati. Quindi, a questo livello il confronto ha riguardato in D-11 Linea 1.1 - Treebank sintattico-semantica dell'italiano modo particolare il tipo di approccio sottostante le varie imprese che ha a sua volta grosse implicazioni per quanto riguarda i possibili usi di cui le risorse sviluppate si rendono suscettibili. Per la classificazione degli schemi di annotazione sintattica sono stati identificati i seguenti parametri, illustrati in dettaglio in Montemagni (1992): • rappresentazione monostratale vs multistratale (mono/multi); • rappresentazione a costituenti vs rappresentazione a dipendenze (cost/dip); • etichettatura categoriale vs funzionale (cat/funz); • rappresentazione dell’ambiguità (+/-amb); • rappresentazioni sottospecificate (+/-sottospec); • rappresentazione minimale (+/-min); • profondità di incassamento nelle rappresentazioni (solo per schemi a costituenza) (+/prof). I corpora annotati presi in considerazione sono stati i seguenti: N° 1 2 3 4 5 6 7 8 9 10 11 12 Corpus annotato Nijmegen Corpus (Nijm) International Corpus of English (ICE) Lancaster-Leeds Treebank (LaLe) LOB Corpus Treebank (LOB) Lancaster/IBM treebank 1987 (La87) Susanne Corpus (Su) Penn Treebank I e II (Penn) Bank of English (Constraint Grammar) (BECG) Spanish Treebank – Universidad Autonoma de Madrid (ST) The Prague dependency Treebank (PDT) German newspaper corpus (NEGRA) HPSG treebank for Polish (POL) D-12 Lingua inglese Riferimenti bibliografici Van Halteren 1997 inglese Greenbaum 1996 inglese Sampson 1987 inglese Leech & Garside 1991 inglese Leech & Garside 1991 inglese Sampson 1995 inglese Marcus et al. 1993, 1994 inglese Karlsson et al. 1995 spagnolo Sandoval et al. 1999 ceco Bémová et al. 1999 tedesco Thorsten et al. 1999 polacco Marciniak et al. 1999 Linea 1.1 - Treebank sintattico-semantica dell'italiano I parametri sopra indicati (righe) sono stati applicati ai corpora selezionati (colonne) ottenendo la classificazione sintetizzata nella tabella che segue: Mono Multi 1 (+) (-) 2 (+) (-) 3 + - 4 + - 5 (+) (-) 6 + 7 + 8 + - 9 + - 10 + 11 + - 12 + - Cost Dip + - + - + - + - + - + - + - + + - + + + + - Cat Funz + + + + + - + - + - + + + - + + + + + + + + +/-Amb + (+) ? ? ? ? + + + ? + ? +/-Sottospec + (+) + ? ? ? + + ? + ? +/-Min - - - - - - + - - - +/-Prof - - - - + - - - - - dove il valore + indica che il tratto considerato è presente nello schema di annotazione considerato, mentre – ne indica l’assenza. Nel caso uno dei due valori sopra sia riportato tra parentesi, ciò indica che l’informazione è stata inferita dall’analisi di campioni di testo annotato. Il punto interrogativo indica che non si è trovata alcuna indicazione in relazione al parametro considerato. Infine, la cella vuota indica che il parametro in considerazione non si applica allo schema di annotazione corrispondente. 3.1.3 La Treebank sintattica di SI-TAL nel panorama dei corpora annotati La Treebank sintattica di SI-TAL si colloca nel panorama dei corpora annotati come segue: • adotta una rappresentazione sintattica di tipo monostratale; • combina, mediante la sua articolazione interna in due livelli di descrizione distinti, una rappresentazione a costituenti con una rappresentazione basata sulle dipendenze; • conseguentemente alla sua articolazione in due livelli, combina un’etichettatura categoriale (nella rappresentazione a costituenti) con una funzionale (nella rappresentazione funzionale); • permette la rappresentazione di ambiguità per entrambi i livelli di rappresentazione; • per quanto riguarda il livello di annotazione funzionale, prevede rappresentazioni sottospecificate; • per quanto riguarda il livello di annotazione a costituenti, sono adottate rappresentazioni piatte. D-13 Linea 1.1 - Treebank sintattico-semantica dell'italiano Nella sezione 4.1 di questo capitolo verranno illustrate in dettaglio le modalità secondo le quali questi parametri si combinano ed interagiscono nell’ambito dello schema di annotazione sintattica della Treebank di SI-TAL. Nel caso dell’annotazione sintattica a costituenti, le specifiche di annotazione elaborate per la Treebank di SI-TAL sono state anche oggetto di un dettagliato confronto con le specifiche relative ad una selezione di Treebanks a costituenti sviluppate per la lingua inglese (il Susanne Corpus (Sampson 1995) e la Penn Treebank (Marcus et al. 1993, 1994)) e per lo spagnolo (la Spanish Treebank sviluppata presso la Universidad Autonoma de Madrid, Sandoval et al. 1999). Il confronto si è incentrato sulla tipologia di costituenti sintattici e sul trattamento di particolari costruzioni sintattiche; i risultati di questo studio sono riportati in appendice a questo capitolo (Appendice 2) in quanto presuppongono già una conoscenza dettagliata dello schema di annotazione proposto per SITAL. 3.2 Annotazione semantico-lessicale Nell’approccio messo a punto per l’annotazione a livello semantico-lessicale, sono confluite varie esperienze maturate in progetti a carattere sperimentale quali ROMANSEVAL/SENSEVAL e ELSNET, e l’esperienza dell’Università di Princeton per la creazione di un corpus annotato della lingua inglese SEMCOR (Semantic concordances, Landes et al. 1998). ROMANSEVAL/SENSEVAL (1998-99) è un progetto internazionale di annotazione semanticolessicale sia in forma manuale che automatica di un insieme predefinito di nomi, verbi e aggettivi (Calzolari e Corazzari, in corso di pubblicazione). L’aspetto innovativo di questa iniziativa è il carattere multilingue e, pertanto, la scelta di un corpus e di un insieme di lemmi che consentisse il confronto dei risultati dell’annotazione effettuata in siti diversi e su lingue diverse. Il progetto aveva lo scopo di valutare i risultati dell’annotazione in termini di convergenza vs. divergenza tra: - annotazione di categorie sintattiche diverse; - annotatori umani diversi; - sistemi automatici di annotazione diversi; - annotatori umani e sistemi automatici; - annotazione di gruppi nazionali diversi. Il progetto di annotazione semantico-lessicale condotto nell’ambito di ELSNET (1998-99) è consistito nell’annotazione parziale di un testo ristretta a un set predefinito di verbi che sono stati annotati insieme alle teste dei loro argomenti (Corazzari et al. 1999). Esso prevedeva sia la disambiguazione del senso, cioè l’assegnazione di un numero di senso derivato da una risorsa lessicale di riferimento, che la disambiguazione semantica in senso stretto, cioè l’assegnazione di un tipo/concetto semantico alle parole da annotare. Tra gli scopi di ELSNET c’era lo studio della sottocategorizzazione dei verbi in termini semantici , dell’influenza del senso del verbo su quello dei suoi argomenti e viceversa e la valutazione del livello di copertura dei tipi semantici utilizzati e del lessico computazionale. Oltre a queste esperienze di carattere sperimentale nelle quali l’Istituto di Linguistica Computazionale ha preso direttamente parte, nel corso della definizione delle specifiche relative al livello semantico-lessicale si è fatto spesso riferimento ai materiali e alla documentazione D-14 Linea 1.1 - Treebank sintattico-semantica dell'italiano disponibile su internet (http://www.cogsci.princeton.edu/ ∼wn/doc/man/semcor.htm) relativa all’esperienza di annotazione semantico-lessicale dell’Università di Princeton di un frammento del Brown Corpus e del testo letterario ‘The Red Badge of Courage’ di S. Crane (il cosiddetto SEMCOR da ‘semantic concordances’ illustrato in Landes et al., 1998). Tale progetto appare il più vicino al nostro sia per le dimensioni del corpus annotato che per il metodo e le risorse lessicali utilizzate. SEMCOR è un corpus e un lessico computazionale perfettamente integrati in modo tale che ogni parola piena del corpus è collegata al suo senso appropriato nel lessico. Nello schema che segue si riassumono gli elementi di contatto e le differenze maggiori tra questi progetti di annotazione semantico-lessicale: Progetto Corpus annotato Romanseval/ all’interno di un corpus di frasi sono state annotate le Senseval parole (nomi, verbi e aggettivi) selezionate per la campagna di valutazione Elsnet all’interno di un corpus di frasi sono stati annotati nuclei predicato-argomenti (l’annotazione ha riguardato i predicati e le teste dei loro argomenti) SEMCOR testo continuo Risorsa lessicale dizionario cartaceo Tratti numero di senso Metodo Manuale senso derivato dal lessico computazionali di EuroWordNet (EWN) per l’italiano (Alonge et al. 1999); tipo semantico derivato dal lessico computazionale di SIMPLE (Lenci et al. 1998) lessico computazionali di WordNet per l’inglese numero di senso e tratti di tipo semantico Manuale numero di senso Manuale e tratti di tipo assistito semantico (per la segnalazione di usi figurati) e relativi all’annotazione Un’altra esperienza di lavoro che ha guidato la definizione delle specifiche, anche se in modo parziale, è costituita dal progetto europeo DELIS (Monachini et al. 1994). Tale progetto era focalizzato sullo studio, a partire dal corpus, dell’interazione delle caratteristiche sintattiche e semantiche (patterns sintattici e sensi) di alcune classi semantiche di verbi e nomi derivati (es. verbi di percezione, di movimento ecc.). DELIS, attraverso lo studio degli aspetti formali, sintattici che caratterizzano i sensi, ha fornito una batteria di criteri per l’identificazione di sensi diversi (vedi sezione 5.2 di questo Capitolo sulla metodologia di annotazione). 4 Schema di annotazione 4.1 Specifiche di annotazione per il livello sintattico Nell’ambito del progetto TAL, la Treebank sintattico-semantica della lingua italiana prevede due livelli di annotazione sintattica: D-15 Linea 1.1 - Treebank sintattico-semantica dell'italiano • annotazione a livello di struttura a costituenti (basata sull’identificazione di elementi quali ‘sintagmi nominali’, ‘sintagmi verbali’, ‘sintagmi preposizionali’ e relative relazioni sintagmatiche); • annotazione a livello funzionale (basata sulla definizione di relazioni grammaticali quali ‘soggetto’, ‘oggetto’, ecc.). In questa sezione verranno fornite le specifiche relative a questi due livelli di annotazione sintattica. Si partirà da una illustrazione dell’articolazione interna dello schema di annotazione sintattica (sezione 4.1.1) e delle linee guida che ne hanno guidato la definizione (sezione 4.1.2), per poi procedere alla definizione delle specifiche di annotazione per il livello a costituenti (sezione 4.1.3) e per il livello funzionale (sezione 4.1.4). 4.1.1 Articolazione interna dello schema di annotazione sintattica La scelta di un’annotazione sintattica distribuita su due livelli distinti, a costituenti e funzionale, rappresenta un elemento di novità rispetto ad altre “treebank” costruite o in corso di costruzione per lingue diverse (che vanno, per menzionarne alcune, dall’inglese al cinese, francese, tedesco, polacco, portoghese e spagnolo). Queste risorse generalmente prevedono un livello unico per l’annotazione sintattica, sia esso basato su una rappresentazione a costituenti oppure a dipendenze o su una combinazione dei due (come nel caso di schemi di annotazione a costituenti in uso presso la Penn Treebank, International Corpus of English, Nijmegen Corpus che includono anche categorie di tipo funzionale, si veda la sezione 3.1.2 di questo Capitolo). L’unica treebank articolata su più livelli per quanto riguarda la sintassi è quella in corso di costruzione per il Ceco (Bémová et al. 1999) che prevede a) un livello di rappresentazione “analitica” che annota relazioni di dipendenza di superficie, e b) un livello di rappresentazione “tectogrammaticale” corrispondente alla struttura profonda della frase (basata su relazioni di tipo semantico, come Attore, Paziente, Origine, Effetto). Ma mentre il modello sottostante lo schema di annotazione della Treebank del Ceco è di tipo multistratale, il rapporto tra i due livelli di annotazione sintattica nella Treebank di SI-TAL si configura diversamente: entrambi si riferiscono allo stesso livello di rappresentazione, aderendo dunque ad un modello sintattico di tipo monostratale. I due livelli di annotazione sintattica della Treebank di SI-TAL possono infatti in qualche modo essere assimilati ai due livelli di descrizione adottati nell’ambito della Lexical Functional Grammar (LFG, Bresnan 1982), cioè struttura a costituenti e struttura funzionale, che codificano diversi tipi di informazione ma relativamente allo stesso livello di rappresentazione (della sintassi di superficie). I vantaggi di uno schema di annotazione che separa la struttura a costituenti dalla struttura funzionale sono molti, di ordine teorico e pratico. Innanzitutto, questo schema risulta particolarmente adeguato in rapporto a lingue come l’italiano che presentano una certa variabilità nell’ordine dei costituenti frasali. In questo modo la rappresentazione delle funzioni grammaticali, che vengono così assunte come nozioni primitive, è di esclusiva pertinenza del livello di annotazione funzionale, mentre la rappresentazione a costituenti descrive la frase nei termini della sua struttura sintagmatica (definita dai costituenti sintattici e dalle loro relazioni di dominanza e di precedenza). Questo ha come conseguenza non indifferente che il livello di annotazione a costituenti può essere liberato dalla necessità di usare tracce e indici per la rappresentazione di “movimenti” di vario tipo (per il trattamento del passivo, delle dislocazioni, di soggetti postverbali così come di costruzioni interrogative e relative) e costituenti vuoti per soggetti impliciti (in costruzioni a controllo e a sollevamento) ed ellittici. Costruzioni tipicamente trattate in uno schema D-16 Linea 1.1 - Treebank sintattico-semantica dell'italiano a costituenti mediante tracce e costituenti vuoti possono essere qui più efficacemente rappresentate a livello funzionale, in termini di relazioni di dipendenza. Ma l’adeguatezza rispetto alle peculiarità linguistiche dell’italiano non costituisce l’unico vantaggio di una annotazione distribuita su più livelli. Infatti uno schema di annotazione di questo tipo risulta vantaggioso anche per altri motivi: • è compatibile con diversi quadri teorici: le annotazioni proposte per i due livelli di annotazione sono comparabili con un ampio spettro di schemi di annotazione sintattica, basati su un’analisi a costituenti oppure su un’analisi funzionale, sia adottati nell’ambito di teorie grammaticali sia in uso nell’ambito di sistemi applicativi di elaborazione del linguaggio naturale; • si presta ad essere applicabile, anche se con modalità diverse, sia alla lingua scritta sia a quella parlata. Progetti sull’annotazione del parlato, come ad esempio MATE (1998), hanno messo in evidenza che una rappresentazione a costituenti risulta difficoltosa nel caso del parlato, caratterizzato dalla presenza massiccia di ellissi, anacoluti, e fenomeni di disfluenza di vario tipo. Questa difficoltà di applicazione non si ripropone a livello di annotazione funzionale, che astrae maggiormente dalla realizzazione superficiale della frase. Ne consegue che il livello di annotazione funzionale, quando dissociato da una rappresentazione a costituenti, costituisce un potenziale terreno di incontro e confronto tra testi annotati di lingua scritta e parlata. La Treebank di SI-TAL, come concepita ad oggi, è circoscritta a testi di lingua scritta: è comunque importante che nella fase delle specifiche dello schema di annotazione se ne preveda l’applicazione anche a trascrizioni di parlato (ciò potrà certamente richiedere revisioni ed integrazioni dello schema per il trattamento di fenomeni tipici del parlato). Questo crea anche i presupposti per possibili sinergie con il tema “Dialoghi annotati per applicazioni di interfacce vocali avanzate”. 4.1.2 Strategie di base per l’annotazione Perché un’annotazione distribuita del tipo descritto sopra sia veramente utile ed efficace per quanto riguarda l’uso della risorsa finale, va garantita una coerenza nell’annotazione sia tra diversi livelli sia all’interno dello stesso livello. La coerenza e la convergenza dell’annotazione tra i due livelli può essere innanzitutto garantita riducendo al massimo possibili ridondanze nello schema di annotazione proposto: un dato tipo di informazione sintattica deve essere specificato solo una volta, al livello di annotazione definito come appropriato. Ad esempio, le relazioni funzionali sono definite solo al livello funzionale; da ciò consegue che ogni dispositivo formale, come ad esempio le tracce, usato in una rappresentazione a costituenti per codificare informazione funzionale è escluso dallo schema di annotazione a costituenti usato nell’ambito di SI-TAL. In quest’ottica, i due livelli di rappresentazione, a costituenti e funzionale, ricevono definizioni indipendenti l’uno dall’altro, nel senso che non devono semplicemente riproporre gli stessi elementi di informazione, seppur in termini diversi. Nel caso specifico, la rappresentazione funzionale dovrebbe avere una sua caratterizzazione specifica, per poter essere utilizzata, ad esempio, anche per una trasduzione semantica, cosa che non è sempre possibile a partire da una rappresentazione a costituenti. In ogni caso, i due livelli di rappresentazione sintattica, anche se definiti in modo indipendente l’uno dall’altro, dovranno essere allineati mediante sistematiche relazioni di corrispondenza, per garantire la convergenza delle analisi ai due livelli e renderne anche possibile l’integrazione. D-17 Linea 1.1 - Treebank sintattico-semantica dell'italiano Per quanto riguarda la coerenza interna del singolo livello di annotazione, è raccomandabile ridurre al massimo decisioni arbitrarie nella selezione dell’annotazione: quando vi sia incertezza nell’assegnazione di una data categoria, tratto o relazione di dipendenza, dovrebbe essere possibile ricorrere ad analisi sottospecificate. Ciò richiede che gli schemi di annotazione proposti includano, ove opportuno e possibile, categorie sottospecificate. Il ricorso ad analisi sottospecificate sarà comunque da attuarsi solo nei casi strettamente necessari, ovvero quando una analisi più dettagliata comporti una decisione arbitraria. La sottospecificazione non è da considerarsi una strategia generale di annotazione: in questo modo la Treebank verrebbe a perdere la sua funzione primaria, quella di fornire informazioni utili per l’analisi sintattica del corpus annotato. Un altro aspetto da tenere presente nella definizione dell’annotazione da associare alle varie costruzioni sintattiche ai singoli livelli riguarda la compatibilità con un ampio spettro di analisi adottate in ambito sia teorico sia di sistemi di trattamento automatico del linguaggio. In particolare, per le costruzioni che nella letteratura ricevono trattamenti differenziati si è preferito fornire rappresentazioni meno impegnative da un punto di vista teorico ma proiettabili sul maggior numero possibile di analisi. I criteri brevemente enunciati sopra hanno guidato la definizione degli schemi di annotazione per i due livelli e le loro relazioni: • l’informazione da codificare è stata distribuita tra i due livelli evitando, per quanto possibile, ridondanze nell’annotazione; • i due livelli di rappresentazione sintattica, a costituenti e funzionale, sono stati definiti indipendentemente l’uno dall’altro, ma le relazioni di corrispondenza tra i due sono state accuratamente definite; • ove opportuno e possibile, sono state previste strategie di sottospecificazione per ridurre potenziali incoerenze derivanti da annotazioni basate su scelte arbitrarie; • per costruzioni oggetto di controversia nella letteratura si è cercato, per quanto possibile, di proporre un’analisi che costituisse il punto di convergenza tra diverse interpretazioni. 4.1.3 Specifiche di annotazione per il livello sintattico a costituenti In questa sezione forniremo le specifiche di annotazione per il livello sintattico a costituenti. In particolare, si partirà dai fondamenti teorici che hanno ispirato la definizione dello schema (sezione 4.1.3.1) per giungere ad una dettagliata descrizione e classificazione dei costituenti sintattici (sezioni 4.1.3.2 e 4.1.3.3) ed i relativi criteri di annotazione (sezione 4.1.3.4). 4.1.3.1 Teoria X-barra e costituenza sintattica Schematicamente, la teoria X-barra (Chomsky 1986) prevede una organizzazione a teste e proiezioni di teste ognuna delle quali dotata di una barra, in ordine gerarchico: per cui, il nodo da cui pende la testa è denotato da 0 e i successivi nodi dominanti hanno una barra, due barre e eventuali ulteriori barre - anche se due barre sono di solito il massimo livello di proiezione. L’organizzione gerarchica della teoria prevede le seguenti regole astratte di riscrittura: Schema teorico regole X-barra D-18 Linea 1.1 - Treebank sintattico-semantica dell'italiano CP --> Spec(Costituenti Dislocati), Cbarra Cbarra --> C0, IP IP --> Spec (SN<SOGGetto>), Ibarra Ibarra --> I0, Complementi C0 --> Complementatore I0 --> Verbo flesso a tempo finito 4.1.3.2 Costituenti sintattici nello schema di annotazione di SI-TAL Nella definizione dello schema di annotazione della Treebank di SI-TAL non adotteremo integralmente la teoria X-barra e i nomi che da essa derivano: nel dettaglio, utilizzeremo lo schema generale e le etichette IBAR e CP. Per il resto utilizzeremo sempre etichette di costituenti sintattici all’italiana: S(intagma) e non P(hrase) per non provocare confusione, ad esclusione di CP che manterremo nella forma originale all’inglese. Le etichette adottate sono commentate nel dettaglio in quanto segue. Presentiamo qui in basso l’organizzazione astratta della nostra rappresentazione sintattica per il livello di frase, con le modifiche che introdurremo per la Treebank dell’italiano. E’ importante ricordare che la stessa organizzazione si potrebbe applicare anche agli altri costituenti maggiori con teste semantiche – sintagma aggettivale (SA), sintagma nominale (SN), sintagma preposizionale (SP) ecc. -, ma poiché questi non posseggono argomenti obbligatori, questi verranno posti sullo stesso livello degli aggiunti e seguiranno quindi tutti la testa nell’ordine lineare in cui verranno analizzati in superficie. Come detto più sopra, per il livello di frase utilizzeremo CP, per contenere i costituenti Dislocati o semplicemente Anteposti e eventuali Aggiunti, frasali e non. Per il resto utilizzeremo Ibarra come previsto nella teoria - che chiameremo IBAR, per riscrivere il verbo flesso; e il costituente Complementi che contiene i complementi, che chiameremo COMP seguito da T/C/IN per indicare la specializzazione per un tipo di sottocategorizzazione, dove T sta per transitivo, C per copulativo e IN per intransitivo. Invece di IP utilizzeremo F, e questo nodo verrà dominato da nodi di F specializzati. Lo schema adottato nella Treebank di SI-TAL risulta essere dunque come segue: CP --> (Aggiunti), Spec(Costituenti Dislocati), Cbarra Cbarra --> FC/FS/FInt, F F --> Spec (SN<SOGGetto>), IBAR, Complementi, (Aggiunti) IBAR --> (Neg, Clitici),VerboFlesso (semplice o complesso) con Avverbiali eventuali Complementi --> COMPT/ COMPC/COMPIN Per quanto riguarda poi la questione dei tratti di accordo, ci baseremo su suggerimenti della LFG che prevedono nessun accordo verbale nella rappresentazione, ma tutti i tratti nei SN, che nel nostro caso sono quelli del livello morfo-sintattico. Riportiamo qui in basso esempi di strutture per i vari costituenti maggiori allo scopo di mostrare l’organizzazione dei componenti sulla base dello schema X-barra. Come si potrà notare, la testa è sempre l’ultimo elemento che precede i complementi e/o gli aggiunti, ed è a sua volta preceduta da eventuali costituenti minori che costituiscono il contenuto di SPECificatore, nodo che non riportiamo per non appesantire la rappresentazione stessa. Ogni paragrafo che segue tratterà ciascun costituente sintattico separatamente mettendo in grassetto l’elemento testa di ciascun costituente preso in considerazione. Si noti che l’indicazione della testa non è parte integrante dello schema di annotazione proposto ma viene inclusa negli esempi di annotazione che seguono per facilitarne la lettura e l’interpretazione. Va inoltre fatto presente che le etichette morfo-sintattiche riportate negli esempi che seguono non sono quelle dell’annotazione morfo-sintattica illustrata nella sezione 2.2 e nell’Appendice 1; di nuovo, abbiamo D-19 Linea 1.1 - Treebank sintattico-semantica dell'italiano voluto facilitare la comprensione delle annotazioni ricorrendo ad etichette che contengono un maggiore dettaglio di informazione, ad esempio la sottocategorizzazione del verbo, e rendono dunque conto della selezione di alcune delle categorie sintattiche selezionate. All’inizio della linea 1.2 si valuterà se combinarle nell’input su cui l’annotatore andrà ad operare. Vale la pena notare che non abbiamo una strategia specifica per la codifica dell’ambiguità intrinseca che in alcuni esempi potrebbe esistere. Poiché stiamo utilizzando frasi decontestualizzate, segnamo provvisoriamente tale eventualità con i segni “ \\”. Se nei testi reali troveremo situazioni di questo genere decideremo successivamente come intervenire. Un esempio di ambiguità è il seguente: Io non mangio panini con la mortadella. f-[sn-[pron-io], ibar-[neg-non, vt-mangio], compt-[ sn-[n-panini], sp-[p-con, sn-[art-la, n-mortadella]]]] \\ sn-[n-panini, sp-[p-con, sn-[art-la, n-mortadella]]]]] 4.1.3.2.1 F Con questo simbolo si intende una frase semplice con un predicato principale e complementi che possono anche includere altre frasi. Sono anche considerate frasi semplici le frasi ellittiche. f-[sn-[npro-Gullit], ibar-[ausa-ha, vppt-dichiarato], compt-[sn-[n-guerra], sp-[part-alla, sn-[n-stampa], sa-[ag-sportiva]]]] f-[sv2-[vit-vincere, compt-[sn-[art-l, npro-America-s__Cup]]], ibar-[vt-richiede], compt-[sn-[n-montagne, spd-[pd-di, sn-[n-soldi]]]]] f-[sn-[dim-questa, n-casa], ibar-[clit-si, vt-vende], compt-[savv-[avv-bene]]] f-[ibar-[vsup-dobbiamo, viin-vincere], sn-[nt-domenica], sp-[p-per, sv2-[vit-interrompere, compt-[sn-[dim-questo, ag-brutto, nt-momento]]]]] 4.1.3.2.2 IBAR Con questo simbolo viene riscritto il gruppo verbale che può includere al proprio interno gli ausiliari essere o avere, la negazione, eventuali clitici e avverbi che si possono interporre tra l’ausiliare e il verbo lessicale. Oltre agli ausiliari fanno parte di questo costituente i modali e i verbi aspettuali, e anche la forma perifrastica stare per. Analogamente alla Treebank in corso di costruzione per lo spagnolo (Sandoval et al. 1999), il problema dei verbi cliticizzati con enclitica è stato risolto utilizzando la forma di parola con l’enclitico e ripetendo successivamente il clitico come parola separata. In questo caso, quindi, il clitico si troverebbe sia all’interno di IBAR che nel complemento (COMPT/IN/C) dove riceverebbe una interpretazione. Segue una tipologia di costituenti IBAR: ibar-[neg-non, vc-ha] ibar-[ause-è, vc-diventata] ibar-[ausa-ha, vppt-dichiarato] D-20 Linea 1.1 - Treebank sintattico-semantica dell'italiano ibar-[vt-richiede] ibar-[clit-si, vt-vende] ibar-[clitdat-le, ausa-ha, vppt-dato] ibar-[vin-arrivò] ibar-[ause-è, vppin-arrivata] ibar-[neg-non, vsup-devono, viin-guardare] ibar-[ause-è, ausep-stato, vppt-assunto] ibar-[ause-sono, ausep-stati, avv-spesso, vppt-segnalati] ibar-[vsupir-debbano, avv-silenziosamente, vcl-ingoiarle] 4.1.3.2.3 SN Il Sintagma Nominale si sviluppa con una serie di specificatori, una testa ed eventuali complementi o aggiunti. Tra i costituenti specificatori ci sono gli articoli, i quantificatori, i numerali; sempre prima del nome si trovano gli aggettivi e i possessivi che non ricevono una propria struttura di costituenza ma vengono semplicemente elencati prima della testa. Gli aggettivi che seguono la testa del SN sono invece rappresentati nel proprio costituente perché possono avere a loro volta una struttura interna con complementi ed aggiunti. Sempre all’interno del SN ci sono i costituenti SPD e gli eventuali complementi frasali nel caso si tratti di un nome fattivo o una forma polilessicale. Le frasi relative sono tutte incluse nel SN. Un commento a parte va fatto per i nominali che fungono da modificatori di altri nominali. Alcuni di questi sono nomi propri i fratelli Karamazov, la commissione Sangalli; altri sono semplici nomi comuni che hanno una funzione di specificazione, il settore cucine, la politica suicida ecc. In tutti questi casi non si individua esplicitamente la testa a livello di costituenza, in quanto i due o più nominali si troverebbero allo stesso livello. Il livello dell’annotazione funzionale fornirà invece l’indicazione esplicita di quale dei due o più nominali funga da testa del SN, sulla base delle relazioni grammaticali che il SN intrattiene con il resto della frase. Se ad esempio è un soggetto, l’accordo verbale servirà ad individuare la testa, ecc. Vi sono poi casi in cui la testa è una espressione polilessicale o “Multiword”. Segue una tipologia di costituenti di tipo SN: sn-[art-La, npro-Bimex] sn-[art-una, ag-bella, n-ragazza] sn-[ind-molti, n-libri] sn-[num-dieci, n-programmatori] sn-[ag-infondate, n-speculazioni] sn-[art-il, poss-loro, n-strumento, spd-[pd-di, sn-[n-ricerca]] sn-[art-un, n-modo, sv2-[pt-di, viin-fare, compt-[sn-[n-soldi], savv-[avvrapidamente]]]] sn-[art-Il, n-fatturato, sa-[ag-complessivo], spd-[partd-delle, sn-[n-società], coord-[sv3-[vppt-controllate], coord-[cong-e], sv3-[vppt-collegate]]] sn-[art-’La’, n-credenza, fac-[pk-che, f-[sn-[art-la, n-terra], ibar-[vcir-sia], compc-[sa-[ag-rotonda]]]] sn-[art-il, n-ragazzo, f2-[rel-che, f-[sn-[nh-Maria], D-21 Linea 1.1 - Treebank sintattico-semantica dell'italiano ibar-[ausa-ha, vppt-incontrato], savv-[avv-ieri]]]]] sn-[art-la, ag-cosiddetta, n-commissione, nh-sangalli] sn-[art-il, n-settore, n-cucine] sn-[nt-domenica, nt-sera] 4.1.3.2.4 SP I costituenti SP sono normalmente composti obbligatoriamente da una testa di tipo P (preposizione) o PART (ovvero preposizione articolata) e da un costituente SN che ne costituisce un elemento essenziale. Sono trattati come SP anche gli aggiunti infinitivali che quindi dopo la testa hanno un costituente SV2. Va ricordato che si escludono da questo caso i sintagmi preposizionali introdotti da di e da, che hanno una marca sintattica specializzata, come chiarito nelle sezioni 4.1.3.2.5 e 4.1.3.2.6. sp-[part-alla, sn-[n-stampa, sa-[ag-sportiva]]] sp-[p-senza, sv2-[viin-chiedere]] sp-[p-dopo, sv2-[vcl-averlo, clitac-lo, vppin-chiesto]] 4.1.3.2.5 SPDA Il costituente SPDA è costituito da una testa preposizionali di tipo specializzato, il da o le preposizioni articolate di da, e un SN. Questo costituente può servire da Agente Obliquo nelle frasi passive, oppure può individuare complementi o circostanziali di vario tipo, tra cui un locativo con l’indicazione di Origine o Provenienza. spda-[partda-dalla, sn-[npro-Union_Carbide]] spda-[partda-dal, sn-[n-casolare]]]] coord-[spda-[pda-da, sn-[npro-Sting]], punt-, sn-[npro-Jenny, spd-[partd-dei, sn-[n-pirati]]], cong-e, spda-[partda-dalla, sn-[npro-Nannini]]]]] 4.1.3.2.6 SPD Il costituente SPD è costituito da una testa preposizionali di tipo specializzato, il di o le preposizioni articolate di di, e un SN. Questo costituente può servire da complemento verbale, da aggiunto o complemento nominale e da secondo termine di paragone in una struttura comparativa. spd-[partd-delle, sn-[n-società]] spd-[pd-di, sn-[n-ricerca]] sa-[in-più, ag-intelligente, spd-[pd-di, sn-[np-Europa]]]]]] 4.1.3.2.7 SA Questo costituente viene creato solo per la posizione predicativa degli aggettivi e può avere una struttura interna. sa-[ag-infelice] sa-[in-più, ag-intelligente, spd-[pd-di, sn-[np-Europa]]] sa-[agn-inferta, sp-[part-alla, sn-[poss-nostra, n-penisola]]]] D-22 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4.1.3.2.8 SAVV Questo costituente ha come testa un avverbiale anche in forma locutiva e può avere una struttura interna. savv-[avv-bene] savv-[avvl-alla_spicciolata] 4.1.3.2.9 SV2 Questo costituente ha come testa un verbo all’infinito, che può essere preceduto oppure no da una particella verbale, limitatamente alle seguenti preposizioni a, di, da. Tutte le altre preposizioni introducono un SP e contribuiscono all’interpretazione semantica della frase infinitiva che assume quindi valore di aggiunto. Nel caso invece rappresentato dalle particelle verbali, queste ultime vengono semplicemente assorbire dalla struttura infinitiva e non contribuiscono all’interpretazione semantica. In genere, la presenza della particella indica la funzione di complemento dell’infinitiva. Il costituente SV2 viene anche utilizzato per l’infinito passato che ha quindi un ausiliare seguito dal verbo lessicale al participio passato. Inoltre, si costruisce come SV2 anche l’infinito cliticizzato. Il costituente SV2 contiene i propri complementi e aggiunti, intendendo con aggiunti quelli che modificano il significato del verbo che costituisce la testa lessicale del SV2. sv2-[pt-di, vt-fare, compt-[sn-[n-soldi], savv-[avv-rapidamente]]] sv2-[vcl-averlo, clitac-lo, vppin-chiesto] sv2-[pt-di, vit-spiegare, fac-[pk-che, f-[sn-[ag-simili, n-azioni], ibar-[neg-non, vin-giovano]]]] sv2-[viin-uscire, compin-[spda-[partda-dal, sn-[n-casolare]]]]] sv2-[vit-vincere, compt-[sn-[art-l, npro-America-s__Cup]]] 4.1.3.2.10 SV3 Questo costituente ha come testa il participio passato in funzione di aggiunto modificatore nominale o frasale. Al suo interno ci sono i complementi e gli aggiunti della testa lessicale. Non vengono inclusi eventuali avverbiali modificatori del participio passato che possono precederlo e la testa risulta quindi essere sempre il primo elemento del costituente - vedi quasi fatto = [savv-[inquasi], sv3-[vppt-fatto]] sv3-[vppt-controllate] sv3-[vppt-rivolte, sp-[part-all, sn-[n-Italia]], spda-[partda-dalla, sn-[n-commissione, sa-[ag-europea]]]] coord-[sv3-[vppt-controllate], cong-e, sv3-[vppt-collegate]] 4.1.3.2.11 SV5 D-23 Linea 1.1 - Treebank sintattico-semantica dell'italiano Questo costituente ha come testa il gerundio in funzione di aggiunto modificatore frasale. Al suo interno ci sono i complementi e gli aggiunti della testa lessicale. Non vengono inclusi eventuali avverbiali modificatori del gerundio che possono precederlo e la testa risulta quindi essere sempre il primo elemento del costituente. Il costituente SV5 viene anche utilizzato per il gerundio passato che ha quindi un ausiliare seguito dal verbo lessicale al participio passato. Inoltre, si costruisce come SV5 anche il gerundio cliticizzato. sv5-[vgin-parlando] sv5-[vgin-sparando, savv-[avvl-all_impazzata]] sv5-[aueg-essendo, vppin-arrivato, savv-[avv-presto]] 4.1.3.2.12 F2 Questo costituente ha la stessa funzione di CP, serve cioè a contenere costituenti che sono anteposti e che hanno una relazione semantica con qualche elemento nella frase sottostante. Possono contenere un SN che come testa abbia un elemento funzionale, il complementatore che, oppure un pronome relativo preceduto oppure no da un articolo – vedi esempi riportati in basso. Potrà contenere anche un SP per i pronomi relativi obliqui, preceduto da una preposizione semplice o articolata, oppure individuati da cui. Il costituente F2 domina sempre invariabilmente un nodo F. sn-[art-il, n-ragazzo, f2-[sp-[part-al, rel-quale], f-[sn-[npro-Gullit], ibar-[ausa-ha, vppin-parlato]]]] sn-[art-le, n-imprese, sa-[ag-italiane], f2-[sn-[rel-che], f-[ coord-[ ibar-[vt-producono], cong-e, ibar-[vt-importano]], compt-[sn-[n-energia]]]]]] 4.1.3.2.13 FINT Questo costituente ha la stessa funzione di CP, serve cioè a contenere costituenti che sono anteposti e che hanno una relazione semantica con qualche elemento nella frase sottostante. In particolare, come nel caso di F2 contiene un SN o un SP che hanno come testa un pronome interrogativo, preceduto o no da una preposizione. fint-[sn-[int-chi], f-[ ibar-[auair-abbia, vppt-incontrato], compt-[sn-[nh-Maria]]]] 4.1.3.2.14 FAC Questo costituente ha la stessa funzione di CP, serve però a contenere soltanto la testa di CP, C°, cioè il complementatore che, che in certi contesti può anche essere vuoto. In questi casi però il nodo FAC verrà eliminato. Il nodo FAC può apparire nel contesto di un complemento verbale come COMPT oppure in posizione estraposta, all’inizio frase, sotto CP: compt-[fac-[pk-che, f-[ ibar-[clit-c, vc-era], D-24 Linea 1.1 - Treebank sintattico-semantica dell'italiano compc-[sn-[nh-Maria], sp-[p-con, sn-[npro-Luigi]]]]]] cp-[fac-[pk-che, f-[sn-[nh-Maria], ibar-[aueir-sia, vppin-partita]]], ibar-[vt-significa], compt-[fac-[pk-che, f-[ibar-[clit-si, ause-è, vppt-arresa]]]]] 4.1.3.2.15 COMPT Questo costituente ha la funzione di individuare tutti i complementi di verbi transitivi. Contiene tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre ai complementi obbligatori, quindi conterrà i complementi opzionali. Questo costituente contiene inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad individuare delle modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei complementi. Questo costituente conterrà anche il SN soggetto posposto di frasi passive o invertite per motivi di carattere informazionale, pragmatico o semantico. ibar-[auair-abbia, vppt-incontrato], compt-[sn-[nh-Maria]] ibar- [vt-promise], compt-[sp-[p-a, sn-[nh-Maria]], sv2-[pt-di, viin-partire]] ibar-[ausa-ha, vppt-promesso], compt-[sv2-[pt-di, vit-accettare, sn-[art-il, n-lavoro]]] ibar-[vt-informò], compt-[sn-[nh-Maria], spd-[partd-del, sn-[poss-suo, n-arrivo]]] ibar-[vt-importa], compt-[spda-[partda-dalla, sn-[npro-Union_Carbide]]] ibar-[vt-decise], compt-[sv2-[pt-di, viin-partire]] ibar-[ausa-ha, vppt-visto], compt-[sn-[n-Paolo], sv2-[viin-uscire], spda-[partda-dal, sn-[n-casolare]]] \\ compt-[sn-[n-Paolo], sv2-[viin-uscire, spda-[partda-dal, sn-[n-casolare]]]] ibar-[vt-considerava], compt-[sn-[art-i, n-siciliani], sn-[art-il, n-popolo, sa-[in-più, ag-intelligente, spd-[pd-di, sn-[np-Europa]]]]] ibar-[ausa-ha, vppt-detto], compt-[fac-[pk-che, f-[ibar-[ausa-avrebbe, vppt-accettato], compt-[sn-[art-il, n-lavoro]]]]]] 4.1.3.2.16 COMPIN Questo costituente ha la funzione di individuare tutti i complementi di verbi intransitivi. Con verbi intransitivi si intendono perlomeno i seguenti tipi sintattici: verbi inaccusativi, verbi inergativi, verbi atmosferici, verbi impersonali. Contiene tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre ai complementi obbligatori, quindi conterrà i complementi opzionali. Questo costituente contiene inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad individuare delle D-25 Linea 1.1 - Treebank sintattico-semantica dell'italiano modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei complementi. Questo costituente conterrà anche il SN soggetto posposto di frasi invertite per motivi di carattere informazionale, pragmatico o semantico. Casi particolari sono costituiti da frasi ergative, frasi con il si impersonale, frasi con verbi riflessivi inerenti. ibar-[vin-esce], compin-[sp-[part-allo, sn-[n-scoperto]]] ibar-[vin-arrivai], compin-[sp-[p-in, sn-[n-ritardo]]] 4.1.3.2.17 COMPC Questo costituente ha la funzione di individuare il complemento di verbi copulativi. Contiene tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre ai complementi obbligatori, quindi conterrà i complementi opzionali. Questo costituente contiene inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad individuare delle modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei complementi, come ad esempio nel caso di una predicazione di Locativi ripresi oppure no dal ci. ibar-[clit-c, vc-era], compc-[sn-[nh-Maria], sp-[p-con, sn-[npro-Luigi]]] ibar-[clit-’C’, vc-è], compc-[sn-[art-una, n-vespa], sp-[part-nella, sn-[poss-mia, n-camera]]] 4.1.3.2.18 COORD COORD/Nome di costituente serve per coordinare costituenti tra di loro e nel caso di SN ad assegnare numero plurale all’insieme creato dai due o più SN coordinati. Questo costituente comprende due tipi di teste: la congiunzione coordinate individuata da “cong-e” oppure un segno di punteggiatura, “punt-,”. Le strutture coordinate possono contenere liste e frasi ellittiche che nel Penn Treebank vengono indicate da costituenti appositi LST e FRAG. Abbiamo scelto di non introdurre marche specializzate per questo tipo di strutture in quanto la nostra rappresentazione non include le categorie vuote. Abbiamo invece trattato a parte le frasi coordinate, che potrebbero oppure no prevedere strutture ellittiche, con un costituente separato FC (vedi sotto). coord-[sn-[art-I, n-superstiti], cong-e, sn-[art-i, n-parenti, spd-[partd-delle, sn-[n-vittime]]]] coord-[sv3-[vppt-controllate], cong-e, sv3-[vppt-collegate]] coord-[ ibar-[vt-producono], cong-e, ibar-[vt-importano]], compt-[sn-[n-energia]]] compin-[coord-[ sp-[part-all, sn-[n-aumento, spd-[pd-di, sn-[n-capitale]]]], punt-, sp-[part-all, n-utile, spd-[pd-di, sn-[n-esercizio]]], D-26 Linea 1.1 - Treebank sintattico-semantica dell'italiano cong-ed, sp-[part-ai, sn-[n-contributi, sp-[p-per, sn-[art-l, n-editoria]]]]] coord-[sp-[part-sui, sn-[n-pedatori, sp-[p-a, sn-[n-disposizione]]]], cong-e, sp-[part-sui, sn-[n-tecnici]]]] coord-[ibar-[ausa-ha, vppt-confermato], compt-[sn-[npro-Eugenio, npro-Scalfari]], cong-ed, ibar-[ausa-ha, vppt-deliberato], compt-[sv2-[pt-di, vit-aumentare], sn-[art-il, n-numero, spd-[partd-dei, sn-[n-consiglieri]]]]] coord-[spda-[pda-da, sn-[npro-Sting]], punt-, sn-[npro-Jenny, spd-[partd-dei, sn-[n-pirati]]], cong-e, spda-[partda-dalla, sn-[npro-Nannini]]]]] fc-[ f-[sn-[ind-Molti], ibar-[vt-diranno], fac-[pk-che, f-[ibar-[vc-è], compc-[sn-[art-il, n-trionfo, spd-[partd-della, sn-[n-marcatura, sp-[p-a, sn-[n-uomo]]]]]]]]], punt-, f-[sn-[pron-io], compt-[fac-[intj-no]]]] i. FC Un sottocaso di coordinazione è costituito dalla coordinazione di frasi, una delle quali ellittica, che viene demarcata da un costituente esplicito, FC. fc-[f-[sn-[art-Gli, n-esempi], ibar-[ause-sono, vppt-scritti], compt-[sp-[p-in, sn-[n-corsivo]]]], punt-, f-[sn-[art-le, n-glosse], compt-[sp-[p-in, sn-[n-stampatello]]]]] 4.1.3.2.19 FP Con FP si indica la presenza di punteggiatura nel testo che può servire successivamente ad individuare una eventuale frase parentetica o appositiva, o semplicemente a marcare la spezzatura del testo in parti informativamente differenti. Con FP sono designati ad esempio, gli aggiunti aperti del tipo participiale posti dopo la testa che li governa. Le strutture appositive possono essere anche aggiunti di tipo chiuso, modificatori o attributi. Le parentetiche possono essere frasi di commento, in forma anche ellittica racchiuse tra due simboli di punteggiatura. cp-[sv5-[aueg-essendo, vppt-arrivato, savv-[avv-presto]], fp-[punt-,], f-[sn-[npro-Giovanni], ibar-[vt-vide], compt-[ [sn-[qc-tutta, art-la, n-partita]]]] cp-[sv3-[vppt-finito, sn-[art-il, n-lavoro]], fp-[punt-,], f-[sn-[nh-Maria], ibar-[vin-partì]]] D-27 Linea 1.1 - Treebank sintattico-semantica dell'italiano f-[ibar-[vin-slitta], sn-[art-la, n-riunione, fp-[punt-,], f-[sv3-[vppt-prevista], sp-[p-per, sn-[n-oggi]], fp-[punt-,], spd-[partd-della, sn-[ag-cosiddetta, n-commissione, nh-sangalli]]]] 4.1.3.2.20 CP Come già chiarito in una sezione precedente, il costituente CP viene usato per contenere genericamente tutti i costituenti dislocati che sono stati anteposti o preposti a seguito di processi sintattici. In particolare, processi come la dislocazione a sinistra o la estraposizione esemplificata più in basso sono casi in questione. CP è anche la marca che viene utilizzata per le frasi interrogative con elemento wh- del tipo di chi, che cosa, quando, perché, ecc. Il costituente CP viene utilizzato genericamente per tutte quelle frasi che non iniziano con il SN SOGGetto o con il gruppo verbale IBAR, ma con un aggiunto come un SP o un SAVV, oppure con frasi a tempo indefinito come le gerundive o le participiali, esemplificate più in basso. Inoltre, CP funge da nodo padre per strutture di frasi complesse, cioè di frasi composte da una frase subordinata e una frase principale semplice. Altri esempi di questi casi sono stati inseriti nella sezione successiva dedicata a FS in quanto parte integrante di rappresentazione di periodi. Che Maria sia partita significa che si è arresa. cp-[fac-[pk-che, f-[sn-[nh-Maria], ibar-[aueir-sia, vppin-partita]]], f-[ibar-[vt-significa], compt-[fac-[pk-che, f-[ibar-[clit-si, ause-è, vppt-arresa]]]]]] Essendo arrivato presto, Giovanni vide tutta la partita. cp-[sv5-[aueg-essendo, vppt-arrivato, savv-[avv-presto]], fp-[punt-,], f-[sn-[npro-Giovanni], ibar-[vt-vide], compt-[sn-[qc-tutta, art-la, n-partita]]]] Finito il lavoro, Maria partì. cp-[sv3-[vppt-finito, sn-[art-il, n-lavoro]], fp-[punt-,], f-[sn-[nh-Maria], ibar-[vin-partì]]] Che i governi europei debbano silenziosamente ingoiarle non è giusto. cp-[fac-[pk-Che, f-[sn-[art-i, n-governi, ag-europei], ibar-[vsupir-debbano, avv-silenziosamente, vcl-ingoiarle, compt-[clitac-le]]]], f-[ibar-[neg-non, vc-è], svc-[sa-[ag-giusto]]]] In cambio delle attrezzature e della disponibilità del sito, le università americane e giapponesi coinvolte nell’esperimento pagheranno le molte e carissime tonnellate di argon liquido che serviranno a verificare se e quando il protone decade. cp-[sp-[p-in, sn-[n-cambio], coord-[spd-[partd-delle, sn-[n-attrezzature]], cong-e, spd-[partd-della, sn-[n-disponibilità, spd-[partd-del, sn-[n-sito]]]]]], fp-[punt-,], f-[sn-[art-le, n-università, coord-[sa-[ag-americane], cong-e, sa-[ag-giapponesi]], sv3-[vppt-coinvolte, sp-[part-nell, sn-[n-esperimento]]]], ibar-[vt-pagheranno], compt-[sn-[art-le, coord-[sa-[ind-molte], D-28 Linea 1.1 - Treebank sintattico-semantica dell'italiano cong-e, sa-[ag-carissime]], n-tonnellate, spd-[pd-di, sn-[n-argon], sa-[ag-liquido]], f2-[rel-che, ibar-[vt-serviranno], compt-[sv2-[pt-a, vit-verificare, compt-[ cp-[cosu-se, cong-e, cosu-quando, f-[sn-[art-il, n-protone], ibar-[vin-decade], f-[punto-.]]]]]]]]]]] 4.1.3.2.21 FS e CP Il costituente FS viene utilizzato in presenza di un elemento linguistico che funga da subordinatore, quindi per tutte le frasi subordinate. Normalmente le frasi subordinate sono accompagnate da frasi principali, ma non è sempre così come mostrato da un esempio sottostante. Oppure, se si vuol parlare di applicazioni, sarà bene ricordare che sono fisici anche tutti coloro che si occupano di laser, per materiali per l’elettronica, di superfreddo e superconduttività. Perché i fisici delle particelle sono alla ribalta molto più spesso dei loro colleghi che si occupano di laser o di stato solido? “Prima di tutto”, risponde Roberto Fieschi, docente di fisica dello stato solido dell’Università di Parma, “perché i fisici nucleari e subnucleari hanno il loro istituto, l’Infn, agile ed efficiente malgrado le pastoie del parastato. Mentre gli altri gruppi di ricercatori fisici sono dispersi negli istituti e nei centri del Cnr, e soffrono tutte le ben note difficoltà di questo ente.” cp-[fc-[cong-Oppure], fp-[punt-,], fs-[cosu-se, f-[ibar-[clit-si, vsup-vuol, vit-parlare], compin-[spd-[pd-di, sn-[n-applicazioni]]]]], fp-[punt-,], f-[ibar-[clit-si, vit-ricorderà], compt-[fac-[pk-che, f-[ibar-[vc-sono, svc-[sa-[ag-fisici]]], sn-[in-anche, qc-tutti, deit-coloro, f2-[rel-che, ibar-[clit-si, vt-occupano], compin-[ coord-[spd-[pd-di, sn-[n-laser]], fp-[punt-,], sp-[p-per, sn-[n-materiali], sp-[p-per, sn-[art-l, n-elettronica]]], fp-[punt-,], spd-[pd-di, sn-[n-superfreddo]], cong-e, sn-[n-superconduttività]]], f-[punto-.]]]]]]]] cp-[cosu-Perché, f-[sn-[art-i, n-fisici, spd-[partd-delle, sn-[n-particelle]]], ibar-[vc-sono], svc-[sp-[part-alla, sn-[n-ribalta]], savv-[in-molto, in-più, avv-spesso], spd-[partd-dei, sn-[poss-loro, n-colleghi, f2-[rel-che, ibar-[clit-si, vt-occupano], coord-[spd-[pd-di, sn-[n-laser]], cong-o, spd-[pd-di, n-stato, sa-[ag-solido]]], f-[puntint- ?]]]]]]] cp-[fp-[par-”], sp-[php-prima_di, sa-[avv-tutto]], fp-[par-”], fp-[punt-,], f-[ibar-[vin-risponde], D-29 Linea 1.1 - Treebank sintattico-semantica dell'italiano sn-[nh-roberto_fieschi], fp-[punt-,], sn-[n-docente, spd-[pd-di, sn-[n-fisica_dello_stato_solido]], spd-[partd-dell, sn-[n-Università, spd-[pd-di, sn-[np-Parma]]]]]], fp-[punt-,], fp-[par-”], fs-[cosu-perché, f-[sn-[art-i, n-fisici, coord-[sa-[ag-nucleari], cong-e, sa-[ag-subnucleari]]], ibar-[vc-hanno], compc-[sn-[art-il, poss-loro, n-istituto], fp-[punt-,], sn-[art-l, npro-Infn], fp-[punt-,], coord-[sa-[ag-agile, cong-ed, sa-[ag-efficiente]]]], fs-[cong-malgrado, f-[sn-[art-le, n-pastoie, spd-[partd-del, sn-[n-parastato]]]]], f-[punto-.]]]] fs-[cosu-Mentre, f-[sn-[art-gli, ag-altri, n-gruppi, spd-[pd-di, sn-[n-ricercatori], sn-[ag-fisici]]], ibar-[ause-sono, vppt-dispersi], compin-[coord-[ sp-[part-negli, sn-[n-istituti]], cong-e, sp-[part-nei, sn-[n-centri, spd-[partd-del, sn-[npro-Cnr]]]]]]], fp-[punt-,], fc-[cong-e, f-[ibar-[vt-soffrono], compt-[sn-[qc-tutte, art-le, in-ben, ag-note, n-difficoltà, spd-[pd-di, sn-[dim-questo, n-ente]]]], f-[punto-.]]]] fp-[par-”], 4.1.3.3 Tipologia dei costituenti sintattici della Treebank di SI-TAL Riassumendo, nella tabella che segue è riportata la tipologia dei costituenti sintattici che appariranno nella rappresentazione sintattica a costituenti della Treebank di SI-TAL: Simbolo F SN SA SP SPD SPDA SAVV IBAR SV2 SV3 SV5 FAC FC FS FINT Tipo di costituente frase sintagma nominale sintagma aggettivale sintagma preposizionale sintagma preposizionale DI sintagma preposizionale DA sintagma avverbiale nucleo verbale a tempo finito frase infinitiva frase participiale frase gerundiva frase complemento Coordinatore frase coordinata Subordinatore frase subordinata Elementi +wh frase interrogativa D-30 Linea 1.1 - Treebank sintattico-semantica dell'italiano Simbolo FP Tipo di costituente Introduttore punteggiatura frase parentetica o apposizione, o separatore testo F2 Frase relativa CP Elementi dislocati o anteposti, aggiunti frasali e non COORD/co Elemento coordinante e costituente coordinato stituente COMPT Complementi retti da VerbiTransitivi COMPIN Complementi retti da Verbi Intransitivi COMPC Complementi retti da Verbi Copulativi Prima di passare ai criteri di annotazione per questo livello, forniremo una classificazione dei costituenti, sulla base di come questi riorganizzano i materiali lessicali al proprio interno. In particolare, possiamo parlare dei seguenti tipi di costituenti: • • costituenti funzionali: includono tutti quei costituenti che al proprio interno non prevedono la presenza di una testa lessicale semantica, oppure come nel caso dei gruppi preposizionali, che non sono completi semanticamente senza la presenza di un ulteriore costituente. I costituenti funzionali si suddividono a loro volta in: • costituenti Funzionali Strutturali, che sono privi di una qualsiasi testa lessicale che li individui; • costituenti Funzionali Lessicali, che hanno obbligatoriamente una testa lessicale che ha oppure no contenuto semantico; costituenti Sostanziali, che contengono teste lessicali semantiche. 4.1.3.3.1 Costituenti Funzionali Strutturali Simbolo F CP COMPT COMPIN COMPC 4.1.3.3.2 Tipo di costituente frase Elementi dislocati o anteposti, aggiunti frasali e non Complementi retti da Verbi Transitivi Complementi retti da Verbi Intrasitivi Complementi retti da Verbi Copulativi Costituenti Funzionali Lessicali Simbolo FAC FC FS FINT FP F2 Tipo di costituente frase complemento con o senza complementatore Coordinatore frase coordinata Subordinatore frase subordinata Elementi +wh frase interrogativa, anche se il pronome interrogativo è preceduto da preposizione Introduttore punteggiatura frase parentetica o apposizione Frase relativa, anche se il pronome relativo è preceduto da preposizione o da articolo D-31 Linea 1.1 - Treebank sintattico-semantica dell'italiano COORD/costituente SP SPD SPDA Elemento coordinante e costituente coordinato sintagma preposizionale sintagma preposizionale DI sintagma preposizionale DA Possiamo notare che nel caso in cui il costituente CP non ha motivo per la sua presenza nella struttura, cioè nella frase non ci sono costituenti anteposti o aggiunti di inizio frase, esso non apparirà. Per quanto riguarda il nodo F invece, esso apparirà anche se il soggetto non fosse espresso lessicalmente: risulterà quindi indicativo delle frasi in cui appare il nodo IBAR, cioè il verbo flesso di tempo definito. Il nodo F apparirà nelle frasi ellittiche ma non nelle frasi di modo indefinito che sono invece individuate da nodi SV con numeri che li differenziano. 4.1.3.3.3 Simbolo SN SA SAVV IBAR SV2 SV3 SV5 Costituenti Sostanziali Tipo di costituente sintagma nominale sintagma aggettivale sintagma avverbiale nucleo verbale a tempo finito frase infinitiva frase participiale frase gerundiva Anche in questo caso è necessario notare che il costituente IBAR non potrà mai apparire da solo, ma sempre in compagnia del suo nodo dominante F. 4.1.3.4 Criteri di annotazione In questa sezione sono forniti criteri di annotazione per quanto concerne il livello sintattico a costituenti. In particolare, verranno prese in considerazione particolari costruzioni sintattiche e se ne specificherà il trattamento nell’ambito dello schema di annotazione proposto. 4.1.3.4.1 Costituenti minori, Modificatori e Marcatori Semantici Nel SN, i determinatori e i modificatori sia che precedano la testa o che la seguano vengono inclusi allo stesso livello della testa nominale. Mentre i determinatori sono privi di costituenza, tutti gli altri modificatori portano la loro struttura sintattica. Si suppone che i determinatori (intendendo con questo termine articoli, quantificatori di vario genere, numeri) dovranno poi essere rappresentati nella funzione SPEC(ificatore). I complementatori vengono trattati come i determinatori, sono cioè privi di costituenza sintattica ma appaiono ad un livello separato: questo crea i presupposti per il loro trattamento al livello della rappresentazione funzionale, per il quale si rinvia alla sezione 4.1.4.1.2. Il processo di innalzamento si applica tipicamente alle informazioni associate al nucleo verbale, oppure a teste semantiche che introducono frasi subordinate e coordinate. Il nucleo verbale di modo finito, intendendo con la parola nucleo non solo il verbo principale ma anche i suoi ausiliari, si D-32 Linea 1.1 - Treebank sintattico-semantica dell'italiano troverà sempre associato a un costituente separato, IBAR. Per quanto riguarda invece i nuclei verbali di modo non finito - infinito, participio e gerundio semplici o composti - questi verranno tutti individuati da SVn, dove “n” sta per un numero che serve a specializzare il SV. La negazione verrà trattata come avverbio e sarà quindi disponibile successivamente per essere interpretata al livello di rappresentazione adeguato, che però rimane al di fuori dei livelli previsti per la Treebank di SI-TAL: in ogni caso, tutte le eventuali operazioni semantiche di individuazione della portata o ambito della negazione potranno essere realizzate sia a partire dalla struttura sintattica, sia da quella funzionale. 4.1.3.4.2 Costituenti vuoti La teoria LFG e tutte le sue derivazioni non prevedono nella rappresentazione sintattica la presenza di elementi vuoti. In pratica, la rappresentazione sintattica dovrà contenere tutto e solo il materiale lessicale di struttura superficiale. Questa è la strategia che abbiamo deciso di seguire anche nel caso dello schema di annotazione a costituenti di SI-TAL. In particolare tutte le operazioni di raccordo tra elementi dislocati o spostati e il loro sito canonico - vedi il soggetto postverbale, l’oggetto preposto - non richiedono nella rappresentazione sintattica l’introduzione di tracce e altri tipi di elementi vuoti come marcaposto. Sarà invece il livello funzionale a rendere conto delle relative relazioni di dipendenza. Lo stesso discorso vale per le frasi passive, anche nel caso in cui il soggetto si trovi nella posizione preverbale canonica. Stessa sorte tocca a relazioni di dipendenza definite in LFG “a lunga distanza”, cioè tutte quelle relazioni che si creano per la presenza di un pronome interrogativo o relativo, o del complementatore che: in nessun caso, apparirà nella struttura sintattica un costituente vuoto a fare da marcaposto. Queste relazioni verranno trattate nel livello funzionale, secondo le modalità illustrate nella sezione 4.1.4.1.3.2. Il soggetto vuoto non apparirà a livello di rappresentazione a costituenti, e verrà introdotto al livello funzionale; per la sua rappresentazione si rinvia alle sezioni 4.1.4.1.1 e 4.1.4.2.3.1. Lo stesso ragionamento vale per il soggetto inespresso di frasi implicite di modo non finito, sia che si tratti di complementi o di aggiunti. Benché la teoria preveda operazioni ben distinte in un caso o nell’altro, si sceglie di trattare entrambi i casi allo stesso modo. Nella struttura sintattica non apparirà alcun costituente per marcare il soggetto inespresso. A livello funzionale invece verrà inclusa la specificazione di un soggetto controllato, secondo quanto illustrato nella sezione 4.1.4.1.1 (nel paragrafo relativo alla relazione soggetto). Strutture ellittiche di vario tipo saranno integrate con l’informazione omessa a livello della realizzazione superficiale nell’annotazione funzionale secondo quanto illustrato nella sezione 4.1.4.2.3. 4.1.3.4.3 Clitici I clitici meritano un discorso a parte in quanto costituiscono un importante componente della struttura sintattica, sia a costituenti sia funzionale. I clitici sono trattati come sostituti lessicali di complementi o aggiunti. Verranno cioè trasformati in funzioni grammaticali corrispondenti, sulla base del caso lessicale e delle informazioni derivabili dal predicato reggente; per il loro trattamento al livello funzionale si rinvia alla sezione 4.1.4.1.3.2. D-33 Linea 1.1 - Treebank sintattico-semantica dell'italiano La struttura a costituenti registra la loro presenza nella posizione superficiale in cui si trovano e ne copia il contenuto all’interno di un sintagma corrispondente. 4.1.3.4.4 Il “SI” espletivo: inerente, passivante, medio e impersonale Altri clitici espletivi sono quelli costituiti dalle varie interpretazioni del si: in particolare quelle che appaiono nelle frasi con verbi riflessivi inerenti come in Gianni si è arrabbiato, non richiedono un mapping nella struttura sintattica a costituenti. Il si passivante non contribuisce alcuna informazione aggiuntiva oltre all’informazione sulla diatesi passiva, come in il pane si mangia col prosciutto. Lo stesso vale per il si medio che contribuisce informazione sia sulla diatesi, sia sul soggetto impersonale: da qui si vedono le montagne. Più in generale, il si impersonale svolge la funzione di individuare il soggetto impersonale, cioè un soggetto inespresso che assume il contenuto del quantificatore esistenziale, con tratti funzionali e semantici adeguati. Questa informazione viene travasata nel corrispondente costituente sintattico SN e utilizzata poi nel mapping in funzioni grammaticali. Altri si espletivi sono da considerarsi quelli in strutture ergative o incoative, come in il vaso improvvisamente si ruppe; e il si benefattivo o dativo etico di frasi del tipo: Gino si è bevuto una coca. 4.1.3.4.5 Preposizioni e SP Tutte le preposizioni appariranno nella struttura a costituenti come testa del costituente SP corrispondente. Comunque, vi sono due tipi di costituenti SP: quelli normali e quelli retti dalla preposizione DI e sue forme derivate o dalla preposizione DA e sue forme derivate. Questa classificazione dei SP crea i presupposti per stabilire regole di corrispondenza tra la struttura a costituenti e la struttura funzionale. 4.1.3.4.6 Modali e costruzioni perifrastiche di varia natura (aspettuali, causativi) Si tratta di costruzioni con verbi modali, aspettuali, utilizzati per perifrasi, causativi, in generale con i cosiddetti verbi a ristrutturazione. In questi casi, la testa lessicale non è costituita dal verbo che supporta la perifrasi ma dal verbo lessicale. Il loro trattamento al livello della struttura a costituenti consiste in una “ristrutturazione” di IBAR, che vede il “sollevamento” del verbo lessicale e l’“abbassamento” del verbo modale/aspettuale/causativo al suo interno. Al fine di garantire l’omogeneità di trattamento dei dati linguistici tra i due livelli di annotazione sintattica nella Treebank di SI-TAL, abbiamo deciso di limitare la tipologia dei verbi che provocano un sollevamento del verbo lessicale all’interno di IBAR a quelli nella lista che segue, a cui si devono aggiungere, ovviamente, i due ausiliari, essere e avere: • • • • • • • andare venire potere volere dovere stare stare per Vanno rifiutati tutti gli inviti Vengano rifiutati tutti gli inviti Può comprendere le loro richieste Vuole comprendere le loro richieste Deve comprendere le loro richieste Gino sta a guardare Gino sta per partire D-34 Linea 1.1 - Treebank sintattico-semantica dell'italiano Al livello dell’annotazione, i seguenti casi: • verbi modali – dovere, volere, potere - e • verbi aspettuali – andare, venire, stare, stare per – di cui i primi due sono anche utilizzati per il passivo verranno inclusi nel costituente IBAR alla stessa stregua dei verbi ausiliari avere e essere e saranno seguiti dal verbo lessicale nella sua forma al participio, all’infinito o al gerundio. 4.1.4 Specifiche di annotazione per il livello funzionale La prima scelta che si pone per questo livello di annotazione è se le relazioni funzionali debbano essere definite rispetto ai costituenti identificati al livello dell’annotazione a costituenti oppure se vadano stabilite indipendentemente, cioè definite tra teste lessicali. Abbiamo escluso la prima ipotesi per diversi ordini di motivi. Il ricorso ad una annotazione che stabilisce relazioni funzionali tra teste lessicali trova supporto in una serie di motivazioni di varia natura. Motivazioni teoriche: • lo spettro di schemi di annotazione sintattica compatibili si allarga andando a coprire schemi propri di grammatiche a dipendenze (quello ad esempio adottato nell’ambito di teorie quali la Word Grammar (Hudson 1984) o della Constraint Grammar (Karlsson et al. 1995)), che non assumono in alcun modo l’esistenza di costituenti sintattici e descrivono l’enunciato linguistico puramente in termini di relazioni di dipendenza tra parole o teste; Motivazioni applicative: • in una prospettiva di uso della Treebank per la valutazione di analizzatori sintattici, una annotazione funzionale tra teste è considerata particolaremente efficace in quanto: • costituisce il minimo comune denominatore di una vasta tipologia di schemi di annotazione, sia basati sulla costituenza sia sulle dipendenze (Lin 1998; Lenci et al. 1999 b); • rappresenta un terreno di comparazione più appropriato, superando i problemi posti da una valutazione condotta rispetto a rappresentazioni sintattiche a costituenti (Carroll and Briscoe 1996; Carroll et al. 1998; Sampson 1998; Lin 1998; Lenci et al. 1999 b); • un numero sempre più crescente di applicazioni di “ingegneria linguistica” fanno uso di rappresentazioni funzionali espresse in termini di coppie di parole, in particolare in componenti per il filtraggio e recupero di informazioni (Grefenstette 1994) oppure nell’ambito di sistemi per la disambiguazione di senso (si veda in proposito l’iniziativa di SENSEVAL/ROMANSEVAL); • considerata la difficoltà intrinseca di rappresentare trascrizioni di parlato in termini di struttura a costituenti, una rappresentazione funzionale tra teste permette di stabilire un terreno comune di confronto tra lingua parlata e scritta; • analoga considerazione vale in una prospettiva multilingue. Mentre la struttura a costituenti può variare radicalmente tra lingue diverse e anche all’interno della stessa lingua (si consideri ad D-35 Linea 1.1 - Treebank sintattico-semantica dell'italiano esempio l’effetto a livello di struttura a costituenti dell’ordine libero dei costituenti in italiano), le relazioni funzionali – astraendo da alcuni aspetti della sintassi di superficie (ad esempio relazioni di precedenza) - sono meno soggette a variazione sia in una prospettiva interlinguistica sia intra-linguistica. Motivazioni operative: • un’annotazione funzionale tra teste rende lo schema particolarmente flessibile per quanto riguarda le strategie e le metodologie di annotazione; ad esempio, uno stesso testo può essere annotato in parallelo ai diversi livelli, a costituenti e funzionale. Questo aspetto è cruciale nell’ambito di SI-TAL, in quanto la porzione di corpus annotata a livello funzionale è significativamente più ampia di quella annotata a costituenti (circa 300.000 vs circa 80.000 parole); inoltre, i tempi di realizzazione della risorsa Treebank sono tali da richiedere di procedere ad una annotazione in parallelo per i diversi livelli. Ulteriori motivi che scoraggiano il ricorso ad una annotazione a costituenti aumentata dell’informazione funzionale si identificano in: • la complicazione ormai ampiamente sperimentata nell’ambito di altre Treebank derivante dall’inclusione di informazione funzionale all’interno di uno schema di annotazione a costituenti. Si veda, ad esempio, l’esperienza della Penn Treebank (Marcus et al. 1994): la revisione dello schema di annotazione in vista dell’estrazione automatica di una banca dati di strutture predicato-argomento ha comportato, oltre all’introduzione di etichette funzionali da associarsi ai costituenti, anche un massiccio uso di tracce e costituenti vuoti che hanno appesantito l’annotazione rendendola di più difficile produzione e comprensione; • la stretta dipendenza che viene a stabilirsi tra i due livelli di annotazione, per cui annotazioni che nella letteratura ricevono interpretazioni controverse a livello di costituenza si ripercuotono anche al livello funzionale. Si consideri il caso di costruzioni sintattiche particolari che presentano serie difficoltà nell’identificazione dei confini di costituenza, ma che non presentano particolari difficoltà a livello di un’annotazione funzionale, ad esempio frasi del tipo Ho visto Maria partire, Considero Gianni intelligente oppure di casi di condivisione di costituenti in strutture coordinate. Una frase del tipo ho visto Maria partire riceve nella letteratura analisi a costituenti differenziate, ma entrambe legittime: 1. Ho visto [ Maria partire ] 2. Ho visto [ Maria ] [ partire ] si noterà che un’analisi funzionale come quella riportata sotto è compatibile con entrambe e non richiede una presa di posizione a favore dell’una o dell’altra: a) arg(vedere, partire) b) ogg(vedere, Maria) c) sogg(partire, Maria) l’analisi 1 è coperta da a) e c), mentre la 2 dalla combinazione di a), b) e c). Sulla base delle considerazioni riportate sopra, sia teoriche che pratiche, abbiamo optato per uno schema di annotazione funzionale tra teste. Segue una descrizione dettagliata dello schema di annotazione funzionale proposto per la Treebank di SI-TAL che prende le mosse dallo schema di annotazione elaborato nel progetto europeo SPARKLE (LE-2111), a sua volta rielaborato e rivisto ai fini della sua adozione D-36 Linea 1.1 - Treebank sintattico-semantica dell'italiano nell’ambito di campagne di valutazione di analizzatori sintattici nell’ambito del progetto ELSE (LE4-8340). F.A.M.E (Functional Annotation Meta-scheme for Evaluation), lo schema elaborato in ELSE (Lenci et al. 1999 a e 1999 b), viene riproposto in questa sede in una versione rivista e specializzata rispetto alle peculiarità della lingua da annotare – l’italiano – ed alla sua adozione come schema di annotazione di una Treebank. 4.1.4.1 Tipologia delle relazioni funzionali Gli elementi di base dello schema di annotazione che proponiamo sono relazioni funzionali, dove con “relazione funzionale” si intende una relazione binaria asimmetrica sussistente tra una parola chiamata TESTA ed un’altra parola chiamata DIPENDENTE. All’interno dello schema proposto, una relazione funzionale sussiste solo tra parole piene o lessicali. Quindi, sono automaticamente escluse relazioni funzionali che riguardano elementi grammaticali quali i determinativi, gli ausiliari, i complementatori, le preposizioni, etc. L’informazione riguardante questi elementi è codificata mediante tratti associati ai termini della relazione di dipendenza, come viene descritto sotto. Ciascuna relazione funzionale è rappresentata come una relazione binaria espressa come segue: tipo_di_dipendenza (testa.<tratti_distintivi>, dipendente.<tratti_distintivi>) Tipo_di_dipendenza specifica la relazione sussistente tra la testa lessicale e il suo dipendente; la testa e il dipendente della relazione possono anche ricevere una caratterizzazione rispetto ad un insieme di tratti che sono considerati rilevanti rispetto alla relazione che li lega ed al tipo di testa e dipendente. La tipologia delle relazioni di dipendenza previste dallo schema di annotazione proposto è organizzata gerarchicamente, in modo tale da permettere rappresentazioni sottospecificate che potrebbero essere utili per il trattamento di costruzioni realmente ambigue oppure controverse. Come già discusso in precedenza, nell’ambito di un’annotazione manuale il ricorso alla sottospecificazione è utile per ridurre il margine di arbitrarietà nelle scelte degli annotatori. Relazioni di dipendenza sottospecificate sono anche particolarmente cruciali: nel caso di un’annotazione automatica, quando l’analizzatore sintattico non abbia a disposizione l’informazione necessaria per un’analisi completamente specificata; oppure, nell’ambito di campagne di valutazione, per evitare penalizzazioni arbitrarie di analisi funzionali divergenti ma in qualche misura compatibili. La gerarchia delle relazioni è strutturata come segue: D-37 Linea 1.1 - Treebank sintattico-semantica dell'italiano dip sogg comp mod arg pred non-pred ogg_d ogg_i obl Questa gerarchia separa il soggetto (sogg) rispetto alle altre relazioni grammaticali assegnandogli una posizione più alta all’interno di tutta l’organizzazione delle funzioni sintattiche, come è usuale in molte teorie grammaticali (per esempio HPSG, GB). Inoltre, raggruppando i modificatori (mod) e gli argomenti (arg) sotto lo stesso nodo dei complementi (comp), la gerarchia di relazioni proposta ammette la possibilità di lasciare sottospecificata la distinzione tra modificatore (o aggiunto) e argomento che non è sempre facile da applicare, specialmente rispetto all’uso reale della lingua. Il nodo “arg” è a sua volta suddiviso in “pred”, che raccoglie solo ed esclusivamente i complementi predicativi classici (predicativi del soggetto e dell’oggetto), e “non-pred”, che sussume i complementi non-predicativi, ovvero “ogg_d” (per gli oggetti diretti), “ogg_i” (per gli oggetti indiretti) e “obl” (per gli argomenti obliqui). Si noti che al livello di annotazione funzionale si rappresentano solo quei fenomeni che sono rilevanti per l’identificazione e/o specificazione di relazioni grammaticali (ad es. caso, diatesi, tratti di accordo etc.). Ne consegue che fenomeni come il tempo e l’aspetto verbale, l’ambito della negazione e l’ellissi interfrasale non sono trattati a questo livello in quanto considerati di pertinenza di un livello di rappresentazione logico-semantica che non trova una sua collocazione nell’architettura globale della Treebank di SI-TAL così come strutturata ad oggi. Analoga considerazione vale nel caso delle funzioni pragmatiche di topic e focus che sono al di fuori delle finalità del progetto in quanto sarebbero da trattare piuttosto ad un livello di rappresentazione pragmatica. Va comunque considerato che una Treebank come questa, dove l’annotazione è distribuita su più livelli, è aperta ad integrazioni future. I fenomeni e le costruzioni che non trovano nella Treebank attuale una collocazione adeguata potranno dare luogo in futuro ad espansioni ed integrazioni della risorsa. In quanto segue, definiamo prima in maniera schematica ciascuna relazione funzionale, per poi passare alla definizione dei tratti che possono essere associati alla testa e al dipendente. 4.1.4.1.1 Inventario delle relazioni dip (testa, dipendente) dip(endenza) è la relazione più generica tra una testa e un dipendente, che rimane sottospecificata per quanto riguarda lo status di quest’ultimo. Questo livello di sottospecificazione può essere utile nei casi in cui l’informazione disponibile non è sufficiente per la disambiguazione. In particolare, dip può essere utile per trattare casi di ambiguità reale tra soggetto e oggetto: ad esempio, sia chi che Maria possono essere soggetto o oggetto nella completiva incassata nella frase non so chi abbia incontrato Maria. D-38 Linea 1.1 - Treebank sintattico-semantica dell'italiano In casi come questo, quando il contesto non sia di aiuto a capire chi incontra chi, si consiglia di ricorrere all’annotazione che segue: dip (incontrare, chi) dip (incontrare, Maria) sogg (testa, dipendente) Indica la relazione tra un predicato e il suo sogg(etto): sogg (arrivare, Giovanni) Giovanni arrivò a Parigi sogg (assumere, Microsoft) La Microsoft ha assunto dieci programmatori sogg (assumere, Paolo) Paolo è stato assunto dalla Microsoft sogg si riferisce al soggetto superficiale della frase: come illustrano gli esempi sopra, viene assegnato indipendentemente dalla diatesi attiva o passiva della testa verbale (a sua volta codificata come tratto associato alla testa, cfr sezione 4.1.4.1.2). Il soggetto logico non è marcato esplicitamente a livello di relazione, bensì al livello di tratti associati al dipendente come illustrato in dettaglio nella sezione 4.1.4.2.2. La stessa relazione di sogg è anche usata per marcare frasi completive in funzione di soggetto, come illustrato dagli esempi che seguono. sogg (significare, partire) che Maria sia partita significa che si è arresa sogg (richiedere, vincere) vincere la gara richiede un grosso impegno sogg (essere, partire) è necessario partire presto Con lingue pro-drop come l’italiano, casi di soggetto “nullo” o ellittico, che si verificano quando il soggetto non è superficiamente realizzato, vengono trattati mediante un’annotazione parziale, esemplificata di seguito: sogg (arrivare, .<pers=1,num=sing>) arrivai in ritardo dove i) l’elemento dipendente non è specificato a livello lessicale e ii) le caratteristiche morfo-sintattiche del soggetto, corrispondenti alla persona, al numero e al genere (qualora rilevante), sono codificate in termini di tratti associati al dipendente (si veda la sezione 4.1.4.1.2 per maggiori dettagli). Questa soluzione è stata messa a punto per evitare rappresentazioni troppo dipendenti da una teoria specifica ed al contempo fornire una rappresentazione il più informativa possibile; si è preferita, ad esempio, ad una codifica del tipo “sogg (arrivare, pro)” che tratta il pro-drop nei termini di una relazione tra una testa verbale ed un elemento vuoto (pro) che a sua volta necessiterebbe di una caratterizzazione da un punto di vista morfo-sintattico. In questo modo, viene anche garantita la comparabilità e la compatibilità con approcci diversi. La relazione sogg è usata inoltre per contrassegnare il soggetto “implicito” di completive infinitivali con funzione di complemento in costruzioni a controllo e a sollevamento (distinzione, questa, che non appare rilevante dal punto di vista dell’annotazione funzionale) così come di infinitive, participiali e gerundive con funzione di modificatore, come illustrato dagli esempi che seguono: sogg (partire, Giovanni) Giovanni promise a Maria di partire sogg (partire, Maria) Giovanni ordinò a Maria di partire sogg (partire, Maria) Maria fu costretta a partire sogg (arrivare, Giovanni) Giovanni sembra arrivare domani sogg (arrivare, Giovanni) Essendo arrivato presto, Giovanni vide tutta la partita sogg (finire, Giovanni) Finito il lavoro, Giovanni partì D-39 Linea 1.1 - Treebank sintattico-semantica dell'italiano sogg (finire, Giovanni) Giovanni partì presto per finire il lavoro La relazione sogg è usata infine per contrassegnare il soggetto di complementi predicativi (del soggetto o dell’oggetto), come illustrato di seguito: sogg (intelligente, Giovanni) Giovanni è intelligente sogg (intelligente, Maria) Giovanni considera Maria intelligente sogg (genio, Maria) Maria è considerata un genio Con questi due ultimi insiemi di casi - il soggetto implicito di frasi complemento di modo non finito ed il soggetto di complementi predicativi - lo schema proposto va al di là del dominio proprio della sintassi di superficie e include informazione relativa alla struttura predicato-argomento: in particolare, fornisce indicazione esplicita i) riguardo al soggetto del verbo nella frase incassata quando controllato da un argomento della testa verbale della frase matrice e ii) riguardo al soggetto di complementi predicativi. Abbiamo deciso comunque di includerla per garantire la compatibilità della Treebank con schemi di annotazione sintattica che marcano soggetti “impliciti” di frasi incassate (in vista, ad esempio, di un uso della Treebank a fini di valutazione) oppure che trattano il complemento predicativo in termini di frase ridotta selezionata dal verbo reggente. comp (testa, dipendente) comp marca in modo generico la relazione tra una testa ed un complemento, sia esso modificatore o argomento. Questa relazione funzionale sottospecificata è particolarmente utile in quei casi in cui è difficile stabilire la natura argomentale o di modificatore del complemento. Per esempio, consideriamo la frase Giovanni spinse la macchina alla stazione dove, a seconda dei criteri di selezione adottati, alla stazione può essere considerato come un modificatore o come un argomento. La caratterizzazione come comp riportata sotto rimane compatibile con entrambe le analisi, non costringendo l’annotatore a decisioni arbitrarie e/o premature: comp (spingere, stazione) Questa relazione risulta particolarmente utile nei seguenti casi: • codifica della relazione tra un nome ed un suo complemento preposizionale. Si confrontino i seguenti casi: comp (professore, fisica) il professore di fisica comp (padre, Maria) il padre di Maria l’annotazione nei termini di comp mantiene sottospecificata la natura del complemento, che non è sempre facile da stabilirsi in modo univoco. • codifica della relazione tra una testa ed un argomento semantico che sia sintatticamente realizzato come un modificatore. Questo è il caso, ad esempio, dell’agente espresso nella costruzione passiva come un complemento preposizionale introdotto dalla preposizione “da”: la sua natura di “aggiunto tematicamente legato” è messa in evidenza dalla sua codifica in termini di comp, come esemplificato nel frammento di annotazione che segue: comp (uccidere, Bruto) fu ucciso da Bruto Nell’annotazione della Treebank di SI-TAL il ricorso alla relazione comp verrà limitato ai casi in cui non sia possibile decidere se la relazione di dipendenza in questione sia di modificazione oppure di argomento. A questo proposito, l’annotatore avrà a disposizione D-40 Linea 1.1 - Treebank sintattico-semantica dell'italiano una batteria di criteri per discriminare i due casi (illustrati nella sezione 4.1.4.2.1): i casi che rimarranno incerti verranno annotati in modo sottospecificato, ovvero in termini di comp. mod (testa, dipendente) La relazione mod sussiste tra una testa e il suo modificatore, come illustrato dai seguenti casi: • modificazione aggettivale mod (bandiera, rosso) una bandiera rossa • modificazione avverbiale mod (camminare, lentamente) camminare lentamente • modificazione con sintagma preposizionale mod (camminare, calma) camminare con calma • apposizione mod (Picasso, pittore) Picasso il pittore • modificazione frasale mod (camminare, parlare) camminava parlando mod (mangiare, chiedere) ha mangiato i dolci dopo averlo chiesto mod (mangiare, chiedere) ha mangiato i dolci senza chiedere Confrontando gli esempi sopra, si può notare che la relazione mod copre modificatori frasali e non. arg (testa, dipendente) arg indica la relazione più generica intercorrente tra una testa ed un argomento. Oltre a casi in cui la sottospecificazione relativa alla funzione dell’argomento appaia opportuna, questa relazione viene normalmente usata per etichettare la relazione intercorrente tra una testa verbale e una completiva non soggetto (sia essa infinitiva o meno), come illustrato dai seguenti casi: arg (promettere, accettare) Giovanni ha promesso di accettare il lavoro arg (ordinare, partire) Giovanni ha ordinato a Maria di partire arg (dire, accettare) Giovanni ha detto che avrebbe accettato il lavoro arg (informare, andare) Giovanni ha informato Maria che sarebbe andato arg (promettere, andare) Giovanni ha promesso a Maria che sarebbe andato Questo tipo di codifica della funzione delle completive complemento parte dalla constatazione dell’ampia variabilità della funzione loro assegnata nell’ambito di diverse teorie grammaticali e di diversi analizzatori sintattici (caso che invece non si verifica nel caso di soggetti di tipo frasale che sono di più facile identificazione). Ad esempio, la completiva infinitivale della frase Maria ha deciso di partire è classificata come oggetto diretto nello schema di annotazione della Constraint Grammar (Karlsson et al. 1995) mentre è caratterizzata come complemento predicativo non saturato (xcomp) nella LFG così come nello schema di annotazione avanzato nel progetto europeo SPARKLE. L’analisi qui proposta, integrata con informazione codificata in termini di tratti distintivi (si veda il tratto D-41 Linea 1.1 - Treebank sintattico-semantica dell'italiano status discusso nella sezione 4.1.4.1.2), rimane così comparabile e compatibile con un ampio spettro di analisi senza perdita di informazione. pred (testa, dipendente) pred contrassegna la relazione che sussiste tra una testa verbale ed un complemento predicativo, sia esso un complemento predicativo del soggetto o un complemento predicativo dell’oggetto. pred (essere, intelligente) Giovanni è intelligente pred (considerare, genio) Giovanni considera Maria un genio Come verrà illustrato in dettaglio nella sezione 4.1.4.2.2, la distinzione tra predicativo del soggetto e predicativo dell’oggetto sarà ricavabile dalla rappresentazione complessiva della frase. Al livello della singola relazione ci limitiamo a marcare la natura predicativa del complemento rispetto alla testa verbale. non-pred (testa, dipendente) Nella gerarchia delle relazioni funzionali riportata sopra, non-pred è il nodo che raggruppa complementi non predicativi. Non si prevedono, ad oggi, casi in cui questa relazione sia usata per trattare casi ambigui che richiedano una sottospecificazione a questo livello. ogg_d (testa, dipendente) ogg_d è la relazione che sussiste tra un predicato e il suo oggetto diretto (sempre nonfrasale), cioè: ogg_d (leggere, libro) Giovanni ha letto molti libri ogg_i (testa, dipendente) ogg_i è la relazione tra un predicato e un oggetto indiretto, cioè il complemento che esprime l’entità che accoglie l’azione espressa dal verbo, come esemplificato dai casi che seguono: ogg_i (parlare, Maria) Giovanni parla a Maria ogg_i (dare, Maria) Giovanni diede a Maria il contratto ogg_i (dare, Maria) Giovanni diede il contratto a Maria ogg_i (parlare, le) Giovanni le parla Un test cruciale per l’identificazione di questa relazione pronominalizzazione dell’ogg_i con un dativo (si veda sotto). è costituito dalla obl (testa, dipendente) obl è la relazione tra un predicato e un complemento non frasale, non diretto e non indiretto, realizzato tipicamente in forma di sintagma preposizionale: obl (vivere, Roma) Giovanni vive a Roma obl (arrivare, aeroporto) Giovanni arrivò all’aeroporto obl (informare, arrivo) Giovanni informò Maria del suo arrivo obl (comportarsi, freddezza) Giovanni si comportò con freddezza D-42 Linea 1.1 - Treebank sintattico-semantica dell'italiano Come accennato sopra, la distinzione tra oggetto indiretto e complemento obliquo è supportata dal diverso tipo di pronominalizzazione dei due complementi. Si confrontino le seguenti coppie di frasi: 1. 2. Giovanni ha dato un libro a Maria Giovanni le ha dato un libro Giovanni aspirava a Maria *Giovanni le aspirava dove a Maria è un oggetto indiretto in 1. e in quanto tale è pronominalizzato con il dativo le, mentre è un complemento obliquo in 2., dove la pronominalizzazione con il pronome dativo risulta in una frase sintatticamente mal formata. La relazione obl è anche usata per marcare la dipendenza tra un verbo e complementi avverbiali la cui selezione è governata a livello lessicale; ad esempio: obl (comportarsi, bene) Giovanni si comportò bene 4.1.4.1.2 Tratti associati agli elementi della relazione Nello schema di annotazione proposto, un ruolo centrale è ricoperto dai tratti associati ad entrambi gli elementi della relazione. In ciò che segue i due insiemi di tratti sono discussi separatamente, prima i tratti del DIPENDENTE, poi quelli della TESTA, infine quelli comuni a entrambi. Si noti che i tratti sono aggiunti alla specificazione del DIPENDENTE e della TESTA, tra parentesi uncinate e preceduti da un punto. 4.1.4.1.2.1 • Tratti distintivi del DIPENDENTE intro(duttore) Il tratto intro(duttore) è usato in una varietà di costruzioni diverse per specificare l’elemento grammaticale che “introduce” la testa lessicale del dipendente; la natura dell’introduttore varia a seconda della relazione funzionale esistente tra la testa e il dipendente, ad esempio può trattarsi di preposizione nel caso di complementi non-frasali, oppure congiunzione nel caso di completive di modo finito. Ad esempio: ogg_i (dare, Maria.<intro=“a”>) dare a Maria comp (uccidere, Bruto.<intro=“da”>) fu ucciso da Bruto arg (dire, accettare.<intro=“che”>) Giovanni ha detto che accetterà il lavoro arg (decidere, lasciare.<intro=“di”>) Giovanni ha deciso di lasciare il lavoro mod (camminare, parlare.<intro=“mentre”>) camminava mentre parlava • caso Il tratto di caso del dipendente, che può essere utile a supporto dell’identificazione di una relazione funzionale: ogg_i (dare,gli.<caso=dativo>) dargli • status Il tratto status è associato a dipendenti di forma frasale ed è usato per discriminare tra soggetti e complementi frasali con la valenza soggetto saturata e quelli con soggetto controllato da dipendenze esterne. I possibili valori associati a questo tratto sono: D-43 Linea 1.1 - Treebank sintattico-semantica dell'italiano • aperto – marca la testa di un soggetto o complemento (sia esso argomento o modificatore) frasale il cui soggetto è controllato da una testa con la quale non esiste una esplicita e diretta relazione di dipendenza (questo implica, ad esempio, che la relazione non è marcata dall’accordo grammaticale): arg (decidere, partire.<status=aperto>) Giovanni decise di partire mod (aspettare, arrivare.<status=aperto>) essendo arrivati presto, abbiamo aspettato l’incontro sogg (richiedere, vincere.<status=aperto>) vincere l’America’s Cup richiede montagne di soldi • chiuso – marca un soggetto o complemento (sia esso argomento o modificatore) frasale il cui soggetto non è controllato da dipendenze esterne: arg (dire, partire.<status=chiuso, intro=“che”>) Giovanni disse che Maria sarebbe partita domani mod (mangiare, affamato.<status=chiuso, intro=“perché”>) ha mangiato il dolce perché era affamato sogg (essere, ingoiare.<intro=“che”, status=chiuso>) che i governi europei debbano silenziosamente ingoiarle non è giusto • modo Il tratto di modo del dipendente è usato, nel caso di soggetti e complementi frasali, per specificare il modo della testa verbale: mod (camminare, parlare.<modo=gerundio>) Camminava parlando mod (partire, finire.<modo=part_pass>) Finito il lavoro, Maria partì arg (decidere, partire.< modo=inf>) Giovanni decise di partire mod (aspettare, arrivare.< modo=gerundio >) essendo arrivati presto, abbiamo aspettato l’incontro sogg (richiedere, vincere.< modo=inf>) vincere l’America’s Cup richiede montagne di soldi Per quanto questo tipo di informazione è già incluso nell’input taggato morfo-sintatticamente, viene riportato in questa sede in quanto rilevante per la caratterizzazione della relazione di dipendenza. Per quanto riguarda l’annotazione vera e propria, nella fase iniziale della linea 1.2 verrà deciso se questo tratto riceverà una codifica indipendente da parte dell’annotatore oppure se verrà automaticamente ereditato ed eventualmente convertito dall’annotazione morfosintattica. • ruolo Il tratto di ruolo è usato per fornire una caratterizzazione semantica alla relazione di dipendenza, ovvero per rendere esplicito, quando necessario, il ruolo semantico del dipendente rispetto alla testa. Si ricorre a tale tratto quando l’informazione sintattico-funzionale non sia sufficiente a caratterizzare in modo univoco la relazione. Si prenda ad esempio il caso del complemento di agente in costruzioni passive: a livello di relazione la sua codifica è in termini di comp, ma da questa codifica (combinata con la diatesi della testa verbale) non è possibile risalire in modo certo all’interpretazione di complemento di agente, informazione che per certe applicazioni (ad esempio la traduzione automatica) è cruciale. Analoghe considerazioni valgono nel caso di complementi temporali, locativi e comparativi. Il tratto di ruolo può assumere i valori di agente, temporale, locativo, comparativo e viene assegnato per specializzare l’interpretazione della relazione funzionale, fornendo così elementi utili per l’interpretazione semantica della relazione in corso di annotazione: D-44 Linea 1.1 - Treebank sintattico-semantica dell'italiano comp (uccidere, Bruto.<intro=“da”,ruolo=agente>) fu ucciso da Bruto arg (partire, Roma.<intro=“da”,ruolo=locativo>) è partito da Roma mod (partire, ora.<intro=“da”,ruolo=temporale>) è partito da un’ora comp (migliore, insegnante.<intro=“di”,ruolo=compar>) è migliore dell’insegnante 4.1.4.1.2.2 • Tratti distintivi della TESTA diat(esi) Il tratto diat specifica la diatesi di una testa verbale. Suoi possibili valori sono: attivo, passivo, medio. sogg (assumere.<diat=attivo>, Microsoft) La Microsoft ha assunto Paolo sogg (assumere.<diat=passivo>, Paolo) Paolo fu assunto dalla Microsoft sogg (vendere.<diat=medio>, casa) Questa casa si vende bene • pers(ona) pers specifica la persona di una testa verbale: sogg (mangiare.<pers=3>, Mario) Mario mangia una pizza • num(ero) num specifica il numero di una testa verbale: sogg (mangiare.<num=sing>, Mario) Mario mangia una pizza • gen(ere) gen specifica, ove rilevante (ovvero con verbi con diatesi passiva o media, oppure con tempi composti), il genere di una testa verbale: sogg (arrivare.<gen=fem>, Maria) Maria è arrivata Per quanto l’informazione relativa alla persona, genere e numero è già codificata nell’input taggato morfo-sintatticamente, questi tratti sono discussi in questa sede in quanto rilevanti per una completa caratterizzazione della relazione di dipendenza. Per quanto riguarda l’annotazione vera e propria, nella fase iniziale della linea 1.2 verrà deciso se questi tratti riceveranno una codifica indipendente da parte dell’annotatore oppure se verranno automaticamente ereditati ed eventualmente convertiti dal testo morfo-sintatticamente annotato. 4.1.4.1.2.3 Tratti distintivi della TESTA e del DIPENDENTE Per quanto riguarda i nomi, sia nel ruolo di testa sia in quello di dipendente, si è decisa la codifica dei seguenti tratti: • QUANT(ificazione): il cui valore è costituito da un quantificatore ogg_d (vedere, gatto.<quant=“molto”>) ho visto molti gatti • CARD(inalità): il cui valore è costituito da un numero D-45 Linea 1.1 - Treebank sintattico-semantica dell'italiano ogg_d (vedere, gatto.<card=“due”>) ho visto due gatti • DEF(initezza): i cui possibili valori sono costituiti da +, -, e 0 ogg_d (vedere, gatto.<def=+>) ho visto il gatto ogg_d (vedere, gatto.<def=->) ho visto un gatto ogg_d (vedere, gatto.<def=0>) ho visto gatti • AUX e PERIFRA Per quanto riguarda i verbi, sia nel ruolo di testa sia in quello di dipendente, si è decisa la codifica dei tratti aux e perifra per la descrizione di alcune costruzioni verbali perifrastiche. Sono codificate in modo sintetico (ovvero in termini di tratti associati ad un’unica testa lessicale) le costruzioni perifrastiche con i verbi essere e avere, così come con andare, venire, potere, volere, dovere e stare (per la tipologia di costruzioni coperte si rinvia alla sezione 4.1.3.4.6). Aux viene usato per la descrizione di tempi composti con i verbi ausiliari essere e avere; a perifra si ricorre negli altri casi, ovvero essere nella costruzione passiva, e tutti gli altri verbi modali e aspettuali. Ad esempio: ogg_d (vedere.<aux=“avere”>, gatto) ho visto i gatti sogg (vedere.<perifra=“essere”>, gatto) sono stati visti molti gatti mod (arrivare.<perifra=“dovere”>, domani) devono arrivare domani 4.1.4.1.2.4 Tratti distintivi della TESTA e del DIPENDENTE: riepilogo Si noti che la tipologia di tratti fornita nelle sezioni che precedono è suscettibile di ampliamenti: la tipologia discussa finora si riferisce ai tratti qualificanti la definizione delle relazioni di dipendenza. Lo stesso vale per l’insieme dei possibili valori associati ad ogni tratto che possono essere integrati con nuovi valori. Al fine di rendere l’annotazione più leggibile, negli esempi forniti sopra i tratti sono stati specificati solo quando necessari alla comprensione della relazione. Ovviamente un’annotazione completa dovrà includere, per ogni elemento della relazione, l’insieme completo dei tratti rilevanti nel constesto specifico. Questioni aperte che rimangono da valutare nella fase di verifica e convalida delle specifiche riguardano: 1. la definizione, per ogni singolo tratto, di valori di default; 2. l’obbligatorietà/opzionalità della specificazione di ogni singolo tratto: sarà da valutare se sia opportuno avere delle specificazioni opzionali nell’ambito di uno schema di annotazione di una Treebank e, in caso positivo, a quali porzioni della Treebank dovranno associarsi; 3. la relazione tra l’annotazione morfo-sintattica (già inclusa nell’input) e quella funzionale per quanto riguarda i tratti definiti come rilevanti per il livello funzionale ma già presenti nell’annotazione morfo-sintattica (ad esempio i tratti di genere e numero). D-46 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4.1.4.1.3 Altri tipi di relazioni Oltre alle relazioni di dipendenza descritte sopra, lo schema proposto include anche relazioni di altro tipo, ovvero: • relazioni simmetriche di congiunzione e disgiunzione per il trattamento della coordinazione; • relazioni simmetriche di coreferenza per il trattamento di frasi relative ed interrogative. 4.1.4.1.3.1 Annotazione di costruzioni coordinate La coordinazione è trattata mediante relazioni simmetriche di congiunzione (cong) e di disgiunzione (disg). Si consideri, ad esempio, la frase Giovanni e Maria sono arrivati, contenente un soggetto congiunto. Alla sua rappresentazione in termini di dipendenze riportata sotto: sogg (arrivare, Giovanni) sogg (arrivare, Maria) si aggiunge la specificazione della relazione di congiunzione che segue: cong (Giovanni, Maria) La rappresentazione della frase Giovanni o Maria sono arrivati non differirà a livello di relazioni di dipendenza; l’unica differenza riguarda la relazione tra Giovanni e Maria che in questo caso è di disgiunzione: disg (Giovanni, Maria) In fase di verifica e convalida delle specifiche della Treebank dovrà essere identificata la tipologia completa di relazioni per il trattamento della coordinazione, per coprire casi più complessi come sia … sia, né … né, così come le congiunzioni avversative. Inoltre, sempre nella stessa fase, verrà dettagliato il trattamento della coordinazione di più di due elementi che, coerentemente con i principi basilari dello schema proposto, sarà attuata mediante il ricorso a relazioni binarie come esemplificato dalla rappresentazione del sintagma nominale l’aumento, l’utile e i contributi codificato di seguito: cong (aumento, utile) cong (utile, contributo). 4.1.4.1.3.2 Annotazione di relazioni di coreferenza In questa sezione, trattiamo l’annotazione di relazioni di coreferenza, che sarà circoscritta a relazioni di coreferenza di chiara natura sintattica ed interne alla singola frase. Questa restrizione consegue naturalmente dalla natura del testo da annotare (lingua scritta) ed dal livello di annotazione in questione (sintattico-funzionale): nella Treebank di SI-TAL, l’annotazione di relazioni di coreferenza sarà circoscritta a legami interni alla singola frase; verrà invece fatta astrazione da relazioni anaforiche in quanto di diretta pertinenza della semantica. Anche se relazioni di coreferenza vanno al di là della sintassi di superficie, riteniamo che la loro annotazione nell’ambito della Treebank di SI-TAL sia importante in quanto la presenza di questo tipo di informazione renderebbe la risorsa usabile in modo più efficace in applicazioni quali, ad esempio, recupero ed acquisizione di informazioni. D-47 Linea 1.1 - Treebank sintattico-semantica dell'italiano In particolare, l’annotazione riguarderà il legame tra: • il pronome relativo ed il suo antecedente; • tra il clitico e l’elemento dislocato in costruzioni a dislocazione con ripresa pronominale. Consideriamo ad esempio una frase come il ragazzo che Maria ha incontrato ieri è Giovanni. La frase relativa che Maria ha incontrato ieri è annotata come segue: sogg (incontrare, Maria) ogg_d (incontrare, che) mod (incontrare, ieri) Le rimanenti relazioni di dipendenza relative alla principale sono riportate di seguito: sogg (essere, ragazzo) pred (essere, Giovanni) sogg (ragazzo, Giovanni) Un altro importante elemento di informazione linguistica è la relazione tra il pronome relativo che ed il suo antecedente ragazzo che non viene catturata dall’annotazione riportata sopra. È questa relazione che permette una interpretazione di ragazzo come l’inteso oggetto diretto di ha incontrato. Per annotare, in maniera esplicita, la relazione che sussiste tra che e ragazzo introduciamo qui di seguito una relazione binaria ad hoc chiamata “legame”, il cui primo argomento è costituito dall’elemento legato (il pronome relativo nel nostro caso) ed il secondo dal nome che lega o antecedente: legame (che, ragazzo) Si noti che l’intesa relazione funzionale tra incontrare e ragazzo può di fatto essere inferita dalla relazione di legame che c’è tra che e ragazzo. Passando al caso della ripresa pronominale in costruzioni a dislocazione, si considerino i seguenti esempi il dolce Maria lo porta domani e Maria lo porta domani, il dolce la cui rappresentazione in termini funzionali è riportata di seguito: sogg (portare, Maria) ogg_d (portare, lo) mod (portare, domani) Per annotare la relazione che sussiste tra lo e dolce si ricorre alla stessa relazione di legame, il cui primo argomento è costituito dall’elemento legato (il pronome clitico nel nostro caso) ed il secondo dall’elemento dislocato: legame (lo, dolce) Anche in questo caso l’intesa relazione funzionale tra portare e dolce può di fatto essere inferita dalla relazione di legame che c’è tra lo e dolce. 4.1.4.2 Criteri di annotazione per il livello funzionale Dopo aver illustrato a grandi linee lo schema di annotazione per il livello funzionale, segue una specifica dei criteri di applicazione di questo schema al testo, ed in particolare a costruzioni sintattiche che possono porre particolari problemi di annotazione. Questa sezione si propone dunque D-48 Linea 1.1 - Treebank sintattico-semantica dell'italiano come guida all’applicazione dello schema proposto, fornendo criteri di identificazione delle relazioni illustrate sopra e illustrando la rappresentazione di fenomeni sintattici lessicalmente governati (ad esempio schemi di sottocategorizzazione associati a classi di nomi, verbi e aggettivi) così come di costruzioni complesse che rispondono a principi generali della grammatica dell’italiano (ad esempio, costruzioni con frasi relative ed interrogative, fenomeni di ellissi, relazioni di coreferenza, etc.). Innanzitutto ci soffermeremo sulla distinzione tra argomenti e modificatori, fornendo criteri operativi ad uso dell’annotatore (sezione 4.1.4.2.1). Procederemo con una lista di annotazioni di riferimento, articolata come segue: • costruzioni di base, con annotazione delle relazioni di dipendenza e coordinazione (sezione 4.1.4.2.2); • costruzioni ellittiche (sezione 4.1.4.2.3); • annotazione di relazioni di coreferenza (sezione 4.1.4.2.4). La lista di annotazioni di riferimento è ovviamente incompleta; il suo fine, al momento, è quello di dare un’idea di come lo schema proposto possa trovare una sua applicazione su testi reali. Le frasi annotate sono state estratte, nella maggior parte dei casi, dal corpus che verrà usato per la Treebank. Nella fase di verifica e di addestramento all’annotazione (ovvero nei primi mesi della linea 1.2) i criteri di annotazione verranno dettagliati ulteriormente in modo da fornire all’annotatore una casistica più dettagliata possibile che possa servire da guida affidabile e che riduca al minimo il margine di arbitrarietà dell’annotazione. 4.1.4.2.1 La distinzione tra argomenti e modificatori La distinzione tra argomenti e modificatori è gestibile senza particolari difficoltà nell’ambito di analizzatori sintattici sulla base di un lessico di riferimento contenente informazione sulla sottocategorizzazione dei predicati. Ma l’annotazione di una Treebank non prevede necessariamente il ricorso ad un lessico di riferimento. Dietro a questa scelta stanno motivi di varia natura: 1) le risorse lessicali esistenti sono insufficienti per applicazioni su scala reale per copertura del lessico sia a livello di lemmi che di costruzioni sintattiche associate ad essi; 2) una Treebank è tipicamente usata anche per acquisire informazione di questo tipo, per cui una proiezione preventiva delle interpretazioni possibili può interferire con i risultati attesi. La distinzione va dunque demandata all’annotatore del testo, sulla base della sua intuizione. La difficoltà di questo compito è ripetutamente segnalata nella letteratura sulle Treebank: Marcus et al. (1994) sottolineano la difficoltà di questa distinzione quando applicata ad un’ampia varietà di verbi e riferita all’uso reale della lingua. Per guidare l’annotatore nell’interpretazione dei casi incerti, forniamo qui di seguito una batteria di criteri ed euristiche basate su test di natura sintattica tratti dalla letteratura corrente in proposito (Somers 1984, Meyers et al. 1994): • omissibilità/obbligatorietà - se un costituente nel contesto locale di un verbo non può essere omesso, allora si tratta di un argomento: ad esempio, in mettere il libro sulla tavola sia libro che tavola non possono essere omessi (*mettere il libro, *mettere sulla tavola). Si D-49 Linea 1.1 - Treebank sintattico-semantica dell'italiano tratta di un criterio affidabile, ma non può essere usato per identificare i modificatori dato che argomenti di molti verbi possono essere tranquillamente omessi (si veda ad esempio il caso di mangiare); • “retroformazioni” - un costituente nel contesto locale di un verbo è un modificatore se può essere riformulato come una frase subordinata: è morto a Dresda, è morto quando era a Dresda; vive a Parigi, *vive quando è a Parigi. Si tratta di un criterio di difficile applicazione dato che molti modificatori non possono essere facilmente riformulati in termini di una frase subordinata (i bambini giocano oggi, *i bambini giocano quando è oggi); • partecipazione ad alternanze di diatesi - nel caso di verbi con alternanza di diatesi, i costituenti che alternano tra diverse realizzazioni superficiali nelle diverse sono da considerarsi argomenti. Ad esempio, considerate le frasi ha spalmato il burro sul pane e ha spalmato il pane con il burro sia burro che pane appaiono essere argomenti di spalmare. Si tratta di un criterio utile e sufficientemente affidabile a condizione che l’alternanza sia stata identificata in modo appropriato; • “fare lo stesso” test - quando fare lo stesso è usato nella coordinazione di frasi come una proforma del gruppo verbale ripetuto, solo i modificatori possono essere esclusi dalla sostituzione. Ad esempio, si confrontino: Maria ha incontrato Giovanni a Parigi, e Pietro ha fatto lo stesso a Milano e *Maria ha messo il libro sulla tavola e Giovanni ha fatto lo stesso sulla sedia. Il test è affidabile ma solo per una classe di predicati dalla quale rimangono fuori gli stativi e in ogni caso tutti i predicati con i quali la sostituzione con la proforma farlo è inaccettabile (*Maria è intelligente e Carlo fa lo stesso, ??Maria conosce la risposta e Carlo fa lo stesso); • anteposizione - i costituenti con funzione di modificatori possono essere anteposti liberamente, mentre gli argomenti possono essere anteposti solo dando luogo a costruzioni fortemente marcate. Ad esempio, la scorsa settimana ho comprato un libro vs sul pavimento ho messo il libro. Si tratta di criterio affidabile, senza particolari controindicazioni. Non è detto che i vari criteri convergano sulla stessa interpretazione. Quando la stessa interpretazione è supportata da un numero significativo di test tra quelli elencati sopra, si raccomanda all’annotatore di adottare l’interpretazione per la quale ha raccolto maggiore evidenza. Per i casi che rimangono incerti si raccomanda si ricorrere alla sottospecificazione dell’analisi, che nel caso specifico corrisponde alla relazione comp: si può sempre ritornare a rivedere analisi sottospecificate mentre un’analisi completamente specificata ma erroneamente attribuita diventa più difficilmente recuperabile e dunque correggibile. 4.1.4.2.2 Costruzioni di base 4.1.4.2.2.1 Costruzioni con verbo intransitivo Gli uomini parlano e sognano sempre di un miglioramento sogg (parlare, uomo) sogg (sognare, uomo) arg (parlare, miglioramento.<intro=“di”>) D-50 Linea 1.1 - Treebank sintattico-semantica dell'italiano arg (sognare, miglioramento.<intro=“di”>) mod (parlare, sempre) mod (sognare, sempre) cong (parlare, sognare) 4.1.4.2.2.2 Costruzioni con verbo intransitivo inaccusativo Gli studenti erano giunti nella zona alla spicciolata sogg (giungere, studente) arg (giungere, zona.<intro=“in”>) mod (giungere, alla_spicciolata) Slitta la riunione, prevista per oggi, della cosiddetta commissione Sangalli sogg (slittare, riunione) mod (riunione, previsto) comp (previsto, oggi.<intro=“per”>) comp (riunione, commissione.<intro=“di”>) mod (commissione, cosiddetto) mod (commissione, Sangalli) 4.1.4.2.2.3 Costruzioni con verbo transitivo con oggetto diretto Carnevale ha sbagliato un gol quasi fatto sogg (sbagliare, Carnevale) ogg_d (sbagliare, gol) mod (gol, fatto) mod (fatto, quasi) 4.1.4.2.2.4 Costruzioni con verbo transitivo con oggetto indiretto Gullit ha dichiarato guerra alla stampa sportiva sogg (dichiarare, Gullit) ogg_d (dichiarare, guerra) ogg_i (dichiarare, stampa.<intro=“a”>) mod (stampa, sportivo) 4.1.4.2.2.5 Costruzioni con verbo transitivo con complemento obliquo La Bimex importa prodotti dalla Union Carbide sogg (importare, Bimex) ogg_d (importare, prodotto) obl (importare, Union _Carbide.<intro=“da”>) 4.1.4.2.2.6 Costruzioni passive D-51 Linea 1.1 - Treebank sintattico-semantica dell'italiano I due malavitosi sono stati spesso segnalati in diverse occasioni sogg (segnalare.<diat=passivo>, malavitoso) mod (malavitoso, due) mod (segnalare, spesso) mod (segnalare, occasione.<intro=“in”>) mod (occasione, diverso) L’accordo è stato firmato ieri al Pentagono dal ministro americano sogg (firmare.<diat=passivo>, accordo) mod (firmare, ieri) mod (firmare, Pentagono.<intro=“a”>) comp (firmare, ministro.<intro=“da”, ruolo=agente>) mod (ministro, americano) Anche se l’annotazione a livello di relazioni riguarda la sintassi di superficie, la rappresentazione riportata sopra contiene anche indicazione esplicita dell’agente (che viene fornita quando esplicitamente indicato nella realizzazione superficiale della frase): questa informazione è convogliata dal tratto ruolo associato all’elemento dipendente della relazione comp, il cui valore specifica che si tratta dell’agente del firmare. 4.1.4.2.2.7 Costruzioni con completive sottocategorizzate Un doppio cordone di poliziotti continuava a circondare tutta la piazza sogg (continuare, cordone) mod (cordone, doppio) comp (cordone, poliziotti.<intro=“di”>) arg (continuare, circondare.<intro=“a”, status=aperto>) sogg (circondare, cordone) ogg_d (circondare, piazza) mod (piazza, tutto) Un uomo anziano cercava di spiegare che simili azioni non giovano sogg (cercare, uomo) mod (uomo, anziano) arg (cercare, spiegare.<intro=“di”, status=aperto>) sogg (spiegare, uomo) arg (spiegare, giovare.<intro=“che”, status=chiuso>) sogg (giovare, azione) mod (azione, simile) mod (giovare, non) Luigi ha visto Paolo uscire dal casolare sogg (vedere, Luigi) ogg_d (vedere, Paolo) arg (vedere, uscire.<status=aperto>) sogg (uscire, Paolo) D-52 Linea 1.1 - Treebank sintattico-semantica dell'italiano arg (uscire, casolare.<intro=“da”>) Giovanni ha visto Maria correre sogg (vedere, Giovanni) ogg_d (vedere, Maria) arg (vedere, correre.<status=aperto>) sogg (correre, Maria) Che i governi europei debbano silenziosamente ingoiarle non è giusto sogg (essere, ingoiare.<intro=“che”, status=chiuso, perifra=“dovere”>) pred (essere, giusto) mod (essere, non) sogg (ingoiare, governo) mod (governo, europeo) ogg_d (ingoiare, le) mod (ingoiare, silenziosamente) sogg (ingoiare, giusto) 4.1.4.2.2.8 Costruzioni con modificazione frasale (gerundive, participiali, infinitive) Dobbiamo vincere domenica per interrompere questo brutto momento sogg (vincere<perifra=“dovere”>, .<pers=1,num=plur> ) mod (vincere, domenica) mod (vincere, interrompere.<intro=“per”,status=aperto>) ogg_d (interrompere, momento) mod (momento, questo) mod (momento, brutto) Il Ministero della Difesa esce allo scoperto per smentire infondate speculazioni sogg (uscire, Ministero) mod (ministero, Difesa.<intro=“di”>) mod (uscire, allo_scoperto) mod (uscire, smentire.<intro=“per”,status=aperto>) sogg (smentire, Ministero) ogg_d (smentire, speculazione) mod (speculazione, infondato) Gli evasori hanno aggredito gli agenti di custodia sparando all’impazzata sogg (aggredire, evasore) ogg_d (aggredire, agente) mod (agente, custodia.<intro=“di”>) mod (aggredire, sparare.<modo=gerundio,status=aperto>) mod (sparare, all’_impazzata) 4.1.4.2.2.9 Costruzioni con complementi predicativi del soggetto e dell’oggetto D-53 Linea 1.1 - Treebank sintattico-semantica dell'italiano Maria è diventata una bella ragazza sogg (diventare, Maria) pred (diventare, ragazza) mod (ragazza, bello) sogg (ragazza, Maria) Maria sembra infelice sogg (sembrare, Maria) pred (sembrare, infelice) sogg (infelice, Maria) Giovanni considera Maria una bella ragazza sogg (considerare, Giovanni) ogg_d (considerare, Maria) pred (considerare, ragazza) mod (ragazza, bello) sogg (ragazza, Maria) Lui considera il loro strumento di ricerca un modo di fare soldi rapidamente sogg (considerare, lui) ogg_d (considerare, strumento) mod (strumento, loro) mod (strumento, ricerca.<intro=“di”>) pred (considerare, modo) arg (modo, fare.<intro=“di”,status=aperto>) ogg_d (fare, soldo) mod (fare, rapidamente) sogg (modo, strumento) Brancati considerava i siciliani il popolo più intelligente d’Europa sogg (considerare, Brancati) ogg_d (considerare, siciliano) pred (considerare, popolo) mod (popolo, intelligente) mod (intelligente, più) comp (intelligente, Europa.<intro=“di”>) sogg (popolo, siciliano) Come si può notare dall’analisi e dal confronto delle frasi annotate riportate sopra, a livello della relazione assegnata – pred - non si fa distinzione tra complemento predicativo del soggetto e dell’oggetto. Questa informazione è comunque implicita nell’annotazione globale della frase: quando dalla testa verbale del complemento predicativo dipenda anche un oggetto diretto (ogg_d), la relazione pred è da interpretarsi come predicativa dell’oggetto; in caso contrario, il complemento predicativo si riferisce al soggetto. Inoltre, da un’analisi attenta dell’annotazione proposta dovrebbe risultare evidente la sua compatibilità sia con schemi che marcano la dipendenza tra il complemento predicativo e la testa D-54 Linea 1.1 - Treebank sintattico-semantica dell'italiano verbale, sia con interpretazioni che guardano al complemento predicativo in termini di frase ridotta governata dalla testa verbale. 4.1.4.2.2.10 Complementazione di nomi e aggettivi Eriksson non ha idea della piega inferta alla nostra penisola sogg (avere, Eriksson) ogg_d (avere, idea) mod (avere, non) comp (idea, piega.<intro=“di”>) mod (piega, inferto) arg (inferto, penisola.<intro=“a”>) mod (penisola, nostro) Viola deve fare esperienza sui pedatori a disposizione e sui tecnici sogg (fare.<perifra=“dovere”>, Viola) ogg_d (fare, esperienza) arg (esperienza, pedatore.<intro=“su”>) mod (pedatore, a_disposizione ) arg (esperienza, tecnico.<intro=“su”>) cong (pedatore, tecnico) Il Parlamento incomincerà un dibattito sulla partecipazione al programma sogg (incominciare, Parlamento) ogg_d (incominciare, dibattito) comp (dibattito, partecipazione.<intro=“su”>) arg (partecipazione, programma.<intro=“a”>) Fonti dell’amministrazione hanno auspicato un’intesa con il governo sogg (auspicare, fonte) mod (fonte, amministrazione.<intro=“di”>) ogg_d (auspicare, intesa) arg (intesa, governo.<intro=“con”>) La società sarà integrata con il settore cucine della Candy sogg (integrare.<diat=passivo>, società) obl (integrare, settore.<intro=“con”>) mod (settore, cucina) comp (settore, Candy.<intro=“di”>) La credenza che la Terra sia rotonda è radicata sogg (essere2, credenza) pred (essere2, radicato) sogg (radicato, credenza) D-55 Linea 1.1 - Treebank sintattico-semantica dell'italiano arg (credenza, essere1.<status=chiuso, intro=“che”>) sogg (essere1, Terra) pred (essere1, rotondo) sogg (rotondo, Terra) 4.1.4.2.2.11 Negazione Io non mangio panini con la mortadella sogg (mangiare, io) mod (mangiare, non) ogg_d (mangiare, panino) mod (panino, mortadella.<intro=“con”>) I bambini non devono guardare film violenti sogg (guardare.<perifra=“dovere”>, bambino) mod (guardare, non) ogg_d (guardare, film) mod (film, violento) 4.1.4.2.2.12 Costruzioni esistenziali C’è una vespa nella mia camera mod (essere, ci) sogg (essere, vespa) mod (essere, camera.<intro=“in”>) mod (camera, mia) Paolo ha visto che c’era Maria con Luigi sogg (vedere, Paolo) arg (vedere, essere.<intro=“che”, status=chiuso>) mod (essere, ci) sogg (essere, Maria) mod (essere, Luigi.<intro=“con”>) 4.1.4.2.2.13 • Costruzioni coordinate Coordinazione di soggetti I superstiti e i parenti delle vittime hanno espresso malumore per la scarcerazione sogg (esprimere, superstite) sogg (esprimere, parente) cong (superstite, parente) comp (parente, vittima.<intro=“di”>) ogg_d (esprimere, malumore) mod (malumore, scarcerazione.<intro=“per”>) D-56 Linea 1.1 - Treebank sintattico-semantica dell'italiano • Frasi composte con proposizioni coordinate La donna sbrigava le faccende di casa e doveva avere familiarità con i cani sogg (sbrigare, donna) ogg_d (sbrigare, faccenda) mod (faccenda, casa.<intro=“di”>) sogg (avere.<perifra=“dovere”>, donna) ogg_d (avere.<perifra=“dovere”>, familiarità) comp (familiarità, cane.<intro=“con”>) cong (sbrigare, avere.<perifra=“dovere”>) • Coordinazione aggettivale Il fatturato complessivo delle società controllate e collegate è elevato sogg (essere, fatturato) mod (fatturato, complessivo) mod (fatturato, società.<intro=“di”>) mod (società, controllato) mod (società, collegato) cong (controllato, collegato) pred (essere, elevato) sogg (elevato, fatturato) • Coordinazione di complementi Tale incremento è dovuto all’aumento di capitale, all’utile d’esercizio ed ai contributi per l’editoria sogg (essere, incremento) mod (incremento, tale) pred (essere, dovuto) sogg (dovuto, incremento) arg (dovuto, aumento.<intro=“a”>) comp (aumento, capitale.<intro=“di”>) arg (dovuto, utile.<intro=“a”>) mod (utile, esercizio.<intro=“di”>) arg (dovuto, contributo.<intro=“a”>) comp (contributo, editoria.<intro=“per”>) cong (aumento, utile) cong (utile, contributo) Il mundial di calcio termina con la finalissima di domenica sera e con i risultati conosciuti sogg (terminare, mundial) mod (mundial, calcio.<intro=“di”>) comp (terminare, finalissima.<intro=“con”>) mod (finalissima, domenica.<intro=“di”>) mod (domenica, sera) comp (terminare, risultato.<intro=“con”>) mod (risultato, conosciuto) cong (finalissima, risultato) D-57 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4.1.4.2.2.14 Condivisione di complementi in costruzioni coordinate L’assemblea di ieri ha confermato Eugenio Scalfari ed ha deliberato di aumentare il numero dei consiglieri sogg (confermare, assemblea) mod (assemblea, ieri.<intro=“di”>) ogg_d (confermare, Eugenio_Scalfari) sogg (deliberare, assemblea) arg (deliberare, aumentare.<status=aperto, intro=“di”>) sogg (aumentare, assemblea) ogg_d (aumentare, numero) arg (numero, consigliere.<intro=“di”>) cong (confermare, deliberare) Questo esempio illustra la strategia che intendiamo adottare nell’ambito della Treebank di SITAL per l’annotazione di argomenti o modificatori condivisi da più di una testa in strutture coordinate. Si può notare che l’annotazione di complementi condivisi non costituisce particolare problema nell’ambito di uno schema di rappresentazione funzionale, al contrario dei problemi invece tipicamente posti da complementi condivisi a livello di rappresentazione a costituenti. 4.1.4.2.3 Costruzioni ellittiche Questa sezione illustra la strategia di annotazione di costruzioni ellittiche messa a punto per la Treebank di SI-TAL. Negli esempi riportati finora, le relazioni funzionali riguardano istanze di parole in un testo. Le costruzioni ellittiche, d’altra parte, sembra che richiedano che le relazioni funzionali debbano essere stabilite tra un’istanza di una parola ed un tipo astratto, definito mediante tratti o mediante un tipo lessicale. 4.1.4.2.3.1 Ellissi del soggetto Ho visto Maria uscire di casa sogg (vedere, .<pers=1, num=sing> ) ogg_d (vedere, Maria) arg (vedere, uscire.<status=aperto>) sogg (uscire, Maria) arg (uscire, casa.<intro=“di”>) Abbiamo visto l’opera nella piazza del paese sogg (vedere, .<pers=1, num=plur> ) ogg_d (vedere, opera) mod (vedere, piazza.<intro=“in”>) mod (piazza, paese.<intro=“di”>) 4.1.4.2.3.2 Ellissi del verbo Si consideri l’esempio che segue: Gli esempi sono scritti in corsivo, le glosse in stampatello D-58 Linea 1.1 - Treebank sintattico-semantica dell'italiano sogg (scrivere.<diat=passivo>, esempio) mod (scrivere, corsivo.<intro=“in”>) sogg (SCRIVERE.<diat=passivo>, glossa) mod (SCRIVERE, stampatello.<intro=“in”>) dove glossa e stampatello sono rispettivamente soggetto e modificatore di un tipo astratto che non ha alcuna istanziazione nel testo, corrispondente al lemma scritto in maiuscolo, ovvero SCRIVERE. Seguono altri esempi di costruzioni ellittiche e relativa annotazione secondo lo schema proposto. La ballata di Mackie Messer è cantata da Sting, Jenny dei pirati dalla Nannini sogg (cantare.<diat=passivo>, ballata) mod (ballata, Mackie_Messer.<intro=“di”>) comp (cantare, Sting.<intro=“da”,ruolo=agente>) sogg (CANTARE.<diat=passivo>, Jenny) mod (Jenny, pirata.<intro=“di”>) comp (CANTARE, Nannini.<intro=“da”,ruolo=agente>) Molti diranno che è il trionfo della marcatura a uomo, io no sogg (dire, molto) arg (dire, essere.<intro=“che”, status=chiuso>) pred (essere, trionfo) comp (trionfo, marcatura.<intro=“di”>) mod (marcatura, a_uomo) sogg (DIRE, io) comp (DIRE, no) Gli esempi riportati fino a questo punto presentano casi di ellissi in strutture coordinate, dove nel secondo congiunto si osserva l’omissione del verbo. Nell’annotazione proposta le relazioni di dipendenza del secondo congiunto fanno riferimento ad una testa verbale astratta, ricostruita a partire dall’analisi del primo congiunto. Ma non è sempre il caso che il materiale ellittico sia ricostruibile dall’analisi della frase. Si consideri ad esempio il caso seguente, che presenta l’ellissi della copula: Queste le principali raccomandazioni rivolte all’Italia dalla commissione europea sogg ( , questo) pred ( , raccomandazione) mod (raccomandazione, principale) mod (raccomandazione, rivolgere.<modo=part_pass,diatesi=passivo>) ogg_i (rivolgere, Italia.<intro=“a”>) comp (rivolgere, commissione.<intro=“da”,ruolo=agente>) mod (commissione, europeo) L’annotazione riportata sopra contiene due relazioni di dipendenza la cui testa non è specificata; bisognerà valutare se per casi come questo sia legittimo ricostruire una testa astratta – ESSERE – oppure se sia opportuno lasciarla non specificata (in quest’ultimo caso la relazione non riguarda più due elementi lessicali). D-59 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4.1.4.2.4 Annotazione di relazioni di coreferenza L’annotazione delle relazioni di coreferenza è esemplificata mediante il caso delle frasi relative: Prost lascia la McLaren per una Ferrari che non cammina sogg (lasciare, Prost) ogg_d (lasciare, McLaren) obl (lasciare, Ferrari.<intro=“per”>) sogg (camminare, che) mod (camminare, non) legame (che, Ferrari) Il presidente ha indicato le imprese italiane che producono e importano energia sogg (indicare, presidente) ogg_d (indicare, impresa) mod (impresa, italiano) sogg (produrre, che) sogg (importare, che) ogg_d (produrre, energia) ogg_d (importare, energia) cong (produrre, importare) legame (che, impresa) 4.2 Interrelazioni tra i due livelli di annotazione sintattica Una volta che gli schemi di annotazione per i due livelli sintattici sono stati definiti nei dettagli è possibile renderne esplicite le interrelazioni in vista a) di una correzione dei materiali annotati della Treebank e b) della creazione di “viste” sui materiali che combinino l’informazione funzionale con quella relativa ai costituenti. Infatti, i due livelli di annotazione sintattica della Treebank di SI-TAL possono essere sia visti come indipendenti, sia come complementari e dunque combinabili in una rappresentazione unica. Si consideri, come esempio, la proiezione dell’informazione funzionale sull’annotazione a costituenti per la seguente frase: Giovanni sembra arrivare domani la cui rappresentazione in termini di costituenti è la seguente: f-[ sn-[npro-Giovanni], ibar-[vc-sembra], sv2-[ viin-arrivare, savv-[avv-domani]]] e la cui rappresentazione funzionale è: sogg (sembrare, Giovanni) arg (sembrare, arrivare.<status=aperto>) mod (arrivare, domani) [sogg (arrivare, Giovanni)] D-60 Linea 1.1 - Treebank sintattico-semantica dell'italiano dove la relazione di soggetto tra arrivare e Giovanni è riportata tra parentesi quadre in quanto esclusa da questa proiezione tra livelli dato che non trova una controparte al livello della rappresentazione a costituenti. Il risultato della proiezione dell’informazione funzionale sull’annotazione a costituenti è riportato di seguito: f-[ sn-sogg[npro-Giovanni], ibar-[vc-sembra], sv2-arg[ viin-arrivare, savv-mod[avv-domani]]] dove ogni categoria sintattica è suffissata, ove possibile, con una marca di tipo funzionale. Questa operazione di proiezione può essere un valido aiuto per verificare sia la coerenza dell’annotazione tra i due livelli di annotazione sintattica della Treebank di SI-TAL sia per testare la coerenza interna al singolo livello. Quindi le specifiche relative alle interrelazioni tra i due livelli di annotazione sintattica sono da vedersi come propedeutiche alla fase di validazione dei materiali, in particolare alla verifica della coerenza interna al singolo livello e tra i due livelli di annotazione (quest’ultima cruciale nella prospettiva della creazione di “viste” combinate sul materiali annotati come esemplificato sopra). Queste specifiche verranno dettagliate nell’ambito della linea 1.2 del progetto. 4.3 Specifiche di annotazione per il livello semantico-lessicale L’annotazione semantico-lessicale di un testo ha per scopo l’assegnazione a ciascuna parola (semanticamente) piena del testo stesso di un senso presente nella risorsa lessicale di riferimento che nel nostro caso è ItalWordNet (IWN). Ciò presuppone l’interpretazione del senso della parola a partire dal contesto o, in altri termini, l’identificazione di quale senso tra quelli riportati per un lemma in IWN è istanziato in un dato contesto del corpus. Nella Treebank di SI-TAL l’annotazione semantico-lessicale consiste nell’assegnazione a tutti i verbi, nomi e aggettivi di: i. un numero di senso presente in IWN (o una sequenza congiunta o disgiunta di sensi quando più sensi di IWN possono essere applicati congiuntamente o disgiuntamente alla stessa occorrenza); ii. tratti, espressi in termini di coppie attributo/valore, di due tipi: • di tipo semantico, che convogliano informazioni semantico-lessicali (es. per contraddistinguere gli idiomi, le metafore, ecc.); • ad uso dell’annotatore, che convogliano informazioni sull’annotazione stessa (es. per segnalare casi dubbi, ecc.). Le specifiche che seguono costituiscono l’ossatura portante dello schema di annotazione per questo livello. Esse sono suscettibili di integrazioni (soprattutto per quanto riguarda i valori da associare agli attributi previsti) nella fase di verifica dello schema di annotazione all’inizio della linea 1.2.. D-61 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4.3.1.1 L’input all’annotazione semantico-lessicale L’annotazione semantico-lessicale presuppone un testo già annotato a livello morfo-sintattico (si veda sezione 2). Pertanto, il testo di input al livello semantico-lessicale contiene i seguenti tipi di informazione: • la parte del discorso 1 ; • tratti morfo-sintattici; • informazioni relative alla struttura del testo (paragrafo, titolo ecc.); • espressioni complesse già trattate come una unica unità ai livelli di annotazione precedenti, ad esempio nomi propri (es. Giulio_Andreotti), alcuni composti (es. carta_di_credito), espressioni idiomatiche rigide e non soggette a variazione (es. ad_hoc), date (es. il_10_giugno_del_1961) ecc.. 4.3.1.2 L’annotazione semantico-lessicale: elementi e tratti descrittivi L’annotazione semantico-lessicale identifica delle unità di senso che possono corrispondere a: • • singole parole ortografiche (un singolo S, V o A); due o più parole ortografiche nel caso di espressioni polilessicali (o multiwords) che compongono una unica unità di senso (es. composti, idiomi ecc.). Gli elementi annotati a livello semantico sono di tre tipi: • • • <us (unità di senso) <usc (unità semantica di tipo complesso) <ust (unità semantica di tipo titolo) L’elemento <us punta ad una singola parola, mentre l’elemento <usc punta a più parole del testo di input, ovvero ad un’espressione polilessicale. Infine l’elemento <ust può puntare sia ad una singola parola che a più parole e serve per annotare e differenziare i titoli di libri, giornali, spettacoli ecc. rispetto alla parte restante del contesto. Al contrario dell’elemento <us che può riferirsi solo a parole piene del testo (Sostantivi, Verbi o Aggettivi), sia <usc che <ust possono includere anche a parole grammaticali (es. preposizioni, articoli, ecc.) facenti parte dell’espressione. Es.: • • <usc: mettere a ferro e fuoco <ust: Il nome della rosa 1 La parte del discorso distingue l’unità lessicale da parole omografe che appartengono a categorie sintattiche diverse. Da un punto di vista pratico, questa informazione semplifica l’annotazione a livello semantico-lessicale consentendo l’immediata identificazione delle parole piene che in SI-TAL devono essere annotate semanticamente (sostantivi, verbi e aggettivi), e l’esclusione a priori dei casi in cui l’unità lessicale fa parte di una espressione più complessa che tuttavia non è una parte del discorso da annotare semanticamente (es. in merito a, allo scopo di, ecc.). D-62 Linea 1.1 - Treebank sintattico-semantica dell'italiano Tutti i tipi di elementi semantici (<us, <usc e <ust) sono descritti dagli attributi ns (numero di senso) e lem (lemma), mentre ciascuno di essi è ulteriormente descritto da altri attributi specifici che saranno successivamente illustrati. Quindi gli attributi comuni a tutti e tre gli elementi sono: • ns (numero di senso): esso consente di specificare il numero di senso presente in IWN o l’eventuale assenza del senso; • lem (lemma): esso consente di specificare il lemma dell’occorrenza che si sta annotando a livello semantico-lessicale. Va precisato che tale lemma è già presente nel formato di input all’annotazione semantico-lessicale ma deve, invece, essere specificato per le espressioni polilessicali riconosciute ed annotate come tali a questo livello e per i titoli. I possibili valori dell’attributo ns sono: • un numero di senso 2 ; • due o più numeri di senso congiunti attraverso l’utilizzo dell’operatore logico di congiunzione (S1&S2) nei casi in cui più di un senso di IWN si applichi al contesto specifico (per esempi relativi a questo caso si rinvia alla sezione 4.3.2.6.3 relativa alla “Corrispondenza con più sensi dello stesso lemma”); • due sensi disgiunti attraverso l’utilizzo dell’operatore logico di disgiunzione (S1|S2) nei casi in cui il contesto non fornisca informazione sufficiente per poter decidere tra diversi sensi attestati in IWN (il caso di ambiguità del contesto è illustrato nella sezione 4.3.2.6.3); • il valore no_senso quando la risorsa lessicale di riferimento, ovvero IWN, non registra il senso attestato nel contesto in corso di annotazione; si tratta di un valore provvisorio, che verrà ridefinito dall’annotatore una volta che la risorsa lessicale di riferimento sarà stata integrata con il senso mancante; • il valore no_lemma quando la risorsa lessicale di riferimento, ovvero IWN, non registra il lemma dell’occorrenza in corso di annotazione; si tratta di un valore provvisorio, che verrà ridefinito dall’annotatore una volta che la risorsa lessicale di riferimento sarà stata integrata con l’informazione mancante; • il valore no viene assegnato per i lemmi di cui non è previsto l’inserimento in IWN. Ciò si verifica essenzialmente in tre casi, ovvero, con: 1. alcuni nomi propri (ad esempio, di persona); 2. titoli in generale (di giornale o rivista, ecc.); 3. parole straniere non entrate nell’uso corrente dell’italiano. Consideriamo in dettaglio ciascun elemento e i tratti che lo descrivono. 2 Va ricordato che il numero di senso è anche la chiave d’accesso ad un insieme di sinonimi, o “synset” secondo la terminologia di WordNet. D-63 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4.3.1.2.1 L’elemento <us L’elemento <us descrive unità di senso che si riferiscono a parole singole appartenenti alle seguenti categorie: nome, verbo e aggettivo. L’elemento <us è descritto sempre dall’attributo ns. L’elemento <us può essere descritto anche dai seguenti attributi: • • • alter fig np il cui significato e la cui sintassi sono dettagliati di seguito. 4.3.1.2.1.1 alter L’attributo alter (alterazione) viene usato nella descrizione di <us nel caso in cui la parola in corso di annotazione sia un alterato o un aggettivo superlativo o comparativo: esso consente di segnalare la presenza di un suffisso alterativo (e di specificarne il tipo) o del suffisso per la formazione del superlativo o la presenza di un comparativo. I suoi possibili valori sono: • dim per i diminutivi; • accr per gli accrescitivi; • dispr per i dispregiativi; • vezz per i vezzeggiativi; • sup per gli aggettivi superlativi; • compar per gli aggettivi comparativi; • alter valore sottospecificato per i casi diversi dai precedenti. Nel caso degli alterati, l’attributo alter può ricevere un valore unico (es. alter=dim) oppure una coppia di valori (nel caso in cui sia utilizzato più di un suffisso alterativo) che vanno specificati rispettando l’ordine in cui sono combinati nell’occorrenza che si sta annotando (es. alter=dispr,accr per la parola omaccione). Il valore “alter” va utilizzato per i casi in cui tutti gli altri valori non sono applicabili. 4.3.1.2.1.2 fig Si ricorre all’attributo fig (figurato) nel caso in cui si sia in presenza di un uso figurato non lessicalizzato del senso di una singola parola. Si noti che la casistica di fig è suscettibile di modifiche o integrazioni in fase di verifica delle specifiche dell’annotazione semantico-lessicale, ovvero all’inizio della linea 1.2. I valori che possono essere assegnati a fig sono: D-64 Linea 1.1 - Treebank sintattico-semantica dell'italiano • metaf per gli usi metaforici; • meton per gli usi metonimici; • fig valore sottospecificato per marcare casi di usi figurati diversi dai precedenti. 4.3.1.2.1.3 np Quando si è in presenza di un nome proprio di persona, gruppo, luogo o prodotto, la descrizione di <us include anche l’attributo np (nome proprio), che consente di ricondurre il nome proprio ad una specifica classe semantica di IWN (es. quella di “persona”). I valori di questo attributo previsti ad oggi sono: • pers per i nomi propri di persona; • grup per i nomi propri che si riferiscono a gruppo di persone; • luogo per i nomi propri di luogo; • man (manufatto) per i nomi propri di prodotti e manufatti in generale; • np valore sottospecificato per indicare i casi diversi dai precedenti. Va prevista la possibilità di avere una congiunzione/disgiunzione di valori per i casi in cui non sia chiaro il referente del nome proprio (es. FIAT come “grup|luogo”). 4.3.1.2.1.4 Sommario dei tratti che descrivono <us La tabella che segue riporta la tipologia di attributi, con i relativi valori, che possono essere usati nella descrizione al livello semantico-lessicale di una unità di senso di tipo <us. Gli attributi evidenziati in grassetto sono da specificarsi obbligatoriamente nella descrizione di ogni unità di senso. Tabella riassuntiva dei tratti che descrivono l’elemento <us e relativi valori ns=Sn, S1&S2, S1|S2, no_senso, no_lemma, no lem=LEMMA alter=dim, accr, dispr, vezz, sup; compar; alter fig= metaf, meton, fig np=pers, grup, luogo, man, np D-65 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4.3.1.2.2 L’elemento <usc L’elemento <usc serve per annotare espressioni polilessicali (genericamente denotate in inglese come multi-word expressions). Una <usc copre almeno due parole grafiche (possono essere incluse parole diverse da nomi, verbi e aggettivi) che facciano parte dell’espressione stessa. Le espressioni polilessicali si distinguono in “continue” e “discontinue”. Si parla di espressioni continue quando sono composte da più unità ortografiche adiacenti senza nessuna interruzione, mentre nel caso opposto si parla di espressioni discontinue. Per questa ragione una unità di senso complessa (<usc) può riferirsi a più parole ortografiche che risultano separate tra loro da una serie variabile di altre parole e, talvolta, addirittura invertite nell’ordine come mostrano gli esempi seguenti: • discontinuità: (es. mettere (tutto) per iscritto); • inversione: (es. ‘Traguardi ambiziosi, insomma, che la Consulta delle professioni non regolamentate, insediatasi ieri a Villa Lubin, è comunque convinta di riuscire a tagliare’). Le espressioni continue sono in prevalenza nomi composti e in generale sequenze senza verbo, mentre quelle discontinue possono essere idiomi e costruzioni con verbi supporto e più in generale espressioni che includono un verbo. L’annotazione delle espressioni polilessicali non presuppone l’annotazione semantico-lessicale dei suoi singoli componenti. Da un punto di vista linguistico ciò è giustificato dal fatto che tali espressioni non sono in molti casi composizionali semanticamente (o lo sono solo parzialmente) e talvolta appare difficile o addirittura impossibile assegnare un senso, tra quelli attestati nella risorsa lessicale di riferimento, ai suoi componenti (es. si pensi all’aggettivo rosa nella sequenza cronaca rosa). Come nel caso precedente, l’elemento <usc è innanzitutto descritto dagli attributi ns e lem. Un elemento di tipo <usc può essere ulteriormente descritto dai seguenti attributi: • • tipousc fig il cui significato e la cui sintassi sono dettagliati di seguito. 4.3.1.2.2.1 tipousc L’attributo tipousc (tipo di unità semanticamente complessa) consente di specificare quale tipo di espressione polilessicale sia in corso di annotazione (es. idioma, composto o costruzione con verbo supporto). I suoi possibili valori sono (per gli esempi relativi a ciascuno dei seguenti casi si rinvia alla sezione 4.3.2.2 relativa ai “Criteri di annotazione delle <usc”): • idioma per annotare le espressioni idiomatiche; • comp per annotare i composti; D-66 Linea 1.1 - Treebank sintattico-semantica dell'italiano • vsup per annotare le espressioni a verbo supporto; • tipousc per l’annotazione di eventuali formule di routine (es. per così dire, si fa per dire), ecc. 4.3.1.2.2.2 fig L’attributo fig va sempre specificato nei casi di <us, come abbiamo visto, mentre nel caso delle <usc, la specifica di uso figurato (convogliata dall’attributo fig(urato) ) è da intendersi limitata ai composti (es. mettere a fuoco il problema). I valori che fig può assumere sono (per gli esempi relativi a ciascuno dei seguenti casi si rinvia alla sezione 4.3.2.4 relativa a “Gli usi figurati”): • metaf per gli usi metaforici; • meton per gli usi metonimici; • fig per gli altri casi. 4.3.1.2.2.3 Sommario dei tratti che descrivono <usc La tabella che segue riporta la tipologia di attributi, con i relativi valori, che possono essere usati nella descrizione al livello semantico-lessicale di una unità di senso di tipo <usc. Gli attributi evidenziati in grassetto sono sempre inclusi nella descrizione di una <usc. Tabella riassuntiva dei tratti che descrivono l’elemento <usc e relativi valori ns=Sn, S1&S2, S1|S2, no_senso, no_lemma, no lem=LEMMA tipousc=idioma, comp, vsup, tipousc fig=metaf, meton, fig 4.3.1.2.3 L’elemento <ust L’elemento <ust (unità semantica di tipo titolo) serve per annotare i titoli e differenziarli dalla parte restante del contesto. Esso può riferirsi: • ad una singola parola quando il titolo è composto da una singola parola; • ad almeno due parole adiacenti (i titoli sono delle espressioni sempre continue), incluse eventuali parole grammaticali (es. La Stampa). L’elemento <ust non riceve nessun numero di senso (cioè ns=no) poichè non è previsto l’inserimento dei titoli in IWN. Il titolo e’ specificato al livello dell’attributo lem. D-67 Linea 1.1 - Treebank sintattico-semantica dell'italiano L’elemento <ust è ulteriormente descritto dall’attributo tipot (tipo di titolo) che specifica il tipo di entità alla quale il titolo si riferisce. I suoi possibili valori ad oggi sono (eventuali integrazioni saranno possibili in fase di verifica dello schema di annotazione): • semiotico per i titoli di un testo scritto (giornale, libro ecc.); • spettacolo per i nomi di spettacoli; • tipot per casi diversi dai precedenti; • indef (indefinito) quando non si può desumere l’informazione dal contesto e l’annotatore non lo sa. 4.3.1.2.3.1 Sommario dei tratti che descrivono <ust La tabella che segue riporta la tipologia di attributi, con i relativi valori, che possono essere usati nella descrizione al livello semantico-lessicale di una unità di senso di tipo <ust. Si noti che in questo caso tutti gli attributi della tabella sono da specificarsi obbligatoriamente. Tabella riassuntiva dei tratti che descrivono l’elemento <ust e relativi valori ns=no lem=LEMMA tipot=semiotico, spettacolo, tipot, indef. 4.3.1.2.4 Altri tratti che possono essere usati nella definizione di unità di senso Come segnalato in precedenza, l’annotazione a questo livello può anche includere tratti ad uso dell’annotatore, che convogliano informazioni sull’annotazione stessa (es. per segnalare casi dubbi, ecc.). Di conseguenza, le precedenti tabelle devono essere integrate con una lista di tratti non relativi alla semantica della parola da annotare ma concernenti l’annotazione stessa. Essi possono essere assegnati a tutti e tre gli elementi definiti in precedenza. Gli attributi relativi all’annotazione sono i seguenti: • • nota per segnalare i casi dubbi. I suoi possibili valori sono: • sn_indist (senso indistinto) nel caso di dubbio di interpretazione dei sensi di IWN; • sn_inc (senso incerto) per segnalare la necessità di rivedere/ricontrollare l’annotazione; comm (commento): per inserire un commento ad uso dell’annotatore. Il valore di questo attributo è una stringa di commento. 4.3.1.2.4.1 Sommario dei tratti relativi all’annotazione D-68 Linea 1.1 - Treebank sintattico-semantica dell'italiano La tabella che segue riporta gli attributi relativi all’annotazione che possono essere usati nella descrizione di qualsiasi tipo di unità di senso. Tabella riassuntiva dei tratti relativi all’annotazione nota=sn_indist, sn_inc comm= stringa di commento 4.3.1.2.5 Tabella sinottica dei tratti per l’annotazione semantico-lessicale La tabella che segue riporta tutti gli attributi dell’annotazione semantico-lessicale, specificandone la tipologia di valori e la loro rilevanza nella descrizione dei diversi tipi di unità di senso (ovvero, <us, <usc e <ust). Tratto <us <usc <ust ns=Sn, S1&S2, S1|S2, no_senso, no_lemma, no X X X lem=LEMMA X X X alter=dim, accr, dispr, vezz, sup, compar, alter X fig= metaf, meton, fig X np=pers, grup, luogo, man, np X tipousc=idioma, comp, vsup, tipousc X X tipot=semiotico, spettacolo, tipot, indef. X nota=sn_indist, sn_inc X X Comm= stringa di commento X X X 4.3.2 Criteri di annotazione Nelle sezioni che seguono vengono forniti criteri guida per l’annotazione semantico-lessicale. Questi criteri verranno testati ed integrati nella fase di verifica delle specifiche di annotazione. 4.3.2.1 Criteri di annotazione delle <us Con riferimento all’elemento <us, nel presente paragrafo, sono forniti i criteri per l’annotazione di fenomeni come l’alterazione e per il trattamento delle parole straniere e dei nomi propri. 4.3.2.1.1 Alterati e aggettivi superlativi D-69 Linea 1.1 - Treebank sintattico-semantica dell'italiano Con alterati ci riferiamo ai lemmi modificati semanticamente con l’aggiunta di suffissi cosidetti ‘valutativi’ o ‘alterativi’ (Scalise, 1995). Sulla base del loro significato, i suffissi si possono distinguere in: • diminutivo (-ino); • accrescitivo (-one); • dispregiativo (-accio); • vezzeggiativo (-uccio, -etto). I suffissi alterativi possono essere utilizzati in modo cumulativo (es. passettino attestato nel corpus della Treebank). Data la rilevanza semantica dell’alterazione e il fatto che spesso non c’è un esatto equivalente in altre lingue (es. tavolone = big table) appare opportuno marcarla in modo particolare a questo livello di annotazione, distinguendo tra alterati lessicalizzati e alterati non lessicalizzati. I primi, che dovrebbero essere presenti nel database lessicale di IWN, ricevono il numero di senso corrispondente mentre i secondi sono ricondotti al lemma non alterato in IWN. In entrambi i casi gli alterati sono contrassegnati dall’attributo alter che indica la presenza del suffisso alterativo. Il tipo di alterazione può essere specificato attraverso i seguenti possibili valori: “dim”, “accr”, “disp”, “vezz”. Il caso della doppia alterazione, si marca con l’assegnazione di due valori successivi per ordine di occorrenza (es. passettino -> alter=vezz,dim). La distinzione tra alterato lessicalizzato e non lessicalizzato può essere fatta sulla base della sua presenza o meno in IWN o in altri dizionari dell’italiano assunti come punto di riferimento. Diamo qui di seguito alcuni esempi tratti dal corpus di SI-TAL: Tipi di alterazione dim accr disp vezz non-lessicalizzato appartamentino bacino paesino Concertone filmetto gruppetto lavoretto pupazzetto vizietto dittatorello lessicalizzato (Dizionario di riferimento: Garzanti 1994) cappellino finestrino palloncino colpaccio pozzetto Per quanto riguarda gli aggettivi, a livello semantico-lessicale appare opportuno segnalare la presenza del suffisso per la formazione del superlativo (es. important-issimo), sia per le modifiche che apporta al senso del lemma sia perché talvolta non esiste un equivalente in altre lingue (es. importantissimo = very important). Pertanto gli aggettivi sono ricondotti al lemma di base in IWN D-70 Linea 1.1 - Treebank sintattico-semantica dell'italiano (es. importante) e ricevono la specificazione del tratto alter al quale viene assegnato il valore “sup”. Il valore “compar” è invece assegnato come valore di alter nel caso degli aggettivi comparativi. Riassumendo, il seguente tratto è richiesto per la descrizione degli alterati non lessicalizzati e per gli aggettivi superlativi: • alter=dim, accr, disp, vezz, sup, compar, alter 4.3.2.1.2 Nomi Propri I nomi propri, quando non attestati in IWN, non ricevono alcuna specificazione relativa al numero di senso. Ad essi è invece assegnato un tratto che li caratterizza rispetto al tipo di referente e che fa riferimento alle corrispondenti classi semantiche di IWN. I possibili valori dell’attributo np (nome proprio) sono: - pers: per nomi propri di persone (es. Giulio_Andreotti); - grup: per nomi propri di gruppo di persone (es. Telecom, Montedison); - luogo: per nomi propri di località (es. Milano); - man: per nomi propri di prodotti e manufatti in genere (es. Macintosh, Windows); - np: per tutti gli altri casi. Tale tratto consente un facile recupero dal corpus annotato dei nomi propri per classi di referenti e ne rende uniforme il trattamento a livello di annotazione semantico-lessicale indipendentemente dalla loro presenza o meno nella risorsa lessicale di riferimento. Riassumendo, i seguenti tratti sono necessari per l’annotazione dei nomi propri: • lem=LEMMA • ns= Sn, S1&S2, S1|S2, no_senso, no_lemma, no • np= pers, grup, luogo, man, np Da notare che va prevista la possibilità di un uso disgiunto/congiunto dei valori dell’attributo np per i casi in cui non sia possibile operare una scelta (es. quando non è possibile distinguere tra Germania come “luogo” e come “grup”). 4.3.2.1.3 Parole Straniere Le parole straniere vanno distinte in tre tipi: 1. quelle che sono entrate nell’uso corrente della lingua italiana; 2. quelle che non sono entrate nell’uso corrente ma hanno una applicazione e diffusione in ambito tecnico-specialistico; 3. quelle che non sono usate correntemente nella lingua italiana. D-71 Linea 1.1 - Treebank sintattico-semantica dell'italiano Ci si aspetta che le parole appartenenti alla prima classe siano attestate in IWN e nel testo si possa fare riferimento al numero di senso loro assegnato in IWN; in caso contrario, si segnalerà la mancanza del lemma ai lessicografi di IWN. La seconda classe farà riferimento a partizioni specialistiche del lessico (ovvero relative a un dato dominio semantico); come nel caso precedente, se già attestate nel lessico l’annotazione farà riferimento al numero di senso della partizione specialistica di IWN; in caso contrario, verrà segnalata la loro assenza ai lessicografi della partizione specialistica per valutarne l’eventuale integrazione nel lessico. Per maggiori dettagli sull’annotazione della terminologia specialistica si rinvia alla sezione sulla terminologia (4.3.2.5). Il terzo tipo di parola straniera non è attestata nella risorsa lessicale di riferimento e rimane genericamente etichettata come parola straniera (già nel formato di input del testo), non ricevendo dunque l’assegnazione di nessun numero di senso. Va ricordato che tra i tratti morfo-sintattici che caratterizzano il formato di input all’annotazione semantico-lessicale esiste già l’informazione relativa a ‘parola straniera’. Tuttavia sarà valutata l’opportunità di ripetere tale informazione a livello semantico-lessicale in fase di verifica dello schema di annotazione all’inizio della linea 1.2.. Esempi dal corpus di SI-TAL delle tre classi di parole straniere identificate sopra sono riportati di seguito: 1. parole di uso corrente: leader, import, export 2. parole di tipo tecnico (a diffusione limitata/settoriale): rating, tax, trend 3. parole non entrate nell’uso della lingua in generale: • • • imboccare nell’ 85 la via della «politique d’abord» ma quella di un’ integrazione.. degli ortolani) occorre fare dell’ «économie d’abord», abolire i controlli doganali.., una maggioranza capace di decidere cosa vada modificato d’abord nella «storia materiale»… 4.3.2.2 Criteri di annotazione delle <usc La categoria delle unità semanticamente complesse include espressioni polilessicali, ovvero espressioni idiomatiche più o meno composizionali, i composti (di cui parte sono di ambito tecnico specialistico) e le espressioni a verbo supporto. In quanto segue, dopo aver elencato le motivazioni che giustificano la loro annotazione, forniremo criteri per la loro identificazione nel testo e conseguente annotazione. 4.3.2.2.1 Perché l’annotazione delle <usc Elenchiamo qui di seguito alcune delle ragioni che giustificano l’annotazione delle <usc. La loro parziale o totale non composizionalità semantica fa sì che: D-72 Linea 1.1 - Treebank sintattico-semantica dell'italiano 1. il significato dell’intera sequenza può non essere ricavabile a partire dal significato dei singoli componenti lessicali: es. entrare (move) in possesso (stative possession) ≠ entrare in possesso (change possession); 2. le restrizioni di selezione dell’intera sequenza possono essere molto specifiche: es. tagliare i ponti / il cordone ombelicale richiede un obliquo introdotto da con di tipo ‘umano / istituzione / gruppo umano’; 3. i sinonimi (che compariranno nel corrispondente “synset” di IWN) possono essere molto specifici, diversi da quelli dei singoli componenti: tagliare la corda / scappare / fuggire; Dal punto di vista dell’utilizzo futuro del corpus annotato, si osserva che: 1. nella prospettiva di uso del corpus nell’ambito di operazioni di recupero di informazione (IR), l’annotazione delle unità semanticamente complesse può rendere più corrette e significative le informazioni estratte: es. una ricerca che ha come oggetto il recupero di documenti riguardanti l’arredamento, deve poter escludere contesti del tipo organizzare una tavola rotonda in quanto non rilevanti rispetto all’interrogazione; 2. nella prospettiva di uso del corpus nell’ambito della traduzione automatica (MT) può essere utile l’identificazione di unità semanticamente complesse che hanno in molti casi equivalenti in altre lingue ma, talvolta, con variazioni sia strutturali sia lessicali (es. toccare ferro = toucher du bois); 3. nella prospettiva di creazione o estensione di lessici computazionali può essere utile consentire l’identificazione di queste espressioni e lo studio del grado di flessibilità sintattica che le caratterizzano (possibilità di inserire modificatori, ecc.). Infine dal punto di vista pratico, si nota che: 1. talvolta appare più difficile annotare le singole unità lessicali che l’intera sequenza (es ferro da stiro/ calce viva/ a chiare lettere/ romanzo giallo). L’annotazione delle singole componenti di una espressione polilessicale richiederebbe una interpretazione del senso dei singoli componenti e del legame che intercorre tra loro che spesso appare totalmente arbitraria. Si pensi inoltre all’annotazione delle espressioni a verbo supporto, dove il contributo semantico del verbo supporto è, in realtà, limitato (“leggero”): es. fare paura. 4.3.2.2.2 Problemi nell’identificazione ed interpretazione delle <usc L’identificazione e interpretazione delle <usc può risultare difficile a causa dell’assenza di criteri certi e univoci. I criteri forniti dalla letteratura che mirano a verificare il grado di fissità sintattica e semantica di queste espressioni non sempre sono applicabili. Anche le espressioni idiomatiche che non sembrano decisamente soggette a variazioni talvolta sono attestate nel corpus in diverse varianti (“it has more recently been pointed out that idioms in use are prone to massive variation”, Sinclair, 1996): es. tagliare le ultime ali a un paese. Il riconoscimento e l’interpretazione delle <usc rimane un punto problematico almeno in alcuni casi e per molti aspetti soggettivo. Per questa ragione, appare opportuno discutere i casi più complessi e controversi allo scopo di ridurre il margine di soggettività nelle scelte dell’annotatore e giungere a decisioni concordate. D-73 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4.3.2.2.3 Identificazione degli elementi costitutivi delle <usc Da un punto di vista pratico, cioè della loro annotazione a livello semantico-lessicale, le <usc pongono soprattutto due problemi: 1. quali elementi devono essere considerati parte dell’espressione semanticamente complessa? In altri termini, dove incomincia e finisce l’espressione? Per esempio, essere la chiave di volta o chiave di volta o chiave volta o essere chiave volta ecc. 2. come gestire i casi di discontinuità delle <usc? Esaminiamo in dettaglio i due punti. 1. le <usc sono caratterizzate da una certa “fissità” lessicale, nel senso che i lemmi che le compongono sono fissi o quantomeno commutabili con pochi altri (si pensi ad esempio alle espressioni a verbo supporto). Per questa ragione appare opportuno considerare parte dell’espressione tutti gli elementi invariabili o limitatamente variabili, incluse le parole grammaticali che tuttavia sono fondamentali per la comprensione dell’espressione. Inoltre l’esclusione del verbo rende talvolta non significativa l’intera sequenza (es. la chiave di volta); 2. per espressione discontinua si intende il caso in cui i suoi singoli componenti non sono adiacenti. Le espressioni che sono soggette a discontinuità o inversione sono essenzialmente quelle che includono il verbo. Si possono avere i seguenti casi di discontinuità illustrati con esempi tratti dal corpus di SI-TAL: 1. inserimento di un modificatore dell’intera frase: tenere il più possibile sulla corda qualcuno 2. inserimento di un pronome e comunque di un elemento sottocategorizzato dall’espressione stessa: mettere tutto per iscritto metterne a punto 3. inserimento di un modificatore di un componente dell’espressione semanticamente complessa: fare qualche minuto di esercizi fare ben pochi passi avanti avere maggiore peso mettere i loro puntini sulla i tenere in maggiore considerazione 4. inversione e discontinuità: D-74 Linea 1.1 - Treebank sintattico-semantica dell'italiano Traguardi ambiziosi, insomma, che la Consulta delle professioni non regolamentate, insediatasi ieri a Villa Lubin, è comunque convinta di riuscire a tagliare Nei casi 1. e 2. l’elemento inserito (modificatore della frase o pronome) è esterno all’espressione semanticamente complessa. Es.: mettere tutto per iscritto dove le parole evidenziate in grassetto sono da considerarsi gli elementi costituenti la <usc in corso di definizione: in questo caso, <usc = mettere per iscritto. Il lemma ad esso associato sarà la forma standard di riferimento selezionata, ad esempio mettere_per_iscritto. Nel caso 3., eventuali modificatori dei componenti dell’espressione (che dovrebbero essere tanto più rari quanto più l’espressione è semanticamente non composizionale) sono considerati parte dell’espressione stessa come esemplificato di seguito: Eppure i vari gruppi si sono affrettati a mettere i loro “puntini sulle i” del documento… dove le parole mettere i loro puntini sulle i sono da considerarsi come facenti parte della <usc. In ogni caso, il lemma attribuito a questa occorrenza non includerà gli eventuali modificatori, ma farà riferimento alla forma che è stata selezionata come standard (per esempio, nel caso precedente mettere_i_puntini_sulle_i); in questo modo si creano i presupposti per il recupero di tutte le varianti di una stessa <usc attestate nel corpus annotato (ad esempio con e senza modificatori). Nel quarto caso, quello dell’inversione, i costituenti della <usc sono marcati nel testo come segue: Traguardi ambiziosi, insomma, che la Consulta delle professioni non regolamentate, insediatasi ieri a Villa Lubin, è comunque convinta di riuscire a tagliare Al livello del lemma, invece, l’ordine standard della sequenza è ricostruito; quindi nel caso precedente il lemma sarà presumibilmente tagliare_traguardo. Data la difficoltà di identificare correttamente gli elementi costitutivi delle <usc, nella prima fase della linea 1.2 la casistica illustrata sopra verrà analizzata in dettaglio alla luce dell’evidenza attestata nel corpus della Treebank e verranno forniti agli annotatori criteri precisi di identificazione delle <usc. 4.3.2.2.4 Espressioni idiomatiche e composti Con ‘espressione idiomatica’ intendiamo tutte le espressioni polilessicali (Casadei, 1996:13) che da un punto di vista sintattico e soprattutto lessicale sono caratterizzate da una certa fissità, contrariamente alla frase libera in cui ogni posizione è commutabile con qualunque elemento che abbia le caratteristiche categoriali e semantiche (restrizioni di selezione) richieste. Il loro significato non è composizionale (es. tagliare la testa al toro) o lo è solo parzialmente (es. mettere a ferro e fuoco, mettere piede) e comunque si è fissato, cristallizzato nel tempo. La fissità lessicale (o limitata variabilità) e la parziale o totale non composizionalità semantica sono una caratteristica anche dei composti. D-75 Linea 1.1 - Treebank sintattico-semantica dell'italiano Diamo qui di seguito alcuni esempi tratti dal corpus di SI-TAL che illustrano la tipologia di espressioni che ci troveremo ad annotare e sono esemplificative dei livelli diversi di composizionalità semantica: Espressioni Idiomatiche essere la chiave di volta mettere troppa carne al fuoco mettere a ferro e fuoco soffiare sul fuoco gettare benzina sul fuoco mettere via andare in gol lasciare andare avere le carte in regola fare da pendant fare da cuscinetto fare da contrappeso avere un bel da fare darsi da fare fare a meno di (qualcosa) fare il gioco di (qualcuno) tagliare il respiro (mozzare il fiato) tenere buono (qualcuno) tenere d’occhio (qualcuno) mettere piede mettere in pericolo andare in onda andare d’accordo essere nel giusto essere al di sopra di ogni sospetto essere sopra le parti 4.3.2.2.4.1 Composti agente segreto agente di frontiera braccio di ferro conflitto a fuoco arma da fuoco lingua di fuoco vigile del fuoco Criteri di identificazione delle espressioni idiomatiche e dei composti In questa sezione forniamo una batteria di test per l’identificazione delle espressioni idiomatiche e dei composti. Va tuttavia premesso che non sempre tali test sono affidabili e applicabili poiché la struttura interna e il grado di non composizionalità semantica delle espressioni semanticamente complesse è molto variabile. Va inoltre ricordato che talvolta i criteri che possono guidare il riconoscimento di una <usc possono essere di natura più generale e non semplicemente dei test di tipo sintattico/semantico (specialmente per quanto riguarda il corpus specializzato). Per esempio, la frequenza accertata di una certa sequenza (es. stato membro) o l’esistenza e l’utilizzo contemporaneo di un acronimo e di una forma sciolta per lo stesso referente (es. consiglio di amministrazione / CDA) possono indurre all’identificazione di <usc. I test elencati qui di seguito, che sono stati presi dalla letteratura corrente (Danlos, 1981, 1988, Ten Hacken 1991, Gross, 1985, 1986, 1988), sono distinti in 1) quelli per sequenze senza verbo e 2) quelli per sequenze con verbo. D-76 Linea 1.1 - Treebank sintattico-semantica dell'italiano SEQUENZE SENZA VERBO La struttura sintattica interna dei composti può essere molto varia: sostantivo-preposizionesostantivo (S E S), sostantivo-sostantivo (S S), aggettivo-sostantivo (A S), ecc. I test variano a seconda della struttura interna, come esemplificato in quanto segue. • Costruzione Predicativa: la costruzione predicativa è possibile solo con sequenze ordinarie di sostantivo-aggettivo (S A) ma non con composti che hanno questa struttura. Es.: tavola rotonda (=conferenza, incontro) > *la tavola è rotonda • Nominalizzazione: la nominalizzazione non è possibile con i composti aventi la struttura S A. Es.: *la rotondità della tavola • Modificazione: la modificazione tramite l’inserimento di avverbi e le costruzioni superlative e comparative non sono possibili con i composti. Es.: ferro da stiro > *un ferro nuovo da stiro tavola rotonda (=conferenza, incontro) > *la tavola più rotonda, *una tavola perfettamente rotonda • Coordinazione: l’aggettivo che fa parte di una parola composta non può essere coordinato con altri aggettivi anche se ciò è possibile con sequenze ordinarie. Es.: * la tavola rotonda e larga • Omissione: l’aggettivo di un nome composto è obbligatorio (pertanto non può essere né sostituito né omesso) e talvolta può essere usato da solo. Es.: *tavola circolare cronaca rosa/ nera/ *gialla *ho organizzato una tavola (rotonda) ho letto un (romanzo) giallo Criteri più deboli: • Flessione: va ricordato che l’esistenza di un composto ci può essere segnalata da irregolarità morfo-sintattiche (per esempio, a livello della flessione). Infatti, mentre alcuni composti presentano regolarmente sia la forma singolare sia quella plurale (es. tavole rotonde) altri hanno solo una forma al plurale (effetti speciali) o al singolare (la mano nera). • Restrizioni di co-occorrenza lessicale: alcuni composti sono caratterizzati da una certa variabilità lessicale che tuttavia rimane sempre limitata. Infatti solo un aggettivo o un ristretto numero e tipo di aggettivi si combina con un nome per formare un composto (es. alta/bassa marea). SEQUENZE CON IL VERBO D-77 Linea 1.1 - Treebank sintattico-semantica dell'italiano • Inserzione: non è ammesso l’inserimento di modificatori dei singoli componenti lessicali di una espressione idiomatica, mentre è normalmente consentito l’inserimento di modificatori dell’intera sequenza. Es.: *tagliare la lunga corda tagliare velocemente la corda • • Estrazione: l’estrazione di un componente lessicale di una espressione idiomatica per mezzo di particolari strutture sintattiche non è solitamente possibile. Es.: - costruzione passiva: *la corda è stata tagliata da Leo - “clefting”: *è la corda che è stata tagliata da Leo - topicalizzazione: *LA CORDA è stata tagliata da Leo - costruzione relativa: *la corda che è stata tagliata da Leo Pronominalizzazione: la sostituzione di uno o più elementi di una espressione idiomatica con un pronome non è solitamente consentita. Es.: ha tagliato la corda dal carcere > *l’ha tagliata dal carcere • Modificazione: i componenti lessicali di una espressione idiomatica non possono essere solitamente flessi o sostituiti. Es.: *tagliare le corde/la fune Riassumendo, le espressioni idiomatiche e i composti sono annotate come <usc la cui descrizione include i seguenti tratti e valori: • lem=LEMMA • tipousc=idioma, comp 4.3.2.2.5 Espressioni con verbo supporto Nella Treebank di SI-TAL le espressioni con verbo supporto (da qui in poi VSUP) sono annotate in termini di <usc. Una <usc di tipo VSUP è caratterizzata dalle seguenti proprietà: • l’apporto semantico del verbo cosiddetto supporto al significato dell’espressione è ridotto, controbilanciato dal ruolo fondamentale giocato dal nome o sequenza che lo segue: es. dare aiuto (aiutare), fare paragoni (paragonare) fare affermazioni (affermare) ecc.; (Da notare che una sequenza come ‘mettere piede’ è da considerarsi una espressione idiomatica vera e propria perchè ‘piede’ non conferisce un significato particolare a ‘mettere’); D-78 Linea 1.1 - Treebank sintattico-semantica dell'italiano • il verbo serve soprattutto per convogliare i tratti grammaticali del tipo: tempo, aspetto, modo, persona ecc.; • uno stesso nome si può combinare con più VSUP (un numero comunque ristretto e fisso) che fungono da varianti aspettuali (es. essere/mettersi in viaggio); • i verbi che in alcune costruzioni possono avere la funzione di ‘supporto’ a livello semantico sono un numero ristretto, essere, avere, fare e pochi altri che spesso sono varianti aspettuali dei primi (es. dare, prendere, venire, mettere, entrare, ecc.). Le strutture a VSUP sono notoriamente molto varie. Alcuni (vedi Renzi, 1995) annoverano tra le espressioni a VSUP anche frasi del tipo Leo è un venditore che indica una condizione permanente rispetto al verbo (Leo vende). Tuttavia in questa sede appare opportuno restringere la nozione di espressione a VSUP a quelle sequenze che presentano una certa fissità sintattica e una limitata variabilità lessicale. Nella Treebank di SI-TAL verranno annotate come strutture a VSUP i seguenti casi: 1. strutture a VSUP che sono una variante della forma verbale 3 : essere in viaggio > viaggiare essere alla ricerca > ricercare essere in contraddizione > contraddire fare paura > impaurire mettere paura > impaurire dare una lavata > lavare avere in odio > odiare 2. strutture a VSUP che sono una variante della forma aggettivale: essere nell’incertezza > incerto essere di notevole coraggio > coraggioso essere in agitazione > agitato essere in dubbio > dubbioso Questi due tipi di espressioni a VSUP presentano le seguenti caratteristiche: • le varianti della forma verbale si presentano come: VSUP + S VSUP + E (in, di, da, ecc.) + S dove il nome (S) è tipicamente astratto (es. odio) e/o deverbale (es. viaggio) • le varianti della forma aggettivale si presentano come: VSUP + E (in, di, ecc.) + S dove il nome (S) è di tipo astratto e collegato ad un aggettivo (es. coraggio). 3 In IWN, queste espressioni a VSUP saranno incluse nel synset del verbo di cui esse costituiscono una variante. D-79 Linea 1.1 - Treebank sintattico-semantica dell'italiano • entrambe le espressioni a VSUP possono avere una loro specifica sottocategorizzazione e specifiche restrizioni di selezione. Ciò costituisce sia una ulteriore motivazione in favore della loro annotazione a livello semantico-lessicale che un criterio per annotare almeno i casi più interessanti da un punto di vista linguistico. Es.: essere in viaggio per la Mecca/ *viaggiare per la Mecca essere in contraddizione con i fatti/ *contraddire con i fatti fare affidamento su qualcuno/ *affidarsi su qualcuno Dal punto di vista delle applicazioni del corpus annotato, appare utile differenziare queste espressioni dalle altre per consentirne una eventuale estrazione separata. Va ricordato che al pari degli altri tipi di espressioni idiomatiche, quelle a VSUP non hanno sempre un esatto equivalente in altre lingue come appare dagli esempi seguenti presi da Ruimy e Corazzari (1991): essere di poche parole= etre peu causant essere nei guai=avoir des ennuis essere di garanzia=servir de garantie essere in aumento=augmenter Diamo qui di seguito alcuni esempi presi dal corpus di SI-TAL: VSUP fare S fuoco; affermazioni; paragoni; complimenti; esempi; il confronto; la guardia; progressi; affidamento; concessioni; prognostici; previsioni; programmi; verifica; pulizia; esempi; pipì; esercizi; cura; guerra mettere paura dare fuoco essere E+S in scena; in discussione; in posa a conoscenza; in possesso Le espressioni a VSUP sono trattate al pari delle espressioni idiomatiche come un’unica unità di senso. Per consentire l’eventuale recupero automatico di queste espressioni appare sufficiente assegnare all’elemento <usc il tratto tipousc al quale viene assegnato il valore “vsup” (tipo di <usc=con verbo supporto). Riassumendo, l’annotazione delle espressioni a VSUP si fa con l’elemento <usc e i seguenti tratti descrittivi: D-80 Linea 1.1 - Treebank sintattico-semantica dell'italiano • lem=LEMMA • tipousc=vsup 4.3.2.3 Criteri di annotazione delle <ust L’annotazione dei titoli in generale (di spettacoli, giornali, libri ecc.) è necessaria a livello semantico-lessicale perchè essi sono espressioni che hanno un comportamento particolare rispetto al contesto in cui figurano. I titoli si comportano come (micro)testi indipendenti all’interno di un altro testo. La loro annotazione è auspicabile almeno per le seguenti ragioni: - in vista del recupero di informazioni da testi, l’annotazione dei titoli rende più attendibili le informazioni estratte; ad esempio, in una indagine su fiori e piante, non verrebbe estratto il contesto pubblicare ‘I fiori del male’; - in vista di un eventuale uso del corpus annotato in MT, appare evidente che i titoli devono essere differenziati sia perchè talvolta essi non sono tradotti con un esatto equivalente sia perchè talvolta essi sono lasciati invariati, cioè come appaiono nella lingua sorgente. Va, infine, sottolineato che in un corpus giornalistico, i titoli occorrono molto frequentemente. I titoli, quando sono composti da più di un lemma, condividono alcune caratteristiche delle <usc perchè si comportano sintatticamente e semanticamente come una unica unità. Tuttavia al contrario delle <usc, trattate in precedenza, le <ust sono sempre composizionali (anche se possono includere a loro volta delle <usc), cioè i singoli componenti mantengono il loro significato proprio, e sono sempre continue. L’elemento <ust (unità semantica di tipo titolo) serve per marcare i titoli. Esso può riferirsi ad una singola parola o a più parole adiacenti. Si esclude per il momento la possibilità di annotare semanticamente le parole costitutive dell’elemento <ust. L’attributo tipot consente di distinguere i nomi di spettacoli/film (il valore è “spettacolo”) da quelli di testi scritti, giornali, libri ecc. (il valore è “semiotico”). Tale distinzione è giustificata dalle seguenti ragioni: - titoli diversi co-occorrono con lemmi semanticamente diversi (es. leggere/pubblicare/scrivere un tipot=semiotico // guardare, registrare un tipot=spettacolo); - da un punto di vista dei tipi/concetti semantici, ci può essere una differenziazione dei due tipi di referenti del titolo (es. “artefatto semiotico / informazione” // “opera d’arte”); - in precedenti esperienze di annotazione del corpus i titoli di testi scritti o spettacoli sono risultati i più frequenti (si veda Corazzari et al., 1999). Il valore “indef”, invece, consente all’annotatore che non deve/può avere necessariamente una conoscenza enciclopedica di lasciare sottospecificato questo attributo. Riassumendo, l’elemento <ust è descritto dagli attributi: D-81 Linea 1.1 - Treebank sintattico-semantica dell'italiano • lem=LEMMA • ns=no • tipot=semiotico, spettacolo, tipot, indef 4.3.2.4 Gli Usi Figurati Per usi figurati si intendono gli usi metaforici, metonimici ecc., a livello sia di <us sia di <usc. In quanto segue diamo criteri per l’individuazione e l’annotazione di usi figurati. Va ricordato che questa sezione è suscettibile di integrazioni (soprattutto per quanto riguarda i criteri di individuazione della metafora e della metonimia) nella fase di verifica dello schema di annotazione all’inizio della linea 1.2.. 4.3.2.4.1 La Metafora La metafora come fatto linguistico è interpretata nella letteratura principalmente in tre modi diversi. La metafora è: - una anomalia: cioè una violazione delle restrizioni di selezione (vedi Casadei 1996, Fass, 1991) - una comparazione: “la metafora è il trasferimento a un termine (detto “topic”, ad esempio Mario) di un nome appartenente a un altro (detto “vehicle”, ad esempio leone) in base a un elemento di somiglianza tra i due (detto “ground”, cioè il coraggio)” (Casadei 1996; si veda anche Fass, 1991) - una interazione: si pensa che “la metafora proietti sul “topic” non una singola proprietà ma un insieme di implicazioni convenzionalmente associate al “vehicle” (conoscenze, credenze, luoghi comuni sul “vehicle”), i cui contenuti sono selezionati anche dallo specifico “topic” “ (Casadei 1996; si veda anche Fass, 1991). Da un punto di vista operativo, appare fondamentale la distinzione tra metafora lessicalizzata e non lessicalizzata. Tale distinzione può essere operata prendendo come punto di riferimento sia IWN che altri dizionari della lingua italiana assunti come risorse lessicali di riferimento. Le metafore lessicalizzate ricevono il numero di senso presente in IWN e il tratto fig=metaf che le identifica come metafore (es. la chiave del problema, tavolo delle trattative, volano battute). Le metafore non lessicalizzate ricevono un numero di senso che rinvia al loro significato letterale ed un tratto per marcare l’uso metaforico (es. Zepe sotto il fuoco di Mladic). Da un punto di vista applicativo, le prime non danno luogo a violazione delle restrizioni selezione perché sono integrate nel lessico e in termini di tipi/concetti semantici sono descritte modo appropriato (es. non capisco la molla (tipo/concetto semantico=causa e non artefatto) una tale violenza) mentre le seconde sì. Tuttavia la presenza del tratto fig=metaf consente sottolineare l’uso particolare del lemma. D-82 di in di di Linea 1.1 - Treebank sintattico-semantica dell'italiano Va da sé che può rivelarsi necessario integrare il lessico computazionale con usi metaforici che ricorrono frequentemente, ad esempio, nei testi giornalistici anche se non sono forse ancora attestati nei dizionari correnti (es. verdi per indicare gli ecologisti). 4.3.2.4.2 La Metonimia La metonimia implica l’uso di una entità per riferirsi ad un’altra ad essa collegata (Fass,1991). Numerosi tentativi sono stati fatti di individuare e classificare tipi diversi di metonimie. I tipi più frequenti sembrano essere quelli che indicano: - la parte per il tutto (l’insieme); - il contenitore per il contenuto; - il produttore per il prodotto; - l’oggetto usato per chi lo usa; - la causa per il risultato; - ecc. La metonimia, al pari della metafora, è caratterizzata da una violazione delle restrizioni di selezione ma si differenzia da essa per le seguenti ragioni (Fass, 1991) 4 : 1. la metonimia è una relazione di contiguità (l’essere connesso a qualcosa) mentre la metafora è una relazione di similitudine (l’essere come…); 2. “la metafora è principalmente una maniera di concepire una cosa in termini di un’altra e la sua funzione principale è la comprensione, mentre la metonimia ha principalmente una funzione referenziale, cioè, permette di usare una entità al posto di un’altra, pertanto essa ha un ruolo di comprensione perché si focalizza su certi aspetti di ciò a cui ci si riferisce” (traduzione da Fass, 1991). Data la complessità di tale nozione appare difficile pensare che l’annotatore si faccia carico di operare troppo sottili distinzioni che sono, tra l’altro, in parte sensi solitamente integrati nel lessico computazionale e nei dizionari (es. un bicchiere inteso come il contenuto). Appare pertanto opportuno limitare il compito dell’annotatore a segnalare i casi di usi metonimici non entrati nell’uso corrente e pertanto non lessicalizzati e quindi non necessariamente integrati in un dizionario: es. scende la pace sulle rotaie (esempio dal corpus giornalistico di ELSNET). Riassumendo, il seguente tratto è richiesto per la descrizione degli usi figurati: • fig=metaf, meton, fig 4 La distinzione tra metafora e metonimia è un punto controverso. Per molti l’una equivale all’altra e viceversa (Fass, 1991). D-83 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4.3.2.5 Terminologia Per “terminologia” s’intende “il complesso dei termini, delle locuzioni, del frasario proprio di una scienza, di un’arte o di un particolare settore tecnico o ambito sociale” (Palazzi-Folena, Dizionario della lingua italiana, 1995). Nel caso specifico del dominio finanziario, proprio della parte specializzata del corpus di SI-TAL, la terminologia si riconduce in buona parte a: • termini stranieri Nell’ambito di corpora a carattere finanziario si riscontra un uso piuttosto esteso di termini stranieri, principalmente inglesi. Si assume infatti che per molte azioni ed eventi del mondo economico valga un gergo internazionale poiché l’economia è intesa in senso mondiale e la lingua inglese rappresenta la lingua comune d’interscambio. Nell’insieme di termini stranieri presenti nel corpus si distinguono quelli ormai divenuti d’uso comune (es. leader, import, export, ...), che come tali sono riportati sui dizionari della lingua italiana, e quelli, usati magari con una certa frequenza, ma più specifici del dominio (es. rating, tax, trend,...) che non sono stati ancora inseriti nei dizionari. • espressioni polilessicali Si tratta di espressioni tipicamente composte da 2-3 parole per indicare oggetti, fatti, eventi del mondo finanziario (es. consiglio di revisione, quota azionaria, prestito obbligazionario, ...). • sigle o acronimi La presenza di sigle e acronimi è piuttosto marcata all’interno del corpus. L’uso di questi avviene principalmente in sostituzione delle espressioni complesse citate sopra (es. cda in luogo di consiglio di amministrazione). Le ragioni di tale uso sono da ricercarsi in primo luogo nella comodità di una forma abbreviata che evita la pesantezza dell’intera espressione complessa. In secondo luogo, tale uso è dettato dall’adozione di un gergo che si suppone essere noto (es. opa, pil, bot), almeno a chi opera in quel campo. Per l’annotazione di sigle e acronimi si deve far riferimento al numero di senso associato all’espressione polilessicale ad essi corrispondente in IWN. La presenza di svariate forme ad indicare la stessa espressione complessa, suggerisce di associare ad ogni acronimo l’informazione relativa al nome per esteso. In questo modo, indipendentemente dal fatto che esso sia formato a partire dalle sole prime lettere iniziali (es. pil per prodotto interno lordo) o includa o meno le preposizioni o gli articoli (es. cdr per consiglio di revisione) oppure ancora sia formato di lettere maiuscole e minuscole (es. BoT per Buoni ordinari del Tesoro) o di sole lettere minuscole (es. cda per Consiglio di Amministrazione) o di sole lettere maiuscole (es. AME per Accordo Monetario Europeo) oppure ancora includa o meno il segno di punto (es. spa ma anche s.p.a o S.p.A.), si può facilmente risalire alla forma base sciolta a cui l’acronimo si riferisce. Ad esempio, leggendo cdd o c.d.d o c.d.d. (o tutte le svariate forme con punti o lettere maiuscole/minuscole) si può risalire a consiglio dei delegati. Il riferimento esplicito all’espressione sciolta aiuta anche nei casi di ambiguità risolvibili solo attraverso il contesto (es. c.d è usato per indicare sia consigliere delegato sia comitato direttivo). Nel caso invece delle espressioni semanticamente complesse di tipo terminologico non esistono criteri di individuazione specifici e pertanto si rimanda alla sezione 4.3.2.2.4.1 relativa ai “Criteri di identificazione delle espressioni idiomatiche e composti”. D-84 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4.3.2.6 Casi di mancata corrispondenza tra la risorsa lessicale di riferimento e l’uso attestato In fase di assegnazione di un numero di senso ad una data forma del corpus si possono verificare i seguenti casi problematici: • assenza del lemma; • assenza del senso rilevante di un lemma già presente in IWN; • corrispondenza con più sensi dello stesso lemma. Per il trattamento di questi casi è necessaria una (frequente) interazione tra annotatore del corpus e lessicografi di IWN. 4.3.2.6.1 Assenza del lemma Si possono verificare i seguenti casi: - parole correnti non ancora inserite nel database lessicale di riferimento (perché in costruzione); - nomi propri (anche acronimi e sigle di ogni tipo, es. Andreotti, UNICEF); - parole composte (es. calce viva); - espressioni idiomatiche (es. tagliare la testa al toro); - parole straniere (es. capital_gain); - neologismi (es. gli andreottiani; i piduisti) - terminologia (es. bilancia dei pagamenti) - ecc. Il caso di assenza del lemma nella risorsa lessicale di riferimento è codificato al livello del tratto ns, il cui valore è no_lemma, come illustrato di seguito: • ns=no_lemma Questa assegnazione è da considerarsi come provvisoria in quanto una volta che la risorsa lessicale di riferimento sarà stata integrata con l’informazione mancante sarà sostituita con l’assegnazione definitiva. 4.3.2.6.2 Assenza del senso rilevante di un lemma già presente in IWN Il caso di assenza del senso rilevante di un lemma già presente nella risorsa lessicale di riferimento viene segnalato ai lessicografi in modo che possano effettuare l’integrazione della risorsa: il gruppo dei lessicografi vaglierà l’opportunità di tale integrazione. Le seguenti considerazioni generali forniranno all’annotatore una guida nella selezione dei casi da segnalare come “assenza di senso rilevante”: D-85 Linea 1.1 - Treebank sintattico-semantica dell'italiano 1) non sembra auspicabile la creazione di eccessiva granularità in un lessico semantico con varie finalità applicative in NLP (si veda Fellbaum et al. 1998; Calzolari et al. (in corso di stampa); Voorhees 1998); 2) l’identificazione di un nuovo senso e l’inserimento dello stesso nel database lessicale di riferimento sono fortemente condizionati anche dalle possibilità offerte dal database stesso di identificarlo e descriverlo in modo univoco rispetto agli altri sensi; 3) talvolta i contesti dell’occorrenza determinano più o meno importanti variazioni di significato che tuttavia non possono essere considerati sempre e in ogni caso veri e propri nuovi sensi (ciascun contesto infatti enfatizza determinati tratti semantici di un senso e ne oscura altri senza tuttavia determinare necessariamente l’esistenza di un nuovo significato). A parte queste considerazioni generali, non sembra esistano criteri univoci che possono essere sempre applicati a tutti i lemmi indipendentemente dalla loro POS e dalle loro caratteristiche sintattico-semantiche. Il caso di assenza del senso rilevante di un lemma già presente nella risorsa lessicale di riferimento è codificato al livello del tratto ns, il cui valore è no_senso. Questa assegnazione è da considerarsi come provvisoria in quanto una volta che la risorsa lessicale di riferimento sarà stata integrata con l’informazione mancante sarà sostituita con l’assegnazione definitiva. 4.3.2.6.3 Corrispondenza con più sensi dello stesso lemma Nel caso l’occorrenza in corso di annotazione trovi corrispondenza con più sensi dello stesso lemma, si procede come segue: 1. quando c’è una corrispondenza simultanea con più sensi dello stesso lemma, ad esempio S1 e S2, le due alternative sono fornite come segue: S1 & S2; Per esempio, mantenere che significa 1. tenere, far durare in modo che non venga meno (i contatti) e 2. tenere saldo, difendere (un primato), figura nel corpus nei seguenti contesti:. - le Nazioni Unite dispongono di forze armate proprie per mantenere la pace Potranno essi ad esempio mantenere la loro condizione di neutralità? Mentre taluni donatori sono disposti a mantenere l’attuale livello dei loro stanziamenti di aiuto Un altro esempio è conoscere che può significare sia 1. sapere, avere esperienza che 2. avere notizia, cognizione di qualcosa. Negli esempi del corpus coesistenza dei due significati permane: - La Commissione conosce i gravi problemi che la siccità pone all’agricoltura portoghese La Commissione conosce perfettamente l’insoddisfacente situazione fiscale in cui si trovano le persone soggette all’imposta sul reddito In entrambi i casi riportati sopra, l’annotatore segnalerà la pertinenza di entrambi i sensi ai contesti annotati fornendo le due alternative congiunte. 2. in casi di ambiguità del contesto, ovvero quando non vi siano elementi per poter discriminare ad esempio tra S1 ed S2 si annota come segue: S1 | S2. Va detto che questo caso è previsto D-86 Linea 1.1 - Treebank sintattico-semantica dell'italiano essenzialmente per completezza delle specifiche di annotazione dal momento che nell’annotazione di un testo continuo ci si aspetta che i contesti realmente ambigui siano pochi. Diamo qui di seguito un esempio. Mantenere che può significare 1.tenere, far durare in modo che non venga meno (i contatti) e 2. finanziare, figura nella frase: - Intende il Consiglio dei ministri della CEE mantenere ed eventualmente sviluppare un’attività di produzione europea in questo settore? In assenza di un contesto più ampio, non è possibile selezionare tra i due sensi indicati sopra quello appropriato. In questo caso l’annotazione corretta dovrebbe segnalare l’ambiguità del contesto assegnando all’attributo ns una disgiunzione di sensi possibili (1 e 2). I casi di corrispondenza con più sensi dello stesso lemma menzionati sopra sono codificati al livello del tratto ns il cui valore sono più sensi in relazione di congiunzione o disgiunzione: • ns=S1&S2; S1|S2 5 Metodologia di annotazione 5.1 Metodologia di annotazione per il livello sintattico (a costituenti e funzionale) L’annotazione per i livelli di annotazione sintattica, a costituenti e funzionale, procederà testo per testo, e - all’interno di questo - frase per frase, dove la frase è definita come unità testuale compresa tra due segni di interpunzione “forte”. L’input sarà costituito dal testo annotato morfo-sintatticamente, con: • indicazioni relative alla struttura del testo (titolo, didiscalia, sottotitolo, etc.); • espressioni polilessicali già marcate; a questo livello, saranno marcate solo multi-word espressions non soggette a variazioni, valide per tutti i livelli di annotazione previsti per la Treebank di SI-TAL. Nel corso della linea 1.1 è stata anche considerata attentamente la possibilità di una preannotazione automatica del testo, da effettuarsi con gli analizzatori sintattici messi a disposizione in SiSSA all’interno del progetto. Questa possibilità è stata esclusa a priori in considerazione di diversi fattori, riguardanti sia il software di annotazione sia lo schema di annotazione. Innanzitutto, sono state valutate le difficoltà che analisi multiple, sia espresse in termini di “packed shared forest” (prodotta utilizzando la tecnica di “local ambiguity packing”) sia in termini di semplice lista di analisi alternative, avrebbero introdotto al livello del software di annotazione. Se infatti la frase in corso di annotazione si presenta come ambigua, circostanza abbastanza frequente, il tool di annotazione avrebbe dovuto memorizzare le analisi ambigue sulle quali l’annotatore avrebbe dovuto operare. I problemi derivanti dalla memorizzazione di analisi ambigue sono ben noti nel campo dei database sintattici (si rinvia a Van Halteren 1997 per una rassegna dei problemi e delle soluzioni proposte nella letteratura); questo problema appare nettamente ridimensionato nel caso in cui l’ambiguità da gestire è circoscritta a quella reale e non includa anche D-87 Linea 1.1 - Treebank sintattico-semantica dell'italiano ambiguità spurie che sono catturate da un analizzatore sintattico sulla base di una conoscenza limitata. Inoltre, nel caso di analisi multiple, si sarebbero dovute stabilire strategie per selezionare la base di pre-annotazione: nel caso di analisi alternative si sarebbero dovuti fornire criteri per l’identificazione dell’analisi più probabile; nel caso di rappresentazioni compatte (espresse in termini di “packed shared forest”) si sarebbe dovuta creare un’interfaccia per l’annotatore umano per la ricostruzione dell’analisi appropriata al contesto. Tutti questi sforzi andavano al di là delle finalità specifiche del tema Treebank e per questo motivo si è deciso di procedere ad un’annotazione completamente manuale. Altri fattori che hanno contribuito a questa decisione riguardano gli schemi di annotazione adottati per la Treebank. Date le finalità di uso di una Treebank, lo schema di annotazione deve essere compatibile con un ampio spettro di schemi di annotazione effettivamente usati nell’ambito di sistemi di elaborazione del linguaggio. D’altro canto, questo requisito di compatibilità non è necessariamente soddisfatto dall’output di un analizzatore sintattico, che è guidato da motivazioni di varia natura che vanno dall’architettura nella quale si inserisce alle finalità per le quali è stato sviluppato ecc. Quindi anche nel caso si fosse deciso di partire da un testo preanalizzato, ciò non avrebbe escluso la necessità di revisioni manuali anche nel caso di analisi corrette per rendere l’output dell’analizzatore conforme allo schema di annotazione adottato. 5.1.1 Modalità dell’annotazione a costituenti L’annotazione sintattica a costituenti viene realizzata rispetto al testo annotato morfosintatticamente, all’interno del quale l’annotatore dovrà compiere delle operazioni di parentesizzazione e di assegnazione di etichette di costituenza sintattica. Questa operazione potrà, e in alcuni casi dovrà, essere compiuta in più passi. L’annotatore manuale del livello sintattico in costituenti avrà a propria disposizione la versione del testo in forma tipografica e in forma annotata morfo-sintatticamente. La prima gli servirà per avere una visione d’insieme del contesto in cui sta operando e la seconda per eseguire passo per passo la parentesizzazione in costituenti delle parole (tokens) annotate morfo-sintatticamente. 5.1.1.1 Parentesizzazione di base L’annotazione sintattica in costituenti procederà raggruppando le parole taggate e assegnando a ciascun gruppo un’etichetta di costituenza sintattica. Questa operazione si potrà compiere in fasi successive, partendo prima dai costituenti di base e risalendo dal basso verso l’alto (in maniera bottom-up) a quelli gerarchicamente più alti all’interno dei quali inserire o raggruppare quelli di base. Se prendiamo come esempio la frase transitiva attiva Giovanni ha letto molti libri di Maria, che avrà la seguente rappresentazione morfo-sintattica: 1. 2. 3. 4. 5. 6. 7. 8. Giovanni GIOVANNI#SP@MS# ha AVERE#V@S3IP# letto LEGGERE#V@MSPR# molti MOLTO#A@MP# libri LIBRO#S@MP# di DI#E@# Maria MARIA#SP@FS# . .#@@# D-88 Linea 1.1 - Treebank sintattico-semantica dell'italiano Possiamo simulare le operazioni di parentesizzazione nei seguenti passi: PASSO 1 i. costruisci il primo SN sn-[SP-Giovanni] ii. costruisci IBAR ibar-[V-ha, V-letto] iii. costruisci il secondo SN sn-[A-molti, S-libri] iv. costruisci il SPD spd-[E-di] v. costruisci il quarto SN sn-[SP-Maria] A questo punto, dato che i costituenti costruiti coprono tutte le parole della frase, è possibile chiudere l’analisi consumando il segno di punteggiatura che la demarca. 5.1.1.2 Parentesizzazione dei costituenti dominanti A questo punto può quindi partire il secondo livello di parentesizzazione. L’annotatore riceve la sequenza di costituenti di base che ha creato e può compiere due tipi di operazioni: A. assegnare nuove etichette a costituenti che sono complementi di una testa lessicale; B. includere un costituente di base in un costituente che lo domina; C. includere più costituenti dominanti all’interno di un costituente padre. Per una operazione di tipo A. abbiamo ad esempio l’assegnazione di un costituente come COMPT che serve a indicare il tipo di complementazione prevista per il verbo leggere, che è un verbo transitivo al participio passato. In questo caso l’annotatore dovrà selezionare un costituente ed assegnare una delle possibili etichette di livello gerarchicamente più alto. Il costituente SN illustrato al passo iii. sarà dunque incassato in un costituente COMPT come illustrato sotto: compt-[sn-[A-molti, n-libri]] Per operazioni di tipo B. abbiamo il caso del SPD che necessita di un SN per poter essere completato. In questo caso l’annotatore dovrà selezionare due costituenti e stabilire nell’ordine quale dei due domina l’altro. Questa operazione è ovviamente di tipo ricorsivo, per cui dopo aver proceduto bottom-up ad individuare le dipendenze più basse si può passare ad individuare quelle più alte. Tornando ai costituenti costruiti ai passi iii, iv e v illustrati sopra si ottiene il risultato che segue: spd-[E-di, sn-[SP-Maria]] compt-[sn-[A-molti, S-libri, spd-[E-di, sn-[SP-Maria]]]] La situazione a questo punto è la seguente: D-89 Linea 1.1 - Treebank sintattico-semantica dell'italiano sn-[SP-Giovanni] ibar-[V-ha, V-letto] compt-[sn-[A-molti, S-libri, spd-[E-di, sn-[SP-Maria]]]] e l’annotatore è in grado a questo punto di compiere l’ultimo passo, quello che prevede l’inclusione di costituenti dominanti all’interno di un nuovo costituente “funzionale” (cfr sezioni 4.1.3.3.1 e 4.1.3.3.2), cioè privo di testa e non governato da una testa lessicale come nel caso di COMPT. Questo è il caso tipico del costituente F che raggruppa nel nostro esempio tutti i costituenti precedenti all’interno di un unico livello di parentesizzazione: f-[sn-[SP-Giovanni], ibar-[V-ha, V-letto], compt-[sn-[A-molti, S-libri, spd-[E-di, sn-[SP-Maria]]]]] 5.1.2 Modalità dell’annotazione funzionale Per il livello di annotazione funzionale, l’annotazione dovrebbe procedere come segue: 1. selezione delle unità rilevanti che definiscono una relazione funzionale, di dipendenza o di altro tipo, secondo la tipologia che segue: • relazione di dipendenza: selezionare prima la testa poi il dipendente; • relazione di congiunzione/disgiunzione: selezionare gli elementi congiunti/disgiunti secondo l’ordine di realizzazione a livello superficiale; • relazione di legame: selezionare prima l’elemento legato (tipicamente un pronome) poi l’elemento legante (tipicamente l’antecedente o l’elemento dislocato); 2. specificazione della relazione sussistente tra le due unità selezionate; 3. definizione della tipologia dei tratti che descrivono i singoli elementi della relazione e dei valori loro associati. I dati di partenza di questa fase dell’annotazione sono costituiti congiuntamente da a) il tipo di relazione e b) la parte del discorso e le proprietà morfo-sintattiche dei singoli elementi, già contenuti nell’input per entrambe le unità della relazione. La compilazione dei tratti e dei relativi valori associati alla testa e al dipendente della relazione dovrebbe poter essere guidata da un menu a tendina che, sulla base di a) e b), potrebbe guidare l’annotatore nella selezione dei tratti e dei relativi valori. Nella fase di verifica dello schema di annotazione funzionale (primi mesi della linea 1.2) verrà anche valutata la possibilità di associare un valore di default ad alcuni dei tratti associati agli elementi della relazione che l’annotatore dovrebbe poter eventualmente ridefinire. A conclusione dell’annotazione di ogni frase, dovrebbe essere possibile una verifica automatica della copertura dell’annotazione effettuata. Elenchiamo di seguito possibili strategie per la verifica della copertura dell’annotazione effettuata rispetto all’input da annotare: • a parte elementi che sappiamo che a priori non entrano in relazioni di dipendenza (cioè elementi grammaticali quali i determinativi, gli ausiliari ed altri verbi in costruzioni perifrastiche quali i modali, i complementatori, le preposizioni, etc. così come la punteggiatura), tutte le unità testuali dovrebbero entrare in almeno una relazione di dipendenza, o come testa o come dipendente; D-90 Linea 1.1 - Treebank sintattico-semantica dell'italiano • a questa strategia di base, si possono aggiungere euristiche di tipo linguistico quali: • la presenza di certi tipi di relazioni e tratti nell’annotazione implicano la specificazione di altre relazioni di dipendenza; ad esempio, nel caso di completive infinitivali con funzione di complemento in costruzioni a controllo e a sollevamento così come di infinitive, participiali e gerundive con funzione di modificatore, il soggetto “implicito” va specificato come illustrato dagli esempi che seguono: sogg (partire, Giovanni) Giovanni promise a Maria di partire sogg (partire, Maria) Giovanni ordinò a Maria di partire sogg (partire, Maria) Maria fu costretta a partire sogg (arrivare, Giovanni) Giovanni sembra arrivare domani sogg (finire, Giovanni) Finito il lavoro, Giovanni partì sogg (finire, Giovanni) Giovanni partì presto per finire il lavoro quindi l’assenza della specificazione del soggetto in relazione alla testa verbale di complementi frasali di modo non finito dovrebbe essere segnalata all’annotatore, anche se vi saranno casi in cui questa segnalazione non darà luogo a nessuna variazione nell’annotazione (i casi del cosiddetto “controllo arbitrario”); • l’annotazione di una frase con testa verbale di modo finito deve sempre contenere la specificazione del soggetto; è vero che ci sono eccezioni (ad esempio, nel caso di construzioni impersonali), ma sarebbe utile segnalare l’assenza della specificazione del soggetto all’annotatore in modo che possa verificare se si tratti o meno di un errore di annotazione. Da notarsi che nel caso dell’annotazione funzionale non tutti gli elementi della relazione corrispondono ad una unità del testo di input: questi casi particolari sono costituiti da ellissi di vario tipo, ad esempio: • ellissi del soggetto: ho mangiato due mele sogg(mangiare, .<pers=1,num=sing>) • ellissi della testa verbale: Carlo legge il libro e Maria il giornale sogg(LEGGERE, Maria) Le modalità di annotazione di questi elementi che non trovano una corrispondenza al livello dell’input verranno dettagliate in seguito, nel corso della linea 1.2. 5.2 Metodologia di annotazione per il livello semantico-lessicale Anche nel caso dell’annotazione semantico-lessicale si è valutata attentamente la possibilità di una pre-annotazione automatica, che è stata esclusa in quanto la risorsa lessicale di riferimento, IWN, è ancora in corso di sviluppo. In particolare, sono state prese in considerazione due possibili strategie: D-91 Linea 1.1 - Treebank sintattico-semantica dell'italiano • assegnare automaticamente il senso a tutte le parole che nella risorsa di riferimento sono registrate come monosemiche: ma non è detto che nella fase di revisione della risorsa le parole monosemiche rimangano tali e dunque non è detto che quanto assegnato automaticamente non richieda ulteriori revisioni; • usare sistemi per la disambiguazione di senso disponibili tra i partners del progetto (ad esempio, SENSE, Federici et al. 1999): anche in questo caso il fatto che la risorsa lessicale di riferimento sia in costruzione ostacola la costruzione di un training corpus adeguato per il compito. Da ciò consegue che anche per questo livello l’annotazione sarà completamente manuale. Diversamente dall’annotazione per i livelli sintattici, che procederà secondo la sequenza del testo, l’annotazione semantico-lessicale, che nell’ambito del progetto è circoscritta a nomi, verbi e aggettivi, procederà lemma per lemma. Tra i vantaggi dell’annotazione per lemma si annovera: • la coerenza nell’annotazione e nel trattamento dei singoli lemmi e delle espressioni polilessicali; • a dispetto del fatto che può sembrare una procedura più lunga perché costringe a leggere più volte uno stesso contesto, questa procedura comporta una riduzione globale dei tempi di annotazione in quanto: • si consulta IWN una volta sola per ogni lemma; • una volta compresa una certa distinzione di senso la si applica rapidamente ed in modo coerente; • è più facile per l’annotatore ricordarsi di come ha trattato un certo lemma e decidere eventuali correzioni sistematiche a posteriori; • favorisce un trattamento uniforme e semplificato di costruzioni con verbi supporto, alterati, metafore lessicalizzate, ecc.; • semplifica l’interazione e la discussione con i lessicografi di IWN (che può procedere caso per caso senza ritornare più volte sullo stesso lemma). L’annotazione per lemma dovrebbe procedere come segue: • recupero di tutte le occorrenze nel testo di un lemma dato; • per ogni occorrenza da annotare, prendere visione del contesto in cui occorre, innanzitutto la frase; se necessario, in seconda istanza il paragrafo che contiene la frase oppure l’intero articolo. L’annotazione della singola occorrenza di un lemma consiste in: • selezione nel testo dell’occorrenza da annotare, che può essere costituita da: • parola singola, oppure D-92 Linea 1.1 - Treebank sintattico-semantica dell'italiano • • più parole del testo, non necessariamente adiacenti; questo è il caso delle espressioni polilessicali, che includono ad esempio, espressioni idiomatiche, ecc.; per ogni unità semantica da annotare, sulla base dei tratti relativi alle singole parole già contenuti nell’input (in particolare, lemma, parte del discorso e proprietà morfo-sintattiche), si procederà a: • l’assegnazione del senso appropriato al contesto, selezionato tra quelli presenti nel database di IWN; • in casi di a) ambiguità, oppure b) più sensi che risultano appropriati per lo stesso contesto, dovrebbe essere possibile ricorrere a disgiunzione/congiunzione di sensi (S1 & S2 per trattare il caso b; S1|S2 per trattare il caso a); • assegnazione di tratti aggiuntivi (espressi in termini di coppie attributo-valore) all’annotazione per senso: questi tratti si suddividono in i) tratti addizionali di classificazione semantica, e ii) marche ad uso dell’annotatore; • infine, dovrebbe anche essere possibile inserire un breve commento ad uso dell’annotatore (ove necessario). 5.2.1 Integrazioni richieste della risorsa lessicale di riferimento: casistica In questa sezione, vengono fornite indicazioni per la formulazione di proposte di integrazione alla risorsa lessicale di riferimento, ovvero IWN, sulla base dell’evidenza del corpus. Le proposte verranno trasmesse al gruppo dei lessicografi che le valuteranno e procederanno eventualmente all’inserimento delle nuove unità di senso. Una volta che la risorsa lessicale di riferimento sarà stata eventualmente aggiornata, l’annotatore potrà ritornare sulle annotazioni lasciate in sospeso a causa di lacune della risorsa o al livello di lemma o di senso e sostituire i valori no_senso e no_lemma con il numero di senso appropriato o con no nel caso in cui il lemma mancante (per esempio un nome proprio) non sia stato aggiunto alla risorsa lessicale di riferimento. 5.2.1.1 Criteri per la definizione di un nuovo senso I casi di mancata corrispondenza tra la risorsa lessicale di riferimento e l’uso attestato sono stati illustrati nella sezione 4.3.2.6 di questo Capitolo. In questa sezione ci concentreremo sui criteri da adottare per l’identificazione di nuovi sensi, che guideranno sia la proposta di articolazione in sensi di un lemma assente, sia la proposta di un nuovo senso relativo ad un lemma già presente nella risorsa di riferimento. Nonostante sia ampiamente riconosciuto che non esistono criteri univoci e sicuri per l’identificazione di nuovi sensi applicabili indifferentemente a tutte le parti del discorso, è possibile identificare una lista di “indicatori” formali, sintattici, semantici e multilingui che, congiuntamente o meno, possono suggerire l’esistenza di un nuovo senso. Va detto che la componente soggettiva nell’interpretazione e individuazione del nuovo senso rimane tuttavia cruciale. Anche per questo è auspicabile una interazione con i lessicografi affinché le decisioni, specialmente quelle relative ai casi più complessi o controversi, siano prese con criteri il più possibile omogenei. La batteria di criteri che segue combina criteri sintattici, semantici e di natura multilingue (quest’ultimo particolarmente rilevante quando si prenda in considerazione l’uso del corpus D-93 Linea 1.1 - Treebank sintattico-semantica dell'italiano annotato semanticamente per applicazioni quali la traduzione automatica). Essi sono in parte derivati dalla letteratura corrente (citata in relazione ad ogni singolo criterio) e sono in parte derivati dai criteri di identificazione di senso nell’ambito della costruzioni di lessici computazionali finalizzati al NLP e, in SI-TAL, dal modo in cui i lemmi sono caratterizzati e differenziati in IWN. Criterio Formale Sintattico: 1. un senso può essere caratterizzato da una specifica costruzione sintattica diversa da quella degli altri sensi di uno stesso lemma. Per esempio, se consideriamo la frase comprendo che il problema è politico, la costruzione sintattica “V + completiva introdotta da che” seleziona in modo univoco il senso di comprendere equivalente a capire e non a includere. Va detto che questo criterio non basta da solo a identificare un nuovo senso: si confrontino ad esempio le due costruzioni di pensare: penso di partire / penso che partirò. Tuttavia, quando combinato con altri criteri, può fornire evidenza utile all’identificazione di distinzioni di senso (Moon, 1987; Hanks, 1996; Monachini et al., 1994; Calzolari et al. 1996; Atkins et al. 1998); Criteri Semantici: 2. nel caso di un lemma con una struttura argomentale, può accadere che uno specifico senso richieda argomenti con caratteristiche semantiche diverse da quelle compatibili con gli altri sensi del lemma. Per esempio, il verbo arrestare nel senso di sottoporre ad arresto e non fermare richiede un oggetto diretto che sia di tipo umano o gruppo (umano). Da ricordare che questo criterio è affidabile ma si applica solo a lemmi con struttura ad argomenti (Moon, 1987; Hanks, 1996); 3. un senso del lemma è descrivibile semanticamente (attraverso ‘tipi semantici’ o ‘base concepts’) in modo diverso dagli altri sensi (per esempio, acquisto può essere un “oggetto concreto” o una “attività”); 4. un senso può avere uno o più sinonimi (o contrari) che sono tutti o in parte diversi da quelli degli altri sensi (si vedano i “synsets” forniti per ogni senso del database lessicale di IWN): per esempio, comprendere/capire e comprendere/includere. Questo costituisce un altro criterio utile ed affidabile, la cui applicabilità però è ristretta dal fatto che non tutti i lemmi hanno dei sinonimi o dei contrari (Cruse, 1986; Moon, 1987); 5. un senso del lemma è usato in un campo semantico/dominio terminologico particolare e ben delimitato (es. medicina, legge, informatica ecc.) comunque diverso da quello degli altri sensi Per esempio, il verbo perseguire acquista un significato specifico in ambito giuridico/legale (es. perseguire un reato, il colpevole ecc.) che non è cercare di raggiungere come in perseguire un obiettivo; 6. due sensi diversi dello stesso lemma sono antagonisti tra loro, cioè non possono essere selezionati entrambi contemporaneamente dallo stesso contesto (Cruse, 1986) (per esempio, ?Leo arresta sia il colpevole che il corso degli eventi). 7. un senso può essere selezionato univocamente da un particolare modificatore che non cooccorre con gli altri sensi (Monachini et al., 1994; Calzolari et al. 1996; Levin, 1991). Per esempio il modificatore bene/ benissimo seleziona il senso di comprendere corrispondente a capire e non a includere (es. comprendere benissimo il problema/*diversi nomi di candidati).; Criterio Multilingue: D-94 Linea 1.1 - Treebank sintattico-semantica dell'italiano 8. due sensi diversi sono traducibili in modo diverso. Per esempio, grande in senso morale ha una traduzione diversa da grande in senso fisico (es. un grande tavolo = big table; un grande uomo = a great man). Tuttavia questo criterio non è del tutto affidabile perchè i) dipende dalle lingue prese in considerazione, ii) due traduzioni diverse non identificano necessariamente due sensi diversi (es. nella lingua bulgara ci sono due termini diversi per orso femmina e orso maschio), iii) talvolta l’ambiguità di senso di una lingua è mantenuta anche nell’altra (es. ‘interesse’/’interest’). (Gale et al., 1992). Riportiamo di seguito alcuni esempi problematici ed illustriamo come i criteri enunciati sopra possono aiutare l’annotatore nella formulazione di proposte per quanto riguarda il senso della parola in corso di annotazione nel contesto specifico. Per la discussione di questi esempi sono state prese come risorse lessicali di riferimento: IWN, Garzanti (1994) e Zingarelli (1997). Esempio 1: • Cossiga apre a La Malfa, sferza i partiti e ripete: il vecchio sistema è finito Il significato di aprire in questo contesto non figura né in IWN, né nel Garzanti, né nello Zingarelli. Si tratta di un significato molto legato al linguaggio giornalistico e della politica. Questo senso ha una costruzione sintattica specifica, qualcuno apre a qualcuno che è diversa dagli altri usi del verbo perché l’oggetto indiretto è obbligatorio (mentre si può dire Cossiga ha aperto (la porta)) e non esiste alcun oggetto diretto sottinteso (mentre si dice Cossiga apre (la porta) alla cameriera)) (Criterio_1). Sia il soggetto che l’oggetto indiretto devono essere necessariamente di tipo ‘umano / istituzione / gruppo umano’ (Criterio_2). Le seguenti costruzioni appaiono inaccettabili: *la cameriera apre a chi bussa alla porta, così Cossiga a La Malfa ; *Cossiga apre a La Malfa e alla cameriera (Criterio_6). Infine la traduzione di aprire in questo senso non è to open (Criterio_8) . Esempio 2: Si considerino i seguenti contesti di perseguire: • Si libereranno così molti uomini e molte forze oggi impegnate su questo reato, che preferirei vedere impegnate, ad esempio, nel perseguire il reato di evasione fiscale • ho fatto l’esperienza su di me: quando il giudice Violante perseguì questo valoroso combattente antifascista tra i più decorati … mi chiedo se quel modello di giovane mamma persegua il bene di suo figlio Perseguono con pragmatica durezza i loro obiettivi I primi due contesti (contrassegnati da un pallino) esemplificano un significato diverso da quello attestato nei contesti successivi (contrassegnati da un quadratino). Questa intuizione non trova conferma nelle risorse lessicali prese come riferimento: IWN, Zingarelli e Garzanti non distinguono i due sensi di perseguire. Passiamo dunque a valutare la situazione applicando la batteria di criteri riportata sopra. Non sembra ci siano sinonimi precisi per i due sensi, tuttavia se si usa una perifrasi si avverte maggiormente la differenza tra i due significati: cercare di raggiugere uno scopo/ *un reato; *una persona (Criterio_4). Perseguire un reato / una persona ha un significato specifico in ambito D-95 Linea 1.1 - Treebank sintattico-semantica dell'italiano giuridico e legale ed in effetti questo senso del verbo co-occorre nel corpus con altre parole dello stesso campo semantico (es. reato, violazione, delinquenza, evasione fiscale, evasori, presunto colpevole, imputato, crimine, magistrato, tribunale, Corte dei Conti ecc.) (Criterio_5). Infine, l’oggetto diretto nel primo esempio ha una connotazione fortemente negativa, mentre perseguire uno scopo ne ha una positiva. Tuttavia quest’ultimo criterio è soltanto parzialmente applicabile e quindi non è particolarmente discriminante (es. perseguire un innocente / perseguire la distruzione dello stato). Ciò che appare certo è che soltanto con il significato legale, giuridico, perseguire può avere come oggetto diretto un ‘umano, entità vivente’ (Criterio_2). Criterio_6: appaiono semanticamente inaccettabili le seguenti frasi: *Leo persegue il suo scopo, così il giudice l’imputato; *Leo ha perseguito il suo scopo e l’imputato. Infine da un punto di vista della traduzione c’è una differenza tra i due sensi (to pursue/to prosecute; to indict) (Criterio_8). 6 Specifiche del software per l’annotazione e la navigazione nella Treebank Il sistema Gestalt (Grafical TAL annotation tool) ha lo scopo di gestire la base di testi annotati ai livelli sintattico, a costituenti e funzionale, e semantico-lessicale. Il sistema è pensato per facilitare il lavoro degli annotatori e dei validatori da un lato e degli utenti e utilizzatori della Treebank dall’altro. In quanto segue, si farà costantemente riferimento agli annotatori ed ai validatori dato che le esigenze dei futuri utenti sono state identificate con quelle dei validatori. La gestione consiste nella possibilità di salvare, modificare, consultare e interrogare tutte le informazioni relative ai testi del corpus e alle annotazioni sintattiche, a costituenti e funzionali, e semantiche su di essi fatte. Per ciascuna tipologia di utenza corrente (annotatori e validatori) il sistema fornisce le informazioni necessarie per prendere la decisione sull’annotazione come definito nei requisiti utente (l’annotazione è divisa in tre livelli: (i) livello sintattico a costituenti; (ii) livello sintatticofunzionale; (iii) livello semantico-lessicale). Per ottimizzare i tempi è stato concordato che le diverse modalità di annotazione vengano prodotte contemporaneamente, per cui il sistema supporterà gli annotatori che lavoreranno separatamente su porzioni della base di documenti e annoteranno un livello singolo. I validatori lavoreranno su porzioni della base di documenti e navigheranno tra i tre livelli di annotazione. Le esigenze diverse poste dalle varie tipologie di utenti portano a definire un sistema disaccoppiato composto da quattro sottosistemi: (i) sottosistema di annotazione sintattica a costituenti SinTAS; (ii) sottosistema di annotazione sintattico-funzionale FunTAS; (iii) sottosistema di annotazione semantico-lessicale SemTAS; (iiii) sottosistema di validazione ValTAS. L’interoperabilità dei sottosistemi è garantita dalla tecnologia comune utilizzata nel loro sviluppo e dalle rappresentazioni comuni delle annotazioni dei documenti che essi adottano. I sottosistemi di annotazione (ovvero SinTAS, FunTAS e SemTAS) richiedono lo sviluppo di interfacce grafiche al fine di presentare efficacemente sia il corpus che le annotazioni pertinenti. All’interno di questi sottosistemi è possibile modellare la gestione dei documenti per quanto concerne le operazioni di ricerca e modifica delle annotazioni. Le necessità di gestione dei documenti imposte dal sottosistema di validazione ValTAS sono molteplici e quindi richiedono una versatilità quale quella fornita dal linguaggio di interrogazione di un sistema di gestione di basi di dati. D-96 Linea 1.1 - Treebank sintattico-semantica dell'italiano In questa sezione vengono analizzati i requisiti funzionali del sistema Gestalt (§ 6.1) studiandoli nei vari sottosistemi (§§ 6.1.1, 6.1.2, 6.1.3 e 6.1.4), vengono presentate le relative architetture (§ 6.2) e i requisiti software del sistema complessivo(§ 6.3). 6.1 Requisiti Funzionali Il sistema di annotazione è progettato per soddisfare le esigenze di quattro classi di utenti della treebank: gli annotatori della struttura sintattica a costituenti, gli annotatori della struttura sintattico-funzionale, gli annotatori semantico-lessicali e i validatori. Gli annotatori creano la risorsa treebank partendo da una base di documenti annotata morfo-sintatticamente, mentre i validatori controllano che la risorsa sia stata ben annotata. Vengono descritte in questo paragrafo le interfacce che il sistema Gestalt propone alle differenti classi di utenti e il sottoinsieme della base di documenti annotata (BDA) che viene trattato dalla singola classe di utenti. Il lavoro degli annotatori e quello dei validatori differisce per tipologia di operazioni che fanno sulla BDA e sulla visibilità che questi vogliono avere sui dati. Le tre classi di annotatori (sintattici a costituenti e funzionali, e semantico-lessicali) sono interessate a partire dalla base di documenti così come è annotata allo stato iniziale (ovvero morfo-sintatticamente) per produrre la loro tipologia di rappresentazione (rispettivamente annotazioni sintattiche a costituenti, sintattico-funzionali e semantico-lessicali). Quindi tali classi di utenti intendono lavorare ognuno, separatamente, al proprio livello. A loro, dunque, viene fornita dai sistemi SinTAS, FunTAS e SemTAS una visione parziale della BDA. Al contrario, i validatori necessitano di una visione globale della BDA che permetta loro sia di verificare le scelte fatte dagli annotatori sia di verificare la congruenza tra livelli. Il lavoro degli annotatori è caratterizzato da una procedura di annotazione e da un sottoinsieme di informazioni della BDA su cui questi operano. Per gli annotatori vengono costruiti tre sistemi SinTAS, FunTAS e SemTAS indipendenti che seguono gli stessi standard e che confluiranno come parti nel sistema ValTAS dei valutatori. L’indipendenza tra i sottosistemi ha il duplice scopo di rendere più agile l’annotazione ed evitare l’interferenza tra i livelli. Il sistema è globale è rappresentato nella Figura 1. Il sistema Gestalt facilita il passaggio dal corpus annotato morfo-sintatticamente al corpus annotato ai livelli sintattici e semantico-lessicali attraverso i sottosistemi componenti dedicati SinTAS, FunTAS, SemTAS e ValTAS. Gestalt SemTAS FunTAS ValTAS SinTAS Corpus TAL-Treebank Corpus annotato ai livelli sintattico, funzionale e semantico Figura 1 Gestalt: sistema di gestione dell’annotazione del treebank sintattico-semantico D-97 Linea 1.1 - Treebank sintattico-semantica dell'italiano Per ciascuna sottoparte del sistema rivolta agli annotatori vengono specificate le funzionalità che il sistema implementa per la particolare classe in termini di: (i) procedura di annotazione che viene favorita; (ii) sottoinsieme di informazioni contenute nella BDA che viene utilizzato e le modalità di accesso che vengono richieste; (iii) funzionalità dell’interfaccia utente del sistema per la particolare classe di utenti. 6.1.1 Annotazione Sintattica a costituenti L’annotazione sintattica ha lo scopo di fornire una rappresentazione sintattica di ogni frase appartenente al corpus. Il punto di partenza è il corpus in cui tutte le parole (e/o multi-word) sono morfo-sintatticamente analizzate (si veda sezione 2 per maggiori dettagli). L’annotazione procede per frase così come queste sono presenti nel testo. In fase di annotazione, il contesto della frase analizzata è necessario per prendere decisioni di annotazione. L’interfaccia utente visualizzerà in forma grafica l’interpretazione sintattica relativa a ciascuna frase nello stato in cui essa si trova, la stessa frase analizzata morfo-sintatticamente e il documento in cui questa frase è situata. Permetterà inoltre la definizione e la modifica dei costituenti complessi tramite l’accorpamento di costituenti semplici o complessi e la divisione di costituenti complessi. In tale modo supporterà procedure di annotazione top-down, bottom-up e ibride. Operazioni di accorpamento di nodi terminali o non terminali e di divisione di non terminali renderanno possibile il controllo a video dello stato di annotazione della frase. Inoltre, lo stato di annotazione dell’intero corpus, in base allo stato di annotazione delle singole frasi, verrà anche reso disponibile. Il sottosistema infatti permetterà di memorizzare l’interpretazione sintattica relativa ad ogni frase e lo stato dell’annotazione stessa. 6.1.2 Annotazione Sintattico-funzionale L’annotazione funzionale ha lo scopo di fornire una rappresentazione funzionale di ogni frase appartenente al corpus. Il punto di partenza è il corpus in cui tutte le parole (e/o multi-word) sono morfo-sintatticamente analizzate: questo insieme di informazioni è lo stesso utilizzato come sorgente per la annotazione a costituenti. L’annotazione procede per frase così come queste sono presenti nel testo. In fase di annotazione, il contesto della frase analizzata è necessario per prendere decisioni di annotazione e quindi deve essere accessibile all’annotatore (cioè visualizzato in forma esplicita). L’interfaccia utente inoltre visualizzerà in forma grafica l’interpretazione funzionale relativa ad una frase nello stato in cui essa si trova, la stessa frase analizzata morfo-sintatticamente e il documento in cui questa frase è situata. Permetterà di definire e modificare le relazioni funzionali tra le parole della frase partendo dalle relazioni funzionali esistenti e dalle parole analizzate morfosintatticamente. Il sottosistema permetterà di memorizzare l’interpretazione funzionale relativa ad ogni frase e lo stato dell’annotazione stessa. 6.1.3 Annotazione Semantico-Lessicale L’annotazione semantico-lessicale ha lo scopo di fornire una rappresentazione semantica per ogni parola piena appartenente al corpus. Il punto di partenza è il corpus in cui tutte le parole (e/o multi-word) sono morfo-sintatticamente analizzate: questo insieme di informazioni è lo stesso D-98 Linea 1.1 - Treebank sintattico-semantica dell'italiano utilizzato come sorgente per la annotazione sintattica e funzionale. L’annotazione procede per unità semantico-lessicale (ovvero un lemma o un gruppo di lemmi). In fase di annotazione di una unità semantico lessicale, il contesto interessante è rappresentato da tutte le frasi del corpus contenenti tale unità. Si desidera procedere annotando tutte le occorrenze di una unità semantico-lessicale. Nell’analisi di una unità semantica semplice (corrispondente ad un lemma), l’annotatore può decidere di costruire una unità semantica complessa (composta di più lemmi non necessariamente contigui). L’interfaccia del sottosistema visualizzerà l’insieme delle frasi del corpus contenenti una istanza dell’unità semantica in analisi, fornendo la possibilità di inserire o modificare le interpretazioni semantiche dell’unità in ogni sua occorrenza. Le possibili interpretazioni semantiche sono quelle fornite da Italwordnet. La disponibilità di entrambe le interfacce (cioe’ SemTas e ItalWordnet) sulla stessa piattaforma renderà possibile nella prima fase della annotazione mettere a disposizione degli annotatori le informazioni necessarie (insieme dei sensi e frasi). Le azioni che il sottosistema compierà sulla base di documenti sottostante sono la definizione e la modifica delle unità semantiche e delle interpretazioni ad esse relative. 6.1.4 Validazione La validazione ha lo scopo di controllare che il lavoro di annotazione precedentemente compiuto dagli annotatori sia corretto e qualora non lo sia, ha lo scopo di provvedere alla sua correzione. Il punto di partenza è il corpus in cui tutte le parole (e/o multi-word) sono morfo-sintatticamente analizzate oltre ai risultati delle tre diverse fasi di annotazioni sintattiche, funzionali e semantiche. La procedura di validazione è non vincolata. Poiché i validatori sono interessati allo stato di validazione del corpus e sono interessati a visionarlo nel modo più libero possibile, ad essi deve essere fornita la capacità elaborativa e di interrogazione tipiche di un sistema di gestione di base di dati. 6.2 Architettura del sistema Il sistema sarà composto di quattro sottosistemi indipendenti dedicati alle quattro classi di utenti definite precedentemente. I sottosistemi saranno indipendenti ma cooperanti, nel senso che tratteranno tipologie di dati omogenee. Tre sistemi saranno dedicati alle tre tipologie di annotatori, mentre un sistema sarà dedicato ai validatori. Nel sistema dedicato ai validatori confluiranno i moduli di interfaccia sviluppati per gli altri sistemi, poiché tutte le funzionalità principali di inserimento (disponibili già agli annotatori) dovranno anche essere disponibili per le modifiche in fase di validazione. Le interfacce permetteranno un inserimento guidato dei dati in una maniera amichevole. Infatti, la rappresentazione dei dati utilizzerà rappresentazioni grafiche per strutture complesse, quali grafi e alberi. Questo permetterà all’utente una interazione logica indipendente dai formati e dalle strutture di memorizzazione delle informazioni. I sottosistemi dedicati agli annotatori ricevono in ingresso il corpus annotato morfosintatticamente in formato XML, lo tradurranno in una rappresentazione interna gestibile da un Data Base Management System orientato agli oggetti (OODBMS), permetteranno all’utente la D-99 Linea 1.1 - Treebank sintattico-semantica dell'italiano modifica delle informazioni presenti nel database interno e infine tradurranno il formato interno nel formato XML di rappresentazione esterno. Queste funzionalità saranno realizzate in quattro moduli: 1) due interfacce di ingresso/uscita dei dati, Wrapper IN e Wrapper OUT, per tradurre i dati dal formato di rappresentazione esterno a quello interno e viceversa; 2) una interfaccia grafica per facilitare le operazioni di annotazione; 3) un gestore delle interazioni tra l’interfaccia Grafica (GUI) e il Data Base Mangement System per gestire le operazioni complesse di accesso alla Base di Dati. Le tre architetture dei sottosistemi per gli annotatori sintattici, funzionali e morfologici sono presentate rispettivamente in Figura 2, Figura 3 e Figura 4. GUI Sintattica Gestore Sintattico XML-Files Corpus Annotato Morfologicamente XML-Files Corpus Annotato Morfo-Sintatticamente Wrapper OUT Wrapper IN (OO)DBMS Figura 2 SinTAS: Sistema di annotazione sintattica GUI Funzionale Gestore Funzionale XML-Files Corpus Annotato Morfologicamente XML-Files Corpus Annotato Morfo-Funzionalmente Wrapper OUT Wrapper IN (OO)DBMS Figura 3 FunTAS: Sistema di annotazione funzionale GUI Semantica Gestore Semantico XML-Files Corpus Annotato Morfologicamente XML-Files Corpus Annotato Morfo-Semanticamente Wrapper OUT Wrapper IN (OO)DBMS Figura 4 SemTAS: Sistema annotazione semantica Il validatore sarà supportato da un sistema che gli permetterà una visione complessiva dei dati contenuti nella treebank. Il sistema integrerà in primo luogo i dati in XML annotati morfosintatticamente e quelli provenienti dalle attività di annotazione sintattica a costituenti e funzionale e semantico-lessicale per produrre una rappresentazione interna unificante del corpus, permetterà quindi la correzione dei dati e, infine, la scrittura del corpus nel formalismo XML esterno (standard per la Treebank TAL). Le funzionalità saranno realizzate in quattro moduli: 2) un integratore Shaker delle diverse rappresentazioni del corpus (morfo-sintattica, sintattica a costituenti e funzionale e semantico-lessicale); 3) un’interfaccia ai dati, Wrapper OUT, per trasformare il corpus dal formato di rappresentazione interno a quello esterno; D-100 Linea 1.1 - Treebank sintattico-semantica dell'italiano 4) una interfaccia grafica per facilitare le operazioni agli utenti e che raccoglierà le interfacce generate per gli altri sottosistemi ampliandole con le funzionalità specifiche; 5) un gestore unificato delle interazioni tra l’interfaccia Grafica (GUI) e il Data Base Management System per gestire le operazioni complesse di accesso alla Base di Dati. L’architettura del sistema viene presentata in Figura 5. GUI Sintattica GUI Funzionale GestoreUnificato Sintattico, Funzionale e Semantico XML-Files Corpus Annotato Morfologicamente, Sintatticamente, Funzionalmente e Semanticamente GUI Semantica XML-Files Corpus Annotato Wrapper OUT Shaker (OO)DBMS Figura 5 ValTAS: Sistema per i validatori 6.3 Requisiti Software I sistemi saranno sviluppati in JDK 1.1.4 su una infrastruttura Windows NT 4.0 e richiederanno il sistema di gestione di basi di dati orientato agli oggetti ObjectStore versione 5.0. Java è da preferirsi come linguaggio di implementazione dell’interfaccia per la elevata portabilità e per la realizzazione del sottosistema Treebank come architettura client-server. Per quanto riguarda il server, la scelta di Java semplifica l’implementazione e aumenta le potenzialità dell’architettura. L’uso di un sistema di gestione di basi di dati è necessario per garantire l’efficienza e la versatilità nelle query richiesta dai validatori. In particolare, l’adozione di un sistema orientato agli oggetti facilita l’interazione dei diversi client per le interfacce con i dati persistenti, basata su un linguaggio di programmazione ad oggetti. Le annotazioni trattate in ingresso e in uscita dai sottosistemi seguiranno lo standard di linguaggio di Mark-Up XML nella sua versione 1.0. 7 Valutazione La valutazione della risorsa Treebank, articolata nei suoi diversi livelli di annotazione, verrà condotta testando: • l’accuratezza e la completezza dell’annotazione (valutazione interna); • integrando le informazioni da essa derivate in sistemi di Natural Language Processing e verificandone i risultati (valutazione esterna). D-101 Linea 1.1 - Treebank sintattico-semantica dell'italiano Le modalità di valutazione interna della Treebank di SI-TAL verranno definite e dettagliate in seguito, durante la linea 1.2, sulla base delle specifiche interne ai singoli livelli e loro interrelazioni. In questa sezione ci concentreremo sulle modalità di valutazione esterna che verrà condotta mediante l’utilizzo della Treebank in un sistema applicativo di traduzione automatica sviluppato da Synthema. In quanto segue, dopo una rapida descrizione del sistema di traduzione (sezione 7.1.1), verranno illustrate le modalità di questa valutazione ed in particolare l’adattamento del sistema di traduzione automatica in base alle informazioni derivate dalla Treebank (sezione 7.1.2) e la definizione dei criteri per misurare come e in quale misura le prestazioni del sistema possano migliorare tramite l’uso di tale risorsa (sezione 7.1.3). 7.1.1 Rapida descrizione del sistema di traduzione Il sistema di traduzione automatica realizzato da Synthema (PeTra® per Word 2.0) è un’applicazione basata sul formalismo delle Slot Grammar, definito da Michael McCord (IBM T. J. Watson Research Center). E’ un prodotto completo e funzionante, e attualmente utilizzato con buoni risultati nel campo della traduzione automatica, in ambiente Windows. Il sistema include: - un componente di analisi per la lingua Italiana, comprendente un Analizzatore morfologico, un Dizionario monolingua, un Insieme di regole sintattiche e il relativo parser; - un dizionario bilingue, con opportune funzionalità di disambiguazione lessicale (‘transfer’ lessicale); - un componente per il ‘transfer’ (‘transfer’ sintattico), con relativa grammatica contrastiva Italiano Æ Inglese; - un componente di generazione morfologica per la lingua inglese. Nel seguito di questa sezione descriviamo più in dettaglio i componenti del sistema che saranno coinvolti nelle modifiche che verranno realizzate per mezzo delle informazioni contenute nella Treebank. Analisi L’Analizzatore morfologico si occupa di individuare i possibili Lemmi da cui derivano le forme flesse presenti nel testo sorgente. Viene quindi verificata la presenza di tali lemmi nel dizionario italiano, prelevando le informazioni relative. Attualmente il dizionario è composto da più di 20.000 lemmi, per ciascuno dei quali vengono specificate, oltre alla POS (‘Part Of Speech’) per la lingua sorgente (o le POS in caso di lemmi omografi), le caratteristiche sintattiche in termini di Slot. Gli Slot corrispondono ad argomenti logico-funzionali delle parole a cui sono legati. Essi hanno anche una natura morfosintattica, perché in generale possono essere riempiti solo da alcune categorie specificate nelle regole della grammatica. Le regole di analisi specificano le condizioni di riempimento degli Slot consentendo la costruzione automatica di un albero che rappresenti la frase in ingresso. La grammatica formalizza quindi in termini di Slot le regole grammaticali italiane al fine di ottenere un albero che permetta la migliore traduzione possibile. D-102 Linea 1.1 - Treebank sintattico-semantica dell'italiano Il parser procede tentando di applicare le regole di analisi a partire dalle singole parole. Ogni regola che risulta applicabile costruisce un legame funzionale fra due elementi, uno dei quali va a riempire uno Slot dell’altro diventandone un modificatore. Il procedimento continua applicando le regole solo alle teste dei sottoalberi così creati, fino alla costruzione di un albero che rappresenti l’intera frase. (1) La mia casa è bella. Phrase (0.1) from 1 to 3 added: -----------------------------------------------------------------------+- nadj mio1(2) adj([f,sg,X4|X5],X6) o- top casa1(3,u) noun(cn,[f|sg],X1) nobj(p(di)) -----------------------------------------------------------------------Phrase (0.2) from 0 to 3 added: -----------------------------------------------------------------------+- ndet lo1(1) det([f,sg|w],def) +- nadj mio1(2) adj([f,sg,X4|X5],X6) o- top casa1(3,u) noun(cn,[f|sg],X1) nobj(p(di)) -----------------------------------------------------------------------Phrase (0.12) from 0 to 4 added: -----------------------------------------------------------------------+- ndet lo1(1) det([f,sg|w],def) +- nadj mio1(2) adj([f,sg,X7|X8],X9) +-¦ subj(n) casa1(3,u) noun(cn,[f|sg],X4) nobj(p(di)) o--- top essere1(4,3,u) verb(fin([pers3|sg],pres,X1)) subj(n|v):3 pred -----------------------------------------------------------------------Phrase (0.22) from 0 to 5 added: -----------------------------------------------------------------------+- ndet lo1(1) det([f,sg|w],def) +- nadj mio1(2) adj([f,sg,X5|X6],X7) +-¦ subj(n) casa1(3,u) noun(cn,[f|sg],X2) nobj(p(di)) o--- top essere1(4,3,5) verb(fin([pers3|sg],pres,X1)) subj(n|v):3 pred:5 +--- pred bello1(5) adj([f,sg,X8|X9],X10) ------------------------------------------------------------------------ Dizionario bilingue A questo punto è possibile scegliere nel dizionario bilingue la traduzione di ogni singola parola, eventualmente dipendente da opportuni test (‘transfer’ lessicale). La costruzione dell’albero ha determinato infatti la scelta di una sola POS per ogni termine e i legami funzionali permettono di disambiguare, sulla base delle condizioni specificate in termini di Slot: la traduzione di un verbo, ad esempio, può dipendere spesso dal termine che ne “riempie” l’oggetto. Transfer sintattico La generazione di una frase inglese corretta richiede generalmente anche trasformazioni strutturali che possono coinvolgere tutto l’albero o solo alcuni sottoalberi. Le regole di ‘transfer’ trattano, appunto, le differenze di costruzione che caratterizzano le due lingue e specificano le necessarie modifiche da apportare all’albero. Queste trasformazioni possono essere di natura generale (in inglese, ad esempio, deve essere sempre specificato il soggetto che in italiano può essere sottinteso) o legate a particolari costruzioni ed essere eventualmente richiamate dal dizionario bilingue in corrispondenza dei lemmi coinvolti. D-103 Linea 1.1 - Treebank sintattico-semantica dell'italiano (2) Gli piacciono questi libri. Syntactic analysis no. 1. Evaluation = 0.21 ... -----------------------------------------------------------------------+--- iobj(n) egli2(1) noun(pron(pers),[pers3,m,sg,dat|pre],X2) o--- top piacere1(2,4,1) verb(fin([pers3|pl],pres,ind:dcl:nwh)) | +- ndet questo3(3) det([m,pl|X4],demo) +-| subj(n) libro1(4,u) noun(cn,[m|pl],X3) -----------------------------------------------------------------------Transfer tree... -----------------------------------------------------------------------+--- iobj(n) he noun(pron(pers),dat,pers3-sg-m,X2) o--- top like verb(ind:top,fin(pers3-pl-m,pres,ind:dcl:nwh):X1,[]) | +- ndet this det(nom,pers3-pl-m,X3) +-| subj(n) book noun(cn,nom,pers3-pl-m,X3) -----------------------------------------------------------------------Transformation datnom transforms tree... -----------------------------------------------------------------------+--- iobj(n) he noun(pron(pers),dat,pers3-sg-m,X2) o--- top like verb(ind:top,fin(pers3-pl-m,pres,ind:dcl:nwh):X1,[]) | +- ndet this det(nom,pers3-pl-m,X3) +-| subj(n) book noun(cn,nom,pers3-pl-m,X3) -----------------------------------------------------------------------into tree... -----------------------------------------------------------------------+--- subj(n) he noun(pron(pers),nom,pers3-sg-m,X2) o--- top like verb(ind:top,fin(pers3-sg-m,pres,ind:dcl:nwh):X1,[]) | +- ndet this det(nom,pers3-pl-m,X3) +-| obj(n) book noun(cn,acc,pers3-pl-m,X3) -----------------------------------------------------------------------Restructured tree. -----------------------------------------------------------------------+--- subj(n) he noun(pron(pers),nom,pers3-sg-m,X2) o--- top like verb(ind:top,fin(pers3-sg-m,pres,ind:dcl:nwh):X1,[]) | +- ndet this det(nom,pers3-pl-m,X3) +-| obj(n) book noun(cn,acc,pers3-pl-m,X3) -----------------------------------------------------------------------He likes these books. 7.1.2 Modifiche al sistema di traduzione e modalità di interrogazione della Treebank I paragrafi seguenti illustrano le modifiche che verranno apportare alle singole parti del sistema di traduzione. In relazione a ciascuna modifica saranno discusse le modalità secondo le quali dalla Treebank verranno prelevate le informazioni da utilizzare, per le diverse annotazioni. 7.1.2.1 Modifiche da apportare al contenuto dei dizionari Il contenuto dei dizionari verrà modificato con l’aggiunta di nuove entrate e con l’aumento delle disambiguazioni in relazione alle entrate attualmente presenti, secondo le strategie che andiamo a descrivere. D-104 Linea 1.1 - Treebank sintattico-semantica dell'italiano E’ lecito pensare che l’ambito specialistico realizzi un uso particolare di forme aventi in altri contesti significati e costruzioni diverse: la copertura di tale casistica potrebbe avere un ruolo rilevante nella modifiche da apportare. 7.1.2.1.1 Aggiunta dei lemmi del corpus mancanti Il primo accesso alle informazioni rese disponibili dalla Treebank sarà volto alla verifica della presenza del lessico utilizzato nel corpus, all’interno dei nostri dizionari. Vista l’attuale copertura (più di 20.000 lemmi), si presuppone che l’insieme dei lemmi assenti sia composto principalmente da parole appartenenti al linguaggio specialistico. Per quanto riguarda i lemmi già presenti, potranno essere aggiunte al dizionario monolingua delle analisi più articolate, rispetto a quelle attualmente presenti, sulla base di particolari costruzioni individuate all’interno del corpus e reperite consultando le annotazioni sintattiche della Treebank. Coerentemente verranno aggiunte le relative traduzioni al dizionario bilingue. 7.1.2.1.2 Inserimento di nuove MWE. Gli elementi contenuti nell’elenco di MWE concordato dai siti preposti all’annotazione, verranno aggiunti come nuove entrate dei dizionari, secondo la sintassi prevista dal sistema di traduzione. Tale ampliamento dovrà tenere conto delle specifiche del sistema di traduzione: dovrà essere evitato il rischio di bloccare il riconoscimento di una parola se questa viene utilizzata in contesti diversi dalla MWE segnalata. Il sistema, infatti, blocca tutti i termini che individua all’interno di una MWE attribuendo all’intero gruppo la POS specificata ed impedendo analisi diverse. Ad es. se fosse definita come MWE la sequenza per cui ed identificata come congiunzione, risulterebbe impossibile costruire correttamente l’albero della frase l’uomo per cui lavoro, dove per risulta essere una preposizione e cui un pronome. Da ciò segue che prima di aggiungere le MWE dell’elenco individuato al nostro dizionario, occorre prevedere una fase di analisi manuale, durante la quale verranno prese in esame le singole componenti di ogni MWE e il ruolo che ciascuna di tali componenti assume nella composizione delle frasi: solo quelle che non provocano effetti collaterali analoghi a quelli descritti sopra verranno inserite come entrate dei dizionari. 7.1.2.1.3 Analisi dell’annotazione semantica L’analisi del risultato dell’annotazione semantica del corpus comporterà l’ampliamento della struttura semantico-gerarchica del dizionario ed una più precisa classificazione delle parole presenti. Nel dizionario, infatti, è prevista la possibilità di attribuire ad un temine il relativo ‘semantic type’: attributo semantico che può essere testato in vari punti all’interno del sistema, in particolare nelle condizioni di disambiguazione del ‘transfer’ lessicale. Per arrivare a tale risultato occorre prevedere una fase di studio / conversione tra i sensi utilizzati nell’annotazione semantica e i ‘semantic type’ attualmente previsti nel sistema di traduzione. D-105 Linea 1.1 - Treebank sintattico-semantica dell'italiano Le attività previste sono le seguenti: - individuazione della corrispondenza dei sensi presenti nel nostro dizionario con quelli presenti nella Treebank - completamento dell’inserimento di tali sensi nei lemmi che ne sono attualmente privi - individuazione, tra i sensi della Treebank non presenti nel nostro insieme, dei sensi utili alle disambiguazioni in fase di traduzione - inserimento dei sensi individuati nel passo precedente nelle relative entrate del dizionario Questa operazione sarà completata durante una prima fase di verifica, nella quale, analizzando la traduzione ottenuta, saranno individuate le situazioni in cui è utile e opportuno inserire delle disambiguazioni all’interno del dizionario utilizzando i ‘semantic type’ aggiunti. 7.1.2.2 Ampliamento e raffinamento dell’insieme delle regole di analisi Le modifiche all’insieme delle regole della grammatica del sistema di traduzione avverrà rielaborando le informazioni ottenute interrogando la Treebank. Si accederà alla Treebank con lo scopo di individuare particolari costruzioni e verificarne la struttura corrispondente nella grammatica di analisi, e per ricercare le strutture o le sottostrutture più frequenti non ancora previste. I miglioramenti prevedibili su questo livello sono collegati al dettaglio previsto per l’annotazione sintattica della Treebank. 7.1.2.2.1 Verifica delle strutture previste La grammatica attualmente in uso ha una buona copertura ma è lecito pensare che, vista la complessità e la libertà della struttura frasale della lingua italiana, ci siano delle situazioni descritte in modo incompleto o non del tutto corretto. In particolare, essendo il corpus di tipo specialistico, è probabile che sia caratterizzato dalla presenza di costruzioni gergali non usate nell’italiano standard. L’accesso alla Treebank potrà avvenire per mezzo delle relazioni funzionali che legano una testa al suo dipendente. Dall’insieme delle relazioni binarie così individuate, verranno estratte quelle accomunate da un’opportuna combinazioni di tratti. Così facendo si potrà stabilire una corrispondenza tra le strutture individuate dalle annotazioni sintattiche funzionale e a costituenti, e le strutture utilizzate dalla nostra grammatica al fine di studiarne la completezza. Le prove di traduzione individueranno inoltre le frasi mal riconosciute dalla nostra attuale grammatica; in questi casi si potrà intervenire sulle regole in modo più generale cercando di reperire nella Treebank tutte le strutture “simili” coinvolte. Si prevede di procedere come segue: - accedere alla Treebank per mezzo della frase al fine di risalire alla relativa annotazione sintattica funzionale e a costituenti; D-106 Linea 1.1 - Treebank sintattico-semantica dell'italiano - studiare le informazioni delle due annotazioni così ottenute per individuare la casistica non coperta; - individuare altre presenze di quel tipo di annotazione all’interno del corpus; - analizzare le situazioni analoghe trovate per decidere se e come sia possibile intervenire. 7.1.2.3 Ampliamento e raffinamento dell’insieme delle regole di ‘transfer’ E’ probabile che nel linguaggio specialistico del corpus siano presenti strutture particolari che richiedono regole di ‘transfer’ specifiche e quindi non ancora previste. Analizzando quanto di nuovo è stato inserito nelle regole di analisi, oltre che rivedendo le prove di traduzione, sarà possibile migliorare il set delle regole che realizzano il ‘transfer’ sintattico. 7.1.3 Valutazione dei risultati 7.1.3.1 Individuazione di un corpus sul quale effettuare la validazione La validazione dei risultati ottenuti avverrà per mezzo di un processo di traduzione realizzato su un corpus appositamente selezionato. Tale corpus appartiene allo stesso dominio specialistico dei testi annotati della Treebank. L’attività di ‘tuning’ del sistema e le verifiche eseguite prima e dopo la modifica del sistema stesso verranno effettuate su tale sottoinsieme, avente caratteristiche tali da permettere la concreta fattibilità dello sviluppo e dei test. 7.1.3.2 Criteri per la valutazione La valutazione verificherà il miglioramento dei risultati ottenuti dopo aver effettuato il ‘tuning’ del sistema di traduzione. Il software prodotto sarà di supporto per il valutatore, che verrà messo in condizione di consultare interattivamente il testo sorgente in italiano e la corrispondente traduzione. Il valutatore avrà quindi la possibilità di assegnare un punteggio a ciascuna frase tradotta (secondo i criteri che descriveremo più avanti) e sulla base dei singoli risultati verrà fatta la stima della bontà delle traduzioni realizzate. Il risultato complessivo verrà quindi confrontato con quello ottenuto utilizzando gli stessi criteri sulla traduzione dello stesso corpus, ma con il sistema privo delle modifiche dovute all’utilizzo della Treebank. Nel definire i criteri di valutazione della “bontà” della traduzione, ci siamo ispirati ai criteri usati con profitto da aziende di traduzione professionale (operanti nel settore della manualistica tecnica) per i test a campione sui risultati ottenuti. Riteniamo che la validità dei risultati ottenuti in un diverso settore professionale costituiscano un ottimo punto di partenza. La tabella riportata di seguito descrive nel dettaglio i criteri di assegnazione del punteggio: al diminuire di esso, corrisponde una diminuzione del livello di correttezza. La frase tradotta è perfettamente comprensibile e riflette correttamente il D-107 3 Linea 1.1 - Treebank sintattico-semantica dell'italiano significato dell’originale In questo caso saranno ammessi anche alcuni piccoli errori, purché il significato della frase non ne venga alterato. Gli errori sono in realtà delle piccole imperfezioni presenti nella costruzione della frase nel linguaggio target che non provocano incomprensioni alla frase risultante, e neanche incongruenze semantiche tra le frasi sorgente e destinazione. Nella traduzione sono presenti alcuni errori, ma la frase è comunque comprensibile e riflette prevalentemente il significato della frase sorgente 2 Gli errori ammessi potranno essere sia di tipo sintattico, che lessicale o grammaticale. La frase risultante non è in ottimo inglese, ma il senso non risulta compromesso dalla fase di traduzione: continua a riflettere il senso delle frase originale. La maggior parte della traduzione non è completamente comprensibile e/o conforme all’originale. 1 La traduzione non ha dato buoni risultati per cui la frase non è perfettamente comprensibile o, se lo è, non riflette appieno il significato della frase originale. La frase sorgente non è stata tradotta o, pur risultando comprensibile, non riflette il significato dell’originale (grave errore di traduzione). 0 La frase viene restituita nella stessa lingua del sorgente perché il sistema non è stato in grado di tradurla o, nel caso in cui viene restituita tradotta, non ha un senso corrispondente alla frase sorgente. Nel caso in cui i risultati ottenuti dovessero portare a situazioni in cui l’individuazione dell’appartenenza di una frase a una categoria piuttosto che ad un’altra fosse eccessivamente difficoltosa, potremo decidere di utilizzare uno schema di valutazione più sintetico, in cui, ad es., le frasi sono classificate soltanto in base alla presenza o meno di un miglioramento, in seguito alla fase di ‘tuning’. Una valutazione più articolata potrebbe inoltre venire dal confronto delle parole non trovate e degli alberi non chiusi, segnalati automaticamente dal sistema, in modo da valutare anche i miglioramenti ottenuti a livello dei singoli componenti. D-108 Linea 1.1 - Treebank sintattico-semantica dell'italiano Riferimenti bibliografici Alonge, A., Bertagna, F., Calzolari, N., Roventini A. 1999. The Italian Wordnet. In: EWN CD-Rom (anche: http://www.hum.uva.nl/~ewn). Atkins B.T., J. Kegl, B. Levin, 1988, “Anatomy of a Verb Entry: from Linguistic Theory to Lexicographic Practice”, International Journal of Lexicography 1, pp. 84-126. Bémová A., J. Hajic, B. Hladká, J. Panenová, 1999, “Syntactic tagging of the The Prague dependency Treebank”, in Proceedings of the Treebanks workshop, Journée(s) ATALA sur les corpus annotés pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris, disponibili all’indirizzo http://www.biomath.jussieu.fr/ATALA/. Bresnan J., (ed.), 1982, The Mental Representation of Grammatical Relations, The MIT Press, Cambridge-Massachusetts. Calzolari N., O. Corazzari, (in corso di pubblicazione), “Senseval/Romanseval: the framework for Italian”, Computers and the Humanities, Kluwer Academic Publishers, Dordrecht. Calzolari N., O. Corazzari, M. Monachini, A. Roventini, 1996, “Speech Act and Perception Verbs: Generalizations and Contrastive Aspects”, in EURALEX-96 Proceedings, Goteborg University, pp. 73-83. Calzolari N., M. Baker, J.G. Kruyt (eds.), 1995, Towards a network of European Reference Corpora, Report of the NERC Consortium Feasibility Study, Pisa, Giardini. Carroll J., E. Briscoe, 1996, “Apportioning development effort in a probabilistic LR parsing system through evaluation”, in Proceedings of the ACL/SIGDAT Conference on Empirical Methods in Natural Language Processing, University of Pennsylvania, Philadelphia, PA, pp. 92-100. Carroll J., E. Briscoe, A. Sanfilippo, 1998, “Parser Evaluation: a Survey and a New Proposal”, in Proceedings of the First International Conference on Language Resources and Evaluation, Granada, Spain, 28-30 May, pp. 447-454. Casadei F., 1996, Metafore ed espressioni idiomatiche, Universita’ di Roma, La Sapienza, Dipartimento di Scienze del Linguaggio, Roma, Bulzoni Editore. Chomsky N., 1986, Barriers, MIT Press, Cambridge MA. Corazzari O., 1992, Phraseological Units, Pisa, NERC Working Paper, NERC-92-WP8-68. Corazzari O., N. Calzolari, A. Zampolli, 1999, ELSNET: Internal Report, ILC, Pisa. Corazzari O., M. Monachini, 1995, ELSNET: Italian Corpus Sample, ILC-CNR, Pisa. Cruse D.A., 1986, Lexical Semantics, Cambridge, Cambridge University Press. Danlos L., 1981, “La morphosyntaxe des espressions figées”, Langages 63, Parigi, Larousse. Danlos L., 1988, “Les phrases à verbe support etre Prép”, Langages 90, Parigi, Larousse. D-109 Linea 1.1 - Treebank sintattico-semantica dell'italiano Fass D., 1991, “met*: A Method for Discriminating Metonymy and Metaphor by Computer”, Computational Linguistics 17(1), pp. 49-90. Federici S., S. Montemagni, V. Pirrelli, 1999, “SENSE: an Analogy-based Word Sense Disambiguation System”, in corso di pubblicazione in M. Light, M. Palmer (eds.), Special Issue of Natural Language Engineering on Lexical Semantic Tagging. Fellbaum C., J. Grabowski, S. Landes, 1998 “Performance and Confidence in a Semantic Annotation Task”, in Wordnet, An Electronic Lexical Database, Cambridge, MIT Press. Gale A. W., K. W. Church, D. Yarowsky, 1992, “A Method for Disambiguating Word Senses in a Large Corpus”, Computers and the Humanities 26, pp. 415-439. Garside R., G. Leech, G. Sampson, (a cura di), 1987, The computational analysis of English. A corpus-based approach, London, Longman. Garzanti, 1994, Dizionario Garzanti di Italiano, Milano, Garzanti Editore. Goggi S., L. Biagini, E. Picchi, R. Bindi, S. Rossi, R. Marinelli, 1997, Italian Corpus Documentation, LE-PAROLE WP2.11, ILC, Pisa. Greenbaum S. (ed.), 1996, English Worldwide: The International Corpus of English, Oxford, Clarendon Press. Grefenstette G., 1994, Explorations in Automatic Thesaurus Discovery, Boston, Kluwer Academic Publishers. Gross M., 1985, “Sur les determinants dans les espressions figées”, Langages 79, Parigi, Larousse. Gross M., 1986, “The Representation of Compound Words”, in 11th International Conference on Computational Linguistics, Proceedings of Coling ‘86, Bonn. Gross M., 1988, “Les limites de la phrase figées”, Langages 90, Parigi, Larousse. Van Halteren H., 1997. Excursions into syntactic databases, Amsterdam, Rodopi. Hanks P., 1996, “Contextual Dependency and Lexical Sets”, International Journal of Corpus Linguistics 1, pp. 75-98. Hudson R., 1984, Word Grammar, Oxford, Basil Blackwell. Hudson R., 1988, “The Linguistic Foundations for Lexical Research and Dictionary Design”, International Journal of Lexicography, 1 (4), pp. 287-312. Karlsson, F., Voutilainen, A., Heikkila, J. e A. Anttila (eds.). 1995. Constraint Grammar, a language-independent system for parsing unconstrained text. Berlin e New York: Mouton de Gruyter. Kilgarriff A., 1993, “Dictionary word sense distinctions: An enquiry into their nature”, Computers and the Humanities 26, pp. 365-387. Landes S., C. Leacock, R. I. Tengi, 1998, “Building Semantic Concordances”, in Wordnet, An Electronic Lexical Database, Cambridge, MIT Press. D-110 Linea 1.1 - Treebank sintattico-semantica dell'italiano Leech G., R. Barnett, P. Kahrel, 1996, Guidelines for the standardization of syntactic annotation of corpora, EAGLES Document EAG-TCWG-SPT/P. Leech G., R. Garside, 1991, “Running a grammar factory: the production of syntactically analysed corpora or ‘treebanks’“, in Johansson S., Stenstrom A.B., English Computer Corpora: Selected Papers and Research Guide, Berlin, Mouton de Gruyter, pp. 15-32. Lenci, A., F. Busa, N. Ruimy, E. Gola, M. Monachini, N. Calzolari, A. Zampolli, El. Guimier, G. Recourcé, L. Humphreys, U. Von Rekovsky, A. Ogonowski, C. McCauley, W. Peters, I. Peters, M. Villegas (1998). ‘Specifications’, SIMPLE Work, Linguistic Deliverable D2.1, Pisa. Lenci A., S. Montemagni, V. Pirrelli, C. Soria, K. Netter, M. Rajman, 1999 a, Corpora for Evaluation, WP5, ELSE (Evaluation in Language and Speech Engineering), LE4-8340. Lenci A., S. Montemagni, V. Pirrelli, C. Soria, 1999 b, “FAME: a Functional Annotation Metascheme for Multimodal and Multi-lingual Parsing Evaluation”, in Proceeding of the ACL99 Workshop on Computer-Mediated Language Assessment and Evaluation in Natural Language Processing, University of Maryland, June 22nd . Lin D., 1998, “A dependency.based method for evaluating broad-coverage parsers”, Natural Language Engineering 4(2), pp. 97-114. Marciniak M., A. Mykowiecka, A. Przepiórkowski, A. Kupsc, 1999, “Construction of an HPSG treebank for Polish”, in Proceedings of the Treebanks workshop, Journée(s) ATALA sur les corpus annotés pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris, disponibili all’indirizzo http://www.biomath.jussieu.fr/ATALA/. Marcus M., M.A. Marcinkiewicz, B. Cantorini, 1993, “Building a Large Annotated Corpus of English: The Penn Treebank”, Computational Linguistics 19(2), pp. 313-330. Marcus M., G. Kim, M.A. Marcinkiewicz, R. McIntyre, R. Bies, A. Ferguson, M. Katz, K. Schasberger, 1994, “The Penn Treebank: Annotating predicate argument structure”, in Proceedings of the Human Language Technology Workshop, March 1994, Morgan Kaufman Publishers Inc., San Francisco, CA. MATE, 1998, Multilevel Annotation Tools Engineering, <http://mate.nis.sdu.dk>. Meyers A., K. Macleod, R. Grishman, 1994, “Standardization of the Complement Adjunct Distinction”, in Proceedings of COLING-94. Monachini M., 1995, ELM-IT: An Italian Typed Incarnation of The EAGLES Lexicon Morphosyntactic Specifications, Work in progress, ILC, Pisa. Monachini, M, 1996 ELM-IT: EAGLES Specifications for Italian Morphosyntax Lexicon Specification and Classification Guidelines, EAGLES Report, Pisa. Monachini M., A. Roventini, A. Alonge, N. Calzolari, O. Corazzari, 1994, “Linguistic Analysis of Italian Perception and Speech Act Verbs”, DELIS Working Paper, ILC, Pisa. Montemagni S., 1990, Definition, General Features and Taxonomy of Multi Word Expressions, ILC, Pisa. D-111 Linea 1.1 - Treebank sintattico-semantica dell'italiano Montemagni S., 1992, Syntactically annotated corpora: comparing the underlying annotation schemes, Technical Report NERC-67, ILC Pisa. Moon R., 1987, “The Analysis of Meaning, in Looking Up, An Account of the Cobuilt Project”, in Lexical Computing, Birmingham, Collins ELT. Renzi L., 1995, Grande grammatica italiana di consultazione, Vol.I, Bologna, Il Mulino. Ruimy N., O. Corazzari, 1991, Be Prep X Frozen Expressions, Eurotra n.13, ILC, Pisa. Palazzi, Folena, 1995, Dizionario della lingua italiana. PAROLE, 1996-1998, Preparatory Action for Linguistic Resources Organization for Language Engineering, LE-4017, Language Engineering. Picchi E., 1994, “Pi-Tagger: A tagger and lemmatizer for Italian”, in EURALEX-94 Proceedings, Amsterdam. Sampson G., 1987, “The grammatical database and parsing system”, in Garside R., Leech G., Sampson G., (a cura di), pp. 82-96. Sampson G., 1995, English for the Computer, Oxford, Clarendon Press. Sampson G., 1998, A proposal for improving the measurement of parse accuracy, manoscritto non pubblicato. Samvelian P., 1990, Les constructions etre Prep X: Formalisation et traitement dans le cadre du project EUROTRA, Memoire de DEA, Universite Paris 7, Parigi. Sandoval M., A. Lopez Ruesga, S. e F. Sanchez León, 1999, Spanish Tree Bank: Specifications, Version 4, Manoscritto. Scalise S., 1995, “La formazione delle parole”, in Grande grammatica italiana di consultazione, Vol.III, pp. 471-514, Bologna, Il Mulino. Sinclair J., 1996, “The Empty Lexicon”, International Journal of Corpus Linguistics 1, pp. 99-119. Somers H., 1984, “On the validity of the Complement-Adjunct Distinction in Valency Grammar”, in Linguistics, 22, pp. 507-530. SPARKLE, Shallow Parsing and Knowledge Extraction for Language Engineering, <http://www.ilc.pi.cnr.it/sparkle/sparkle.htm>. Ten Hacken P., H. Maas, B. Maegaard, 1991, “Dictionaries in Eurotra”, in The Eurotra Linguistic Specifications, C. Copeland, J. Durand, S. Krawer, B. Maegaard, (eds.), Luxembourg, Commission of the European Communities. Thorsten B., S. Wojciech, H. Uszkoreit, 1999, “Syntactic annotation of a German newspaper corpus”, in Proceedings of the Treebanks workshop, Journée(s) ATALA sur les corpus annotés pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris, disponibili all’indirizzo http://www.biomath.jussieu.fr/ATALA/. D-112 Linea 1.1 - Treebank sintattico-semantica dell'italiano Voorhees E. M., 1998, “Using WordNet for Text Retrieval”, in Wordnet, An Electronic Lexical Database, Cambridge, MIT Press. Zingarelli, 1997, Lo Zingarelli 1997 Vocabolario della Lingua Italiana, Bologna, Zanichelli Editore. D-113 Linea 1.1 - Treebank sintattico-semantica dell'italiano APPENDICE 1: Il tagset per l’annotazione morfo-sintattica (estratto dalla sezione 3.2 del Capitolo 5 sulle specifiche tecniche relative al tema “Dialoghi Annotati per Interfacce vocali avanzate”) 1 Introduzione Il tagset per l’annotazione morfo-sintattica in SI-TAL si basa sul tagset di ILC/PAROLE, opportunamente esteso e modificato allo scopo di meglio rappresentare i fenomeni tipici del parlato. La scelta di utilizzare il tagset ILC/PAROLE come punto di partenza assicura il soddisfacimento della maggior parte dei requisiti generali richiesti ad uno schema di annotazione. Il tagset di ILC/PAROLE soddisfa infatti il requisito di conformità agli standard esistenti essendo conforme alle raccomandazioni di EAGLES. Essendo sviluppato per l’italiano, è l’unico tagset disponibile ad assicurare un alto grado di copertura. Lo schema di annotazione è stato applicato in altri progetti, assicurando così la sua usabilità e portabilità a domini di applicazione diversi. Dalla conformità alle specifiche di EAGLES derivano le caratteristiche di flessibilità e modularità. Infine, precedenti esperienze di annotazione automatica assicurano la portabilità del tagset all’annotazione semi-automatica. Vi sono inoltre importanti motivi pratici che spingono verso l’adozione in SI-TAL di una versione modificata ed estesa del tagset ILC/PAROLE. Il primo è il fatto che il formato di annotazione è compatibile con i requisiti di formato di input del sistema automatico di analisi sintattica (Chunker, vedi sez. 3.3.2) che verrà usato per l’annotazione sintattica del corpus. Il secondo è che in tal modo le specifiche morfo-sintattiche per il tema Dialoghi Annotati sono armonizzate con quelle del tema Treebank, che adotta lo stesso tagset per l’annotazione morfo-sintattica del corpus. Questo costituisce un importante punto di contatto e consente, negli usi futuri di SI-TAL, la comparabilità delle risorse per scopi applicativi e di ricerca. Il tagset ILC/PAROLE originario, pur essendo uno schema sviluppato ed applicato esclusivamente all’analisi di testi scritti, per le particolari caratteristiche di formato si presta ad essere modificato e adattato per rappresentare i fenomeni del parlato, che ovviamente non sono adeguatamente trattati nella versione originaria dello schema. Per questo motivo, lo schema è stato ampliato e modificato sulla base delle pratiche correnti e dell’esempio dei più recenti sforzi in materia di annotazione del parlato, in particolare il progetto CHRISTINE (vedi parte II, cap. 2). E’ importante notare tuttavia come le modifiche apportate consistano essenzialmente in ampliamenti dello schema mediante l’introduzione di categorie aggiuntive o sottocategorie di categorie già esistenti; in tal modo infatti è assicurata la sostanziale uniformità dello schema con la sua controparte “scritta”, e lo stesso tagset può essere applicato indifferentemente alla lingua parlata o alla lingua scritta, con vantaggi evidenti per la portabilità dello schema e per gli usi successivi. Da questo punto di vista l’annotazione morfo-sintattica in SI-TAL percorre un percorso simile a quello che, per l’inglese, ha condotto allo sviluppo del corpus CHRISTINE a partire dal corpus SUSANNE: come in questo caso, uno schema di annotazione morfo-sintattica in uso per lo scritto (in Treebank) viene adattato ed esteso alla rappresentazione del parlato (in Dialoghi), attraverso stadi successivi di raffinamento. Nei paragrafi successivi vengono illustrate le specifiche morfo-sintattiche di base, comuni tanto alla versione del tagset per lo scritto che a quella per il parlato. Nella sezione 3.2.2 verranno invece presentate le estensioni relative alla rappresentazione dei principali fenomeni del parlato. D-114 Linea 1.1 - Treebank sintattico-semantica dell'italiano 1.1 Formato di annotazione Il formato di annotazione consiste in una stringa di caratteri per ognuna delle categorie sintattiche. Ogni carattere alfabetico rappresenta il valore di un attributo. I valori degli attributi hanno delle posizioni fisse e predefinite all’interno della stringa. Per esempio, il valore relativo alla categoria morfo-sintattica è sempre in posizione iniziale ed è marcato mediante una lettera maiuscola. Il carattere @ separa l’indicazione della categoria morfo-sintattica dai caratteri che indicano i tratti morfo-sintattici, anch’essi espressi in lettere maiuscole. Riportiamo qui di seguito le diverse categorie previste, insieme al simbolo che le rappresenta. 1. Nomi (S) 2. Verbi (V) 3. Aggettivi (A) 4. Pronomi (P) 5. Predeterminatori (T) 6. Determinatori (D) 7. Articoli (R) 8. Avverbi (B) 9. Preposizioni (E) 10. Congiunzioni (C) 11. Numerali (N) 12. Interiezioni (I) 13. Punteggiatura (@@) 14. Abbreviazioni (SA) 15. Classe Residua (X) 1.2 Inventario delle etichette ed esempi Nei paragrafi successivi elenchiamo le etichette del tagset, per ognuna delle categorie sintattiche. La prima colonna della tabella contiene l’etichetta nel formato di annotazione, la seconda contiene la descrizione corrispondente e la terza un esempio di applicazione. Una legenda degli attributi e valori è riportata alla fine della sezione. 1.2.1 Nomi (S) Il tagset distingue tra nomi comuni (S), nomi propri (SP) e nomi stranieri (SW). Se i nomi si trovano in locuzione, la lettera L è aggiunta prima del simbolo @. I tratti morfo-sintattici, che seguono il simbolo @, sono espressi in posizioni fisse: 1. la prima posizione dopo il simbolo @ è riservata per la specificazione del genere (M = maschile, F = femminile, N = comune) 2. la seconda posizione dopo il simbolo @ è riservata per la specificazione del numero (S = singolare, P = plurale, N = invariato) D-115 Linea 1.1 - Treebank sintattico-semantica dell'italiano Etichetta S@MS S@MP S@MN S@FS S@FP S@FN S@NS S@NP S@NN SL@MS SL@MP SL@MN SL@FS SL@FP SL@FN SL@NS SL@NP SL@NN SP@NN SPL@NN SW@MN SW@FN SW@NN SWL@N N Descrizione nome comune, maschile, singolare nome comune, maschile, plurale nome comune, maschile, invariato nome comune, femminile, singolare nome comune, femminile, plurale nome comune, femminile, invariato nome comune, comune, singolare nome comune, comune, plurale nome comune, comune, invariato nome comune in locuzione, maschile, singolare nome comune in locuzione, maschile, plurale nome comune in locuzione, maschile, invariato nome comune in locuzione, femminile, singolare nome comune in locuzione, femminile, plurale nome comune in locuzione, femminile, invariato nome comune in locuzione, comune, singolare nome comune in locuzione, comune, plurale nome comune in locuzione, comune, invariato nome proprio, comune, invariato nome proprio in locuzione, comune, invariato nome straniero, maschile invariato nome straniero, femminile invariato nome straniero, comune, invariato nome straniero in locuzione, comune, invariato Esempio libro libri re, caffè (il/i) casa case attività (la/le) insegnante (l’/la) insegnanti (gli/le) sosia (il/la, i/le) Paolo, Roma, Alpi, weekend, software 1.2.2 Verbi (V) I tratti morfo-sintattici relativi alla classe dei verbi sono riportati, come d’uso, dopo il simbolo @. Per quanto riguarda la posizione in cui i tratti sono rappresentati ed i simboli usati per la rappresentazione, dobbiamo distinguere tra forme verbali infinite e forme verbali finite. • Per le forme infinite, la prima posizione dopo il simbolo @ serve per specificare il modo verbale. Valori possibili sono: G (gerundio) F (infinito) Ad esempio: • andando V@G andare V@F Per le forme finite, sono previste quattro posizioni: 1. prima posizione: numero (S = singolare, P = plurale) D-116 Linea 1.1 - Treebank sintattico-semantica dell'italiano 2. seconda posizione: persona (1, 2, 3) 3. terza posizione: modo del verbo (I = indicativo, C = congiuntivo, D = condizionale, M = imperativo) 4. quarta posizione: tempo del verbo (P = presente, F = futuro, I = imperfetto, R = passato) Ad esempio, l’etichetta V@S1II associata con una forma verbale come viaggiavamo si legge, da destra verso sinistra, come “imperfetto indicativo prima persona singolare”. • Per le sole forme participiali, abbiamo le seguenti convenzioni: 1. prima posizione: genere (M = maschile, N = femminile, N = comune) 2. seconda posizione: numero (S = singolare, P = plurale) 3. terza posizione: modo (P = participio) 4. quarta posizione: tempo (presente, passato, ecc.) L’etichetta V@NPPP (amanti) si legge quindi “presente participio, plurale comune”. Etichetta V@G V@GY V@F V@FY V@S1IP V@S2IP V@S3IP V@P1IP V@P2IP V@P3IP V@S1IF V@S2IF V@S3IF V@P1IF V@P2IF V@P3IF V@S1II V@S2II V@S3II V@P1II V@P2II V@P3II V@S1IR V@S2IR V@S3IR V@P1IR Descrizione gerundio presente gerundio presente, con clitico infinito presente infinito presente, con clitico presente indicativo, 1 persona singolare presente indicativo, 2 persona singolare presente indicativo, 3 persona singolare presente indicativo, 1 persona plurale presente indicativo, II persona plurale presente indicativo, III persona plurale futuro indicativo, I persona singolare futuro indicativo, II persona singolare futuro indicativo, III persona singolare futuro indicativo, I persona plurale futuro indicativo, II persona plurale futuro indicativo, III persona plurale imperfetto indicativo, I persona singolare imperfetto indicativo, II persona singolare imperfetto indicativo, III persona singolare imperfetto indicativo, I persona plurale imperfetto indicativo, II persona plurale imperfetto indicativo, III persona plurale passato indicativo, I persona singolare passato indicativo, II persona singolare passato indicativo, III persona singolare passato indicativo, I persona plurale D-117 Esempio ballando ballandoci ballare ballarci ballo balli balla balliamo ballate ballano ballerò ballerai ballerà balleremo ballerete balleranno ballavo ballavi ballava ballavamo ballavate ballavano ballai ballasti ballò ballammo Linea 1.1 - Treebank sintattico-semantica dell'italiano V@P2IR V@P3IR V@S1CP V@S2CP V@S3CP V@P1CP V@P2CP V@P3CP V@S3CPY V@P1CPY V@S1CI V@S2CI V@S3CI V@P1CI V@P2CI V@P3CI V@S1DP V@S2DP V@S3DP V@P1DP V@P2DP V@P3DP V@S2MP V@S2MPY V@P2MP V@P2MPY V@NPPP V@NSPP V@FPPR V@FPPRY V@MPPR V@MPPRY V@FSPR V@FSPRY V@MSPR V@MSPRY passato indicativo, II persona plurale passato indicativo, III persona plurale presente congiuntivo, I persona singolare presente congiuntivo, II persona singolare presente congiuntivo, II persona singolare presente congiuntivo, I persona plurale presente congiuntivo, II persona plurale presente congiuntivo, III persona plurale presente congiuntivo, III persona singolare, con clitico presente congiuntivo, I persona plurale, con clitico imperfetto congiuntivo, I persona singolare imperfetto congiuntivo, II persona singolare imperfetto congiuntivo, II persona singolare imperfetto congiuntivo, I persona plurale imperfetto congiuntivo, II persona plurale imperfetto congiuntivo, III persona plurale presente condizionale, I persona singolare presente condizionale, II persona singolare presente condizionale, III persona singolare presente condizionale, I persona plurale presente condizionale, II persona plurale presente condizionale, III persona plurale presente imperativo, II persona singolare presente imperativo, II persona singolare, con clitico presente imperativo, II persona plurale presente imperativo, II persona plurale, con clitico presente participio, plurale invariato presente participio, singolare invariato passato participio, plurale femminile passato participio, plurale femminile, con clitico passato participio, plurale maschile passato participio, plurale maschile, con clitico passato participio, singolare femminile passato participio, singolare maschile, con clitico passato participio, singolare maschile passato participio, singolare maschile, con clitico ballaste ballarono balli balli balli balliamo balliate ballino dicasi balliamoci, amiamoci ballassi ballassi ballassi ballassimo ballaste ballassero ballerei balleresti ballerebbe balleremmo ballereste ballerebbero balla ballaci ballate ballateci amanti amante amate amatesi amati amatisi amata amatasi amato amatolo 1.2.3 Aggettivi (A) La classe morfo-sintattica degli aggettivi è contraddistinta dal simbolo A. Se gli aggettivi si trovano in locuzione, la lettera L è aggiunta prima del simbolo @. Se si tratta di parole straniere, il simbolo W viene aggiunto dopo il simbolo A e prima dell’eventuale simbolo L. I tratti morfo-sintattici, che seguono il simbolo @, sono espressi in posizioni fisse: 1. prima posizione: genere (M = maschile, F = femminile, N = comune) D-118 Linea 1.1 - Treebank sintattico-semantica dell'italiano 2. seconda posizione: numero (S = singolare, P = plurale, N = invariato) 3. terza posizione: grado (S = superlativo). Il grado positivo è dato come scelta di default e pertanto non viene marcato. Ad esempio, l’etichetta A@FSS (grandissima) si legge, da sinistra verso destra, come “aggettivo femminile singolare, grado superlativo”. Etichett a A@MS A@MP A@FS A@FP A@NN A@NS A@NP A@MSS Descrizione Esempio vero veri vera vere pari, dappoco, rosa dolce dolci bellissimo AP@MS aggettivo maschile singolare aggettivo maschile plurale aggettivo femminile singolare aggettivo femminile plurale aggettivo comune invariato aggettivo comune singolare aggettivo comune plurale aggettivo maschile singolare, grado superlativo aggettivo maschile plurale, grado superlativo aggettivo femminile singolare, grado superlativo aggettivo femminile plurale, grado superlativo aggettivo in locuzione maschile singolare aggettivo in locuzione maschile plurale aggettivo in locuzione maschile invariato aggettivo in locuzione femminile singolare aggettivo in locuzione femminile plurale aggettivo in locuzione femminile invariato aggettivo in locuzione comune singolare aggettivo in locuzione comune plurale aggettivo in locuzione comune invariato aggettivo in locuzione maschile singolare, grado superlativo aggettivo in locuzione maschile plurale, grado superlativo aggettivo in locuzione femminile singolare, grado superlativo aggettivo in locuzione femminile plurale, grado superlativo aggettivo possessivo, maschile singolare AP@MP aggettivo possessivo, maschile plurale AP@FS aggettivo possessivo, femminile singolare AP@FP aggettivo possessivo, femminile plurale AP@NN AW@ AWL@ aggettivo possessivo, comune invariato aggettivo straniero aggettivo straniero in locuzione A@MPS A@FSS A@FPS AL@MS AL@MP AL@MN AL@FS AL@FP AL@FN AL@NS AL@NP AL@NN AL@MSS AL@MPS AL@FSS AL@FPS D-119 bellissimi bellissima bellissime mio, tuo, suo, vostro, proprio miei, tuoi, suoi, vostri, propri mia, tua, sua, vostra, propria mie, tue, sue, vostre, proprie loro, altrui grammatica core nostro, nostri, nostra, nostre, Linea 1.1 - Treebank sintattico-semantica dell'italiano 1.2.4 Pronomi (P) La classe morfo-sintattica dei pronomi è contraddistinta dal simbolo P. Il tagset distingue tra sette tipi di pronomi (D = dimostrativo, E = esclamativo, I = indefinito, P = possessivo, Q = personale, R = relativo e T = interrogativo). L’indicazione del tipo segue il simbolo P e precede il simbolo @. I tratti morfo-sintattici, che seguono il simbolo @, sono espressi in posizioni fisse: 1. prima posizione: genere (M = maschile, F = femminile, N = comune) 2. seconda posizione: numero (S = singolare, P = plurale, N = invariato) 3. terza posizione (per i soli pronomi personali): persona (1, 2, 3). Ad esempio, l’etichetta PQ@NP1 si legge, da sinistra verso destra, come “pronome personale, invariato, plurale, prima persona”. Etichetta PD@MS Descrizione pronome dimostrativo, maschile singolare PD@MP pronome dimostrativo, maschile plurale PD@FS pronome dimostrativo, femminile singolare PD@FP pronome dimostrativo, femminile plurale PD@NN PD@NS PD@NP pronome dimostrativo, comune invariato pronome dimostrativo, comune singolare pronome dimostrativo, comune plurale Esempio questo, quello, stesso, medesimo, questi, quegli, colui, costui, … questi, quelli, stessi, medesimi, … questa, quella, stessa, medesima, colei, costei, … queste, quelle, stesse, medesime, … ne, ci, vi tale, ciò tali, coloro, costoro PE@MS PE@MP PE@FS PE@FP PE@NN PE@NS PE@NP pronome esclamativo, maschile singolare pronome esclamativo, maschile plurale pronome esclamativo, femminile singolare pronome esclamativo, femminile plurale pronome esclamativo, comune invariato pronome esclamativo, comune singolare pronome esclamativo, comune plurale quanto! quanti! quanta! quante! chi! quale! quali! PI@MS pronome indefinito, maschile singolare PI@MP PI@FS pronome indefinito, maschile plurale pronome indefinito, femminile singolare PI@FP PI@NN PI@NS PI@NP pronome indefinito, femminile plurale pronome indefinito, comune invariato pronome indefinito, comune singolare pronome indefinito, comune plurale uno, nessuno, alcuno, ciascuno, qualcuno, ognuno, niente, nulla, qualcosa, altri … alcuni una, nessuna, alcuna, ciascuna, qualcuna, ognuna … alcune altrui tale, chiunque, chicchessia,… tali D-120 Linea 1.1 - Treebank sintattico-semantica dell'italiano PP@MS PP@MP PP@FS PP@FP PP@NN pronome possessivo, maschile singolare pronome possessivo, maschile plurale pronome possessivo, femminile singolare pronome possessivo, femminile plurale pronome possessivo, comune invariato (il) mio, nostro, … (i) miei, nostri (la) mia, nostra, … (le) mie, nostre, … altrui, (il/la/i/le) loro PQ@NS1 PQ@NP1 PQ@NS2 PQ@NP2 PQ@MS3 PQ@MP3 PQ@FS3 PQ@FP3 PQ@NN PQ@NP3 PQ@NN3 pronome personale, I persona comune singolare pronome personale, I persona comune plurale pronome personale, II persona comune singolare pronome personale, II persona comune plurale pronome personale, III persona maschile singolare pronome personale, III persona maschile plurale pronome personale, III persona femminile singolare pronome personale, III persona femminile plurale pronome personale, comune invariato pronome personale, III persona comune plurale pronome personale, III persona comune riflessivo (forma tonica e atona) io, mi, me noi, ci tu, te, ti voi, vi lui, lo, egli, esso, gli essi, li lei, ella, essa, le, la esse, le ne loro sé, si PR@MS PR@MP PR@FS PR@FP PR@NN PR@NS PR@NP pronome relativo, maschile singolare pronome relativo, maschile plurale pronome relativo, femminile singolare pronome relativo, femminile plurale pronome relativo, comune invariato pronome relativo, comune singolare pronome relativo, comune plurale quanto quanti quanta quante che, cui (il/la) quale, chiunque, chi (i/le) quali PT@MS PT@MP PT@FS PT@FP PT@NN PT@NS PT@NP pronome interrogativo, maschile singolare pronome interrogativo, maschile plurale pronome interrogativo, femminile singolare pronome interrogativo, femminile plurale pronome interrogativo, comune invariato pronome interrogativo, comune singolare pronome interrogativo, comune plurale quanto? quanti? quanta? quante? che? chi? quale? quali? 1.2.5 Predeterminatori (T) La classe morfo-sintattica dei predeterminatori è contraddistinta dal simbolo T. I tratti morfosintattici associati del genere e del numero sono espressi rispettivamente in prima e seconda posizione dopo il simbolo @. Etichetta T@MS T@MP T@FS T@FP T@NP Descrizione predeterminatore, maschile singolare predeterminatore, maschile plurale predeterminatore, femminile singolare predeterminatore, femminile plurale predeterminatore, comune plurale D-121 Esempio tutto tutti, entrambi tutta tutte, entrambe ambedue, ambo Linea 1.1 - Treebank sintattico-semantica dell'italiano 1.2.6 Determinatori (D) La classe morfo-sintattica dei determinatori è contraddistinta dal simbolo D. Il tagset distingue tra cinque tipi di determinatori (D = dimostrativo, E = esclamativo, I = indefinito, R = relativo e T = interrogativo). L’indicazione del tipo segue il simbolo D e precede il simbolo @. I tratti morfo-sintattici, che seguono il simbolo @, sono espressi in posizioni fisse: 1. prima posizione: genere (M = maschile, F = femminile, N = comune) 2. seconda posizione: numero (S = singolare, P = plurale, N = invariato) Ad esempio, l’etichetta DD@MS associata con la forma questo si legge, da sinistra verso destra, come “determinatore dimostrativo, maschile singolare”. Etichetta DD@MS DD@MP DD@FS DD@FP DD@NS DD@NP Descrizione determinatore dimostrativo, maschile singolare determinatore dimostrativo, maschile plurale determinatore dimostrativo, femminile singolare determinatore dimostrativo, femminile plurale determinatore dimostrativo, comune singolare determinatore dimostrativo, comune plurale Esempio questo, codesto, quello, quel questi, codesti, quelli, quei questa, codesta, quella queste, codeste, quelle tale tali DE@MS DE@MP DE@FS DE@FP DE@NN DE@NS DE@NP determinatore esclamativo, maschile singolare determinatore esclamativo, maschile plurale determinatore esclamativo, femminile singolare determinatore esclamativo, femminile plurale determinatore esclamativo, comune invariato determinatore esclamativo, comune singolare determinatore esclamativo, comune plurale quanto! quanti! quanta! quante! che! quale! quali! DI@MS determinatore indefinito, maschile singolare DI@MP DI@FS determinatore indefinito, maschile plurale determinatore indefinito, femminile singolare DI@FP DI@NS DI@NN determinatore indefinito, femminile plurale determinatore indefinito, comune singolare determinatore indefinito, comune invariato alcuno, alcun, nessuno, nessun, certo, poco, molto, … alcuni, certi, pochi, molti, … alcuna, nessuna, certa, poca, molta, … alcune, certe, poche, molte, … ogni, qualsiasi, qualche, … niente DR@NS DR@NP DR@MS determinatore relativo, comune singolare determinatore relativo, comune plurale determinatore relativo, maschile singolare quale, qualunque quali quanto DT@MS DT@MP determinatore interrogativo, maschile singolare determinatore interrogativo, maschile plurale quanto? quanti? D-122 Linea 1.1 - Treebank sintattico-semantica dell'italiano DT@FS DT@FP DT@NN DT@NS DT@NP determinatore interrogativo, femminile singolare determinatore interrogativo, femminile plurale determinatore interrogativo, comune invariato determinatore interrogativo, comune singolare determinatore interrogativo, comune plurale quanta? quante? che? quale? quali? 1.2.7 Articoli (R) La classe morfo-sintattica degli articoli è contraddistinta dal simbolo R. La distinzione principale è tra articoli determinativi o definiti (RD) e articoli indeterminativi o indefiniti (RI). I tratti morfo-sintattici, che seguono il simbolo @, sono espressi in posizioni fisse: 1. prima posizione: genere (M = maschile, F = femminile, N = comune) 2. seconda posizione: numero (S = singolare, P = plurale, N = invariato) Ad esempio, l’etichetta RI@MS indeterminativo, maschile singolare”. Etichetta RD@MS RD@MP RD@FS RD@FP RD@NS RI@FS RI@MS si legge, da sinistra verso destra, come “articolo Descrizione articolo determinativo, maschile singolare articolo determinativo, maschile plurale articolo determinativo, femminile singolare articolo determinativo, femminile plurale articolo determinativo, comune singolare articolo indeterminativo, femminile singolare articolo indeterminativo, maschile singolare Esempio il, lo gli, i la le l’ una, un’ un, uno 1.2.8 Avverbi (B) Il tagset distingue fra avverbi in locuzione (BL) e avverbi non in locuzione (B). Etichetta B@ BL@ Descrizione avverbio avverbio in locuzione Esempio bene, ci, vi, ne di qua, di sopra, … 1.2.9 Preposizioni (E) La classe morfo-sintattica delle preposizioni è contraddistinta dal simbolo E. La distinzione principale è tra preposizioni semplici e preposizioni composte; queste ultime sono ulteriormente specificate per i tratti morfo-sintattici rilevanti, ovvero, in posizioni fisse: 1. prima posizione: genere (M = maschile, F = femminile, N = comune) 2. seconda posizione: numero (S = singolare, P = plurale, N = invariato) D-123 Linea 1.1 - Treebank sintattico-semantica dell'italiano Un’ulteriore distinzione è introdotta tra preposizioni in locuzione (EL) e preposizioni non in locuzione (E). L’etichetta E@MS ad esempio, si legge da sinistra verso destra come “preposizione articolata, maschile singolare”. Etichetta E@ Descrizione preposizione semplice E@MS E@MP E@FS E@FP E@NS EL@ EL@MS EL@MP EL@FS EL@FP EL@NS preposizione articolata, maschile singolare preposizione articolata, maschile plurale preposizione articolata, femminile singolare preposizione articolata, femminile plurale preposizione articolata, comune singolare preposizione semplice, in locuzione preposizione articolata in locuz., maschile singolare preposizione articolata in locuz., maschile plurale preposizione articolata in locuz., femminile singolare preposizione articolata in locuz., femminile plurale preposizione articolata in locuz., comune singolare Esempio di, a, da, in, con, su, per, tra, fra, … del, dello, al, allo,… dei, degli, ai, agli, … della, alla, sulla, … delle, alle, sulle, … dell’, all’, sull’, dall’, … 1.2.10 Congiunzioni (C) La classe morfo-sintattica delle congiunzioni è contraddistinta dal simbolo C. Il tagset distingue tra congiunzioni coordinative (CC) e congiunzioni subordinative (CS). Il simbolo L è aggiunto prima del simbolo @ se la congiunzione si trova in locuzione. Etichetta CC@ CS@ CCL@ CSL@ Descrizione congiunzione coordinativa congiunzione subordinativa congiunzione coordinativa in locuzione congiunzione subordinativa in locuzione Esempio e, ma, o, … perché, siccome, sebbene, … 1.2.11 Numerali (N) La classe morfo-sintattica dei numerali è contraddistinta dal simbolo N. Il tagset distingue tra numerali cardinali (N) e numerali ordinali (NO). I tratti morfo-sintattici rilevanti sono specificati dopo il simbolo @, secondo le convenzioni generali. Etichetta N@ N@MS N@FS NO@MS NO@MP NO@FS NO@FP Descrizione numerale cardinale numerale cardinale, maschile singolare numerale cardinale, femminile singolare numerale ordinale, maschile singolare numerale ordinale, maschile plurale numerale ordinale, femminile singolare numerale ordinale, femminile plurale D-124 Esempio due, tre, quattro, … uno una primo, secondo, … primi, secondi, … prima, seconda, … prime, seconde, … Linea 1.1 - Treebank sintattico-semantica dell'italiano 1.2.12 Interiezioni (I) Il tagset permette di distinguere le interiezioni in locuzione (IL) da quelle non in locuzione (I). Etichetta I@ IL@ Descrizione Interiezione interiezione in locuzione Esempio oh!, eccome, già! 1.2.13 Punteggiatura (@@) I segni di punteggiatura sono etichettati mediante il doppio simbolo @@. Non sono previste categorie più specifiche né distinzioni tra punteggiatura “forte” (. ; : ! ?) e “debole” (,). 1.2.14 Abbreviazioni (SA) Le abbreviazioni (ecc., pagg., fig., vol., …) ricevono l’etichetta SA. 1.2.15 Classe Residua (X) Gli elementi che non possono essere classificati in una delle diverse classi ricevono l’etichetta X@. Ad esempio, le formule, le sequenze alfanumeriche (41esima). 1.3 Legenda delle abbreviazioni Categorie morfo-sintattiche: @@: Punteggiatura A: Aggettivi A: Articoli B: Avverbi C: Congiunzioni D: Determinatori E: Preposizioni I: Interiezioni N: Numerali P: Pronomi S: Nomi SA: Abbreviazioni T: Predeterminatori V: Verbi X: Classe Residua D-125 Linea 1.1 - Treebank sintattico-semantica dell'italiano Altri simboli che precedono il simbolo @: C (associato alla categoria C): coordinativa C (associato alla categoria C): subordinativa D (associato alla categoria P o D): dimostrativo D (associato alla categoria R): determinativo E (associato alla categoria P o D): esclamativo I (associato alla categoria P o D): indefinito I (associato alla categoria R): indeterminativo L: in locuzione O (associato alla categoria N): ordinale P (associato alla categoria A o P): possessivo P (associato alla categoria N): proprio Q (associato alla categoria P): personale R (associato alla categoria P o D): relativo T (associato alla categoria P o D): interrogativo W: straniero Simboli che seguono il simbolo @ Tratti morfo-sintattici: genere: F: femminile M: maschile numero: P: plurale S: singolare persona: 1: prima 2: seconda 3: terza modo del verbo: C: congiuntivo D: condizionale F: infinito G: gerundio I: indicativo M: imperativo P: participio tempo del verbo: D-126 Linea 1.1 - Treebank sintattico-semantica dell'italiano F: futuro I: imperfetto P: presente R: passato Altri: S: superlativo Y: forma con clitico D-127 Linea 1.1 - Treebank sintattico-semantica dell'italiano D-128 Linea 1.1 - Treebank sintattico-semantica dell'italiano APPENDICE 2: Studio comparativo di pratiche di annotazione sintattica a costituenti: SI-TAL e gli altri INTRODUZIONE Benché le attività di ricerca nel campo dell’annotazione sintattica in costituenti e funzionale siano svariate (come mostrato dal recente Workshop ATALA sui Treebank, Parigi, Université de Paris VII), noi prenderemo in esame solamente tre casi: - il Susanne Corpus (SC) - il Penn Treebank (PT) - la Treebank dello spagnolo dell’Università Autonoma di Madrid (TSAM) L’importanza di creare corpora taggati sintatticamente viene definita egregiamente dagli estensori del progetto DIET nella parte in cui si discute del Corpus Profiling che riportiamo qui in basso in quanto tocca una serie di questioni altamente rilevanti alla presentazione successiva. “The identification of the typical and salient properties of the texts is what we refer to as corpus profiling. The tools used to identify and classify the corpus characteristics will rely on shallow state-of-the-art corpus processing techniques. These include morphological analysis, part-of-speech tagging, standard statistical measurements (which can be calculated over the entire corpus or only for given localities defined according to a limited set of parameters) and general pattern matching techniques (which are basically used for the extraction of linguistically relevant units). The quality of the result will depend on the success of the shallow processing stage. Accuracy will be much improved if the corpus is already annotated with compatible part-of-speech tags, either by hand or by a tagger trained to the specific corpus. ... The identification of syntactic information is perhaps the most challenging task of corpus profiling (it presupposes that the document is tagged with (at least) part-of-speech). Though sequences of POS tags are indicative of syntactic constructions, only a subset can be identified with a reasonable degree of reliability. The frequency and distribution of closed class items can serve as very simple, but useful indicators of the occurrence of syntactic constructions. This however, only provides coarse grained information. For example, we can determine how many times the word ‘and’ is used in a text, but not whether the coordination is between nouns, noun phrases, verbs, etc. Without any fu rther specification, a user would thus have to extract all test items classified under that phenomenon, even if the major part of them might not be representative for the corpus in question. Better results can be obtained by applying a more refined procedure, namely through the systematic extraction of patterns of sequences of partof-speech tags. The specification of a sequence such as [NP coordconj NP] reveals for example whether the corpus contains coordination of nouns. While this method yields correct results for a sentence such as (1), it is unsatisfactory for (2), although both examples contain the same pattern ([NP coord-conj NP]: Sally and Pieter). (1) Harry meets [Sally and Pieter]. (2) [Harry meets Sally] and [Pieter meets Jon]. D-129 Linea 1.1 - Treebank sintattico-semantica dell'italiano This situation is due to the different bracketing of the two sentences: (1) shows the correctly extracted coordination of nouns, but (2) contains a coordination of sentences. ... It has to be kept in mind that to obtain a high degree of precision requires a corpus with correctly disambiguated full syntactic parses.” Quindi l’importanza estrema della correttezza dell’analisi sintattica si riflette su tutti i successivi possibili usi. Abbiamo anche riportato il commento relativo alla coordinazione, struttura che è ben nota per la sua difficoltà di annotazione e che quindi richiede particolare attenzione. Abbiamo preso le mosse da DIET che in realtà è una shell vuota, solo per introdurre il problema costituito dalla complessità del compito: ulteriori prove sono indirettamente addotte dai commenti ai precedenti esempi di annotazione sintattica che costituiscono lo stato dell’arte nel nostro campo e che commentiamo qui di seguito. Nella scelta dei corpora annotati da commentare, la Treebank che più si avvicina alla nostra è quella dello spagnolo che si fonda in parte sulle specifiche della Penn Treebank di cui segue le linee generali, fatte salve una serie di variazioni motivate dalle caratteristiche dello spagnolo in quanto lingua romanza. La decisione di privilegiare di commentare questa treebank è infatti dovuta essenzialmente al fatto che essa stabilisce dei criteri di riferimento per le lingue romanze e quindi per la lingua italiana, distaccandosi in questo dalla Penn Treebank che ha utilizzato un impianto teorico più lontano dal nostro, e lo ha applicato all’inglese, e quindi solo in parte generalizzabili alle lingue romanze. Allo stesso tempo, la TSAM utilizza il nodo di VP per incapsulare il verbo flesso e i suoi complementi e/o aggiunti come fa la PT ma non il SC e nemmeno noi: in questo quindi si discosta dal nostro impianto teorico che quindi è vicino al SC. Di comune con il nostri impianto e di diverso dal SC è invece la presenza delle categorie vuote, non solo per indicare elementi lessicalmente inespressi, importanti per l’annotazione funzionale, ma anche per soddisfare criteri legati al rispetto di fondamenti teorici di tipo configurazionale che commenteremo estesamente più in basso. La annotazione del Susanne Corpus si ripropone come sistema di tagging fondato sulla lingua inglese e quindi come il Penn Treebank inadatto a rappresentare un esempio da seguire in toto, proprio per la specificità della lingua. Ovviamente, nel decidere un sistema di annotazione sintattico è essenziale mantenersi il più generale possibile, perlomeno in tutti quei fenomeni linguistici che si presentano superficialmente nello stesso modo: questo permette di comparare i risultati e se possibile di riutilizzare il lavoro svolto per un’altra lingua. Nell’analisi delle caratteristiche dei tre corpora abbiamo rilevato in generale maggiore affinità con lo schema introdotto dal TSAM e dal SC anche se ce ne allontaniamo per vari elementi che commentiamo più in basso nella sezione dedicata alla discussione dettagliata del suo sistema di tagging. Per quanto riguarda il PT, essendo legato al concetto di privilegiare l’aspetto configurazionale rispetto a quello funzionale della rappresentazione sintattica ne condividiamo meno caratteristiche. Comunque sia, per tutti e tre gli esempi che discuteremo vale la critica che riguarda l’inserzione delle categorie vuote all’interno della rappresentazione per indicare la posizione “logica” di un costituente che è stato spostato o che manca. Dal momento che al D-130 Linea 1.1 - Treebank sintattico-semantica dell'italiano tagging sintattico in costituenti viene poi associato il tagging funzionale in funzioni grammaticali, non si capisce quale utilità possa costituire il fatto di avere l’indicazione degli elementi vuoti. In particolare ci pare molto criticabile l’approccio seguito dai creatori del SC che alterano in questo molto la sequenza tipografica verticalizzata del testo. Nel caso della PT, che inserisce elementi vuoti nella struttura in costituenti il risultato è forse meno criticabile anche se non se ne capisce l’utilità vista la presenza della marche funzionali. D’altro canto, l’inserzione di indici di controllo sintattico e delle marche di costituenza non sono di per se stessi sufficienti a garantire l’interpretazione semantica. Altri commenti più dettagliati vengono riportati più in basso. IL SISTEMA DI TAGGING DEL SUSANNE CORPUS Includiamo il commento del curatore G. Sampson come riportato nella introduzione: “The SUSANNE Corpus itself comprises an approximately 130,000-word subset of the Brown Corpus of American English, annotated in accordance with the SUSANNE scheme. The original motives for producing this database included that of providing better statistics for probabilistic parsing; but in this respect Project SUSANNE was overtaken after its inception by projects (notably Mitchell Marcus’s Pennsylvania Treebank project, cf. Marcus et al. (1993)) which have used quasiindustrial methods to generate far larger bodies of grammatically-analysed material. However, the SUSANNE scheme may be unparallelled in the extent to which its categories have been refined and tested through detailed consideration of the almost endless small quirks of the texts to which they have been applied, and in the degree of precision to which the resulting guidelines for using the categories have been documented -- thus defining analytic standards which permit annotation of future material to be extremely self-consistent.” Come accennato più sopra, si ha l’impressione che il creato del SC sia partito più dalla necessità di adattare gli aspetti configurazionali alla rappresentazione in funzioni grammaticali che non il contrario come avviene per il PT: a questo scopo, ha eliminato il nodo di VP e ha quindi sollevato il verbo flesso a livello di frase, come avviene anche nella nostra rappresentazione. Ha invece mantenuto tutte le categorie vuote, anche quelle che non svolgono alcun ruolo all’interno di una rappresentazione funzionale. Nel commento del curatore, che riportiamo qui di seguito: “Indices are assigned to pairs of nodes to show referential identity between items which are in certain defined grammatical relationships to one another. For instance, a phrase raised out of a lower clause to act as object in a higher clause, as in “John expected Mary to admit it”, will be assigned an index identical to that assigned to the ghost element which marks the logical position of the item in the lower clause. The (artificial) example quoted would be represented as: [Nns:s John] expected [Nns:O999 Mary] [Ti:o [s999 GHOST] to admit [Ni:o it]] -- where the index 999 shows that the ghost subject (symbolized s) of the “admit” clause is “Mary” which acts as surface object (O) of the the logical object (o) of the “expected” D-131 acting as logical coreferential with “expected” clause; clause being the Linea 1.1 - Treebank sintattico-semantica dell'italiano infinitival subordinate clause (Ti). In some cases, movement rules displace a constituent into a tagma within which it has no grammatical role (for instance, an adverb which is logically a clause constituent may interrupt the verb group - sequence of auxiliary verbs and main verb -- of the clause): in such cases the functiontag is G (“guest”). Constituents which do not logically belong below the node which immediately dominates them in surface structure are always given G functiontags and indices linking them to their logical position. With that exception (and with one other exception not discussed here relating to coordination), functiontagging is used only for immediate constituents of clauses.” In questo modo ha introdotto elementi vuoti nella sequenza verticalizzata del testo tipografico al solo scopo di recuperare strutturalmente a livello configurazionale la posizione di elementi dislocati. Il problema principale del SC è costituito in primo luogo dalla necessità primaria di adattare tutti gli schemi di annotazione superiore ai POS tags, al testo tipografico di cui viene conservata la immagine verticalizzata, adeguatamente indicizzato e taggato. Il testo tipografico verticalizzato e taggato viene poi integrato con il proprio lemma nella parentesizzazione sintattica. Il risultato che si può vedere ampiamente negli esempi riportati in basso è quello di una eccessiva quantità di informazione che non facilita la comprensione visiva dell’analisi strutturale. Ovviamente se si agisce con un qualsiasi Editor che sia in grado di bilanciare le parentesi si ottiene una visione più accettabile, anche se sempre di difficile comprensione. Lo scopo del creatore però era quello di mettere a disposizione un corpus annotato per l’utilizzo da parte di programmi adatti ad estrarre l’informazione mediante procedure automatiche piuttosto che quello di servire all’indagine visiva diretta del linguista naive. In questo senso, però il lavoro non risulta essere ben organizzato, in quanto la necessità di restare fedeli al testo tipografico seppure nella sua versione verticalizzata viene poi vanificata dall’inserzione degli elementi vuoti che il curatore definisce in questo modo: “The tag YG appears in the wordtag field to represent a “ghost” -the logical position of a constituent which has been shifted elsewhere, or deleted, in the surface grammatical structure.” La rappresentazione strutturale comunque soffre di una serie nutrita di problemi, alcuni dei quali sono i seguenti: - Le marche di costituenza e di sottocostituenza sono riportate sia all’inizio della parentesizzazione che alla fine contribuendo ad appesantire piuttosto che a facilitare la comprensione della rappresentazione. Nel caso in cui nel costituente ci sia un solo elemento, nella parentesizzazione appaiono solo i tags separati da un punto (dot): eyes [Np:S.Np:S] = Nome plurale Soggetto - Come nel caso appena commentato, Il costituente viene marcato dopo il suo inizio lessicale, quindi lasciando fuori sistematicamente una parola dalla parentesizzazione - che potrebbe essere la testa: Qui l’articolo “The” è tenuto fuori dalla struttura frasale, non solo da quella di gruppo nominale soggetto superficiale e oggetto profondo: A01:0010b AT The the [O[S[Nns:s. A01:0010c NP1s Fulton Fulton [Nns. In questo caso è la preposizione “of” struttura del gruppo preposizionale: D-132 a restare fuori dalla Linea 1.1 - Treebank sintattico-semantica dell'italiano A01:0290n A01:0300a - IO AT of the of the [Po. [Ns. La coordinazione non viene marcata se non lasciando in situ l’elemento coordinante ed assegnandogli una etichetta adeguata. Lo stesso discorso vale per le strutture parentetiche, alle quali non viene data una sistemazione strutturale adeguata, ma vengono lasciate in situ e quindi integrate nella frase come dei complementi o degli aggiunti verbali. A questo scopo includiamo un frammento di uno degli esempi riportati più in basso completamente: in questa frase il verbo “said” contenuto nella frase relativa introdotta da “which” ha come complemento una frase che è priva di complementatore ma viene introdotta da tre elementi vuoti marcati con Y che abbiamo segnato con due * in inizio riga. Il problema è il verbo “follow” coordinato con “operated” ma è contenuto in una struttura frasale separata e privo di legami con il pronome relativo soggetto che nel caso di “operated” viene interpretato come Oggetto, essendo il verbo al passivo, ma nel caso di “follow” dovrebbe essere indicato come Soggetto. 16. The grand jury commented on a number of other topics, among them the Atlanta and Fulton County purchasing departments, which it said are well operated and follow generally accepted practices which inure to the best interest of both governments. A01:0190b A01:0190c A01:0190d **A01:0190e **A01:0190f **A01:0190g A01:0190h A01:0190i A01:0190j A01:0190k ***A01:0190m A01:0190n [Np:o117[Tn[R:h.R:h] A01:0200a A01:0200b - DDQr PPH1 VVDv YIL YG YG VBR RR VVNv CC VV0v VVNv NN2 which which [Fr[Dq:G113.Dq:G113] it it [Ni:s.Ni:s] said say [Vd.Vd] <ldquo> . [Fn:o[o113.o113] [h115.h115] +are be [Vap. well well [R:G115.R:G115] operated operate .Vap] and and [Fn+. follow follow [V.V] RR generally generally accepted practices accept [Vn.Vn]Tn] practice . Riportiamo qui di seguito tutti i tags utilizzati nel Susanne Corpus, ad esclusione dei POS tags. Anche se non sono commentati nella relazione, riportiamo anche i Function Tags per facilitare la comprensione degli esempi. Gli esempi che seguono i tags, sono relativi ai tag di struttura in costituenti tratti da A01, A02, A03, G05. Ovviamente tutti i testi e i tags sono tratti direttamente dal documento rilasciato da G.Sampson che citiamo qui in basso, senza apportare alcuna modifica. THE SUSANNE CORPUS Release 3, 1994.04.04 Geoffrey Sampson School of Cognitive & Computing Sciences University of Sussex Falmer, Brighton BN1 9QH, England [email protected] CONSTITUENT STRUCTURE TAGS D-133 Linea 1.1 - Treebank sintattico-semantica dell'italiano Clausetags S Ss Fa Fn Fr Ff Fc Tg Tn Ti Tf Tb Tq W A Z L main clause embedded quoting clause adverbial clause nominal clause relative clause fused relative comparative clause present participle clause past participle clause infinitival clause “for-to” clause bare nonfinite clause infinitival relative clause “with” clause special “as” clause reduced (“whiz-deleted”) relative miscellaneous verbless clause Phrasetags V N J R P D M G verb group noun phrase adjective phrase adverb phrase prepositional phrase determiner phrase numeral phrase genitive phrase The various phrase categories take lower-case subcategory symbols which can be combined in any meaningful combination (e.g. the verb group “must have been noticed” would be formtagged “Vcfp”). The phrase subcategories are: Vo operator section of verb group, when separated from remainder of V e.g. by subject-auxiliary inversion Vr remainder of V from which Vo has been separated Vm V beginning with “am” Va V beginning with “are” Vs V beginning with “was” Vz V beginning with other 3rd-singular verb Vw V beginning with “were” Vj V beginning with “be” Vd V beginning with past tense Vi infinitival V Vg V beginning with present participle Vn V beginning with past participle Vc V beginning with modal Vk V containing emphatic DO Ve negative V Vf perfective V Vu progressive V Vp passive V Vb V ending with BE Vx V lacking main verb Vt catenative V Nq “wh-” N D-134 Linea 1.1 - Treebank sintattico-semantica dell'italiano Nv Ne Ny Ni Nj Nn Nu Na No Ns Np “wh...ever” N “I/me” as whole or head “you” as whole or head “it” as whole or head adjectival head proper name unit of measurement as head marked as subject marked as nonsubject marked as singular marked as plural Jq Jv Jx Jr Jh “wh-” J “wh...ever” J measured absolute J measured comparative J “heavy” (postmodified) J Rq Rv Rx Rr Rs Rw “wh-” R “wh...ever” R measured absolute R measured comparative R adverb conducive to asyndeton quasi-nominal adverb Po Pb Pq Pv “of” phrase “by” phrase “wh-” P “wh...ever” P Dq Dv Ds Dp “wh-” D “wh...ever” D marked as singular marked as plural Ms M headed by “one” Gq Gv “wh-” G “wh...ever” G NON-ALPHANUMERIC FORMTAG SUFFIXES ? * % ! “ interrogative clause imperative clause subjunctive clause exclamatory clause or other item vocative item + @ & within a subordinate conjunct introduced by conjunction subordinate conjunct not introduced by conjunction appositional element co-ordinate structure acting as first conjunct higher co-ordination (marked in certain cases only) WT& WT+ introduced WT- co-ordination of words conjunct within wordlevel co-ordination by a conjunction conjunct within wordlevel D-135 that co-ordination is not Linea 1.1 - Treebank sintattico-semantica dell'italiano introduced by a conjunction FUNCTION TAGS Complement Functiontags s o i u e j a S O G logical subject logical direct object indirect object prepositional object predicate complement of subject predicate complement of object agent of passive surface (and not logical) subject surface (and not logical) direct object “guest” having no grammatical role within its tagma Adjunct Functiontags p q t h m c r w k b place direction time manner or degree modality contingency respect comitative benefactive absolute Other Functiontags n x z participle of phrasal verb relative clause having higher clause as antecedent complement of catenative 1. The Fulton County Grand Jury said Friday an investigation of Atlanta recent primary election produced no evidence that any irregularities took place. es. di S, Fn A01:0010a A01:0010b A01:0010c A01:0010d A01:0010e A01:0010f A01:0010g A01:0010h A01:0010i A01:0010j A01:0020a A01:0020b A01:0020c A01:0020d A01:0020e A01:0020f A01:0020g - YB AT NP1s NNL1cb JJ NN1c VVDv NPD1 AT1 NN1n IO NP1t GG JJ JJ NN1n VVDv <minbrk> - [Oh.Oh] The the [O[S[Nns:s. Fulton Fulton [Nns. County county .Nns] Grand grand . Jury jury .Nns:s] said say [Vd.Vd] Friday Friday [Nns:t.Nns:t] an an [Fn:o[Ns:s. investigation investigation . of of [Po. Atlanta Atlanta [Ns[G[Nns.Nns] +<apos>s - .G] recent recent . primary primary . election election .Ns]Po]Ns:s] produced produce [Vd.Vd] D-136 Linea 1.1 - Treebank sintattico-semantica dell'italiano A01:0020h YIL A01:0020i ATn A01:0020j NN1u A01:0020k YIR A01:0020m CST A01:0030a DDy A01:0030b NN2 .Np:s] A01:0030c VVDv A01:0030d [Ns:o.Ns:o]Fn]Ns:o]Fn:o]S] A01:0030e YF <ldquo> . +no no [Ns:o. evidence evidence +<rdquo> - . that that [Fn. any any [Np:s. irregularities took take [Vd.Vd] NNL1c place +. - . irregularity place .O] 2. The September-October term jury had been charged by Fulton Superior Court Judge Durwood Pye to investigate reports of possible irregularities in the hard fought primary which was won by Mayor nominate Ivan Allen Jr. es. di S, Fr, Tn, P A01:0070a A01:0070b A01:0070c A01:0070d A01:0070e A01:0070f A01:0070g A01:0070h A01:0070i A01:0070j A01:0070k A01:0070m A01:0080a A01:0080b A01:0080c A01:0080d A01:0080e A01:0080f A01:0080g A01:0080h A01:0080i A01:0080j A01:0080k A01:0090a A01:0090b A01:0090c A01:0090d A01:0090e A01:0090f A01:0090g A01:0090h A01:0090i A01:0090j A01:0090k A01:0090m A01:0090n A01:0100a A01:0100b A01:0100c A01:0100d A01:0100e - YB AT NPM1 YH NPM1 NNT1c NN1c VHD VBN VVNv IIb NP1s JJ NNJ1n NNS1c NP1m NP1s YG TO VV0t NN2 IO JJ YIL NN2 YIR II AT RR YH VVNv NN1c DDQr VBDZ VVNv IIb NNS1c YH RAj NP1m NP1s <minbrk> - [Oh.Oh] The the [O[S[Ns:S105. September September [Ns[Nns. +<hyphen> - . +October October .Nns] term term .Ns] jury jury .Ns:S105] had have [Vdfp. been be . charged charge .Vdfp] by by [Pb:a. Fulton Fulton [Nns[Nns. Superior superior . Court court .Nns] Judge judge . Durwood Durwood . Pye Pye .Nns]Pb:a] [Ti:o[s105.s105] to to [Vi. investigate investigate .Vi] reports report [Np:o. of of [Po. possible possible [Np. <ldquo> . +irregularities irregularity . +<rdquo> - . in in [P. the the [Ns:107. hard hard [Tn[R:h.R:h] +<hyphen> - . +fought fight [Vn.Vn]Tn] primary primary . which which [Fr[Dq:S107.Dq:S107] was be [Vsp. won win .Vsp] by by [Pb:a. Mayor mayor [Nns[Ns. +<hyphen> - . +nominate nominate .Ns] Ivan Ivan . Allen Allen . D-137 Linea 1.1 - Treebank sintattico-semantica dell'italiano A01:0100f A NNSA .Nns]Pb:a]Fr]Ns:107]P]Np]Po]Np:o]Ti:o]S] A01:0100g YF +. - Jr - .O] 3. It urged that the next Legislature provide enabling funds and re-set the effective date so that an orderly implementation of the law may be effected. es. di S, Fc A01:0280a A01:0280b A01:0280c A01:0280d A01:0280e A01:0280f A01:0280g A01:0280h A01:0280i A01:0280j A01:0280k A01:0290a A01:0290b A01:0290c A01:0290d A01:0290e A01:0290f A01:0290g A01:0290h A01:0290i A01:0290j A01:0290k A01:0290m A01:0290n A01:0300a A01:0300b A01:0300c A01:0300d A01:0300e .Vcp]Fc]R:c]Fn%+] A01:0300f A01:0300g - YB PPH1 VVDt CST AT MDt NNJ1c YIL VV0v JJ NN2 CC FB YH VV0v AT JJ NN1n RRz CST AT1 JJ NN1c IO AT NN1n VMo VB0 <minbrk> - [Oh.Oh] It it [O[S[Ni:s.Ni:s] urged urge [Vd.Vd] that that [Fn%:o. the the [Ns:s. next next . Legislature legislature .Ns:s] <ldquo> . +provide provide [V.V] enabling enabling [Np:o. funds fund .Np:o] and and [Fn%+. re re<hyphen> [V. +<hyphen> - . +set set .V] the the [Ns:o. effective effective . date date .Ns:o] so so [R:c. that that [Fc. an an [Ns:S. orderly orderly . implementation implementation . of of [Po. the the [Ns. law law .Ns]Po]Ns:S] may may [Vcp. be be . VVNt effected effect YIR YF +<rdquo> +. - - - .Fn%:o]S] .O] 4. Only a relative handful of such reports was to be received - the jury said - considering the widespread interest in the election, the number of voters and the size of this city es. di Ss, N A01:0100h A01:0100i A01:0100j A01:0100k A01:0100m A01:0100n A01:0110a A01:0110b A01:0110c A01:0110d A01:0110e - YB YIL RRx AT1 JJ NN1c IO DAz NN2 VBDZ VVNv <minbrk> - [Oh.Oh] <ldquo> [O[Q:G109[S. +Only only [Ns:S. a a . relative relative . handful handful . of of [Po. such such [Np. reports report .Np]Po]Ns:S] was be [Vsp. received receive .Vsp] D-138 Linea 1.1 - Treebank sintattico-semantica dell'italiano A01:0110f A01:0110g A01:0110h A01:0110i A01:0110j A01:0110k A01:0110m A01:0110n A01:0110p A01:0110q A01:0120a A01:0120b A01:0120c A01:0120d A01:0120e A01:0120f A01:0120g A01:0120h A01:0120i A01:0120j A01:0120k A01:0120m A01:0120n A01:0130a A01:0130b A01:0130c A01:0130d A01:0130e - YIR YC AT NN1c VVDv YG YC YIL ICS AT JJ NN1n II AT NN1n YC AT NN1c IO NN2 CC AT NN1n IO DD1i NNL1c YIR YF +<rdquo> - . +, . the the [Ss[Ns:s. jury jury .Ns:s] said say [Vd.Vd] [o109.o109]Ss] +, . <ldquo> . +considering considering [P:c. the the [N. widespread widespread . interest interest . in in [P. the the [Ns. election election .Ns]P] +, . the the [Ns-. number number . of of [Po. voters voter .Po]Ns-] and and [Ns+. the the . size size . of of [Po. this this [Ns. city city .Ns]Po]Ns+]N]P:c] +<rdquo> - .S]Q:G109] +. .O] 5. Regarding Atlanta new multi-million dollar airport, the jury recommended that when the new management takes charge Jan. 1 the airport be operated in a manner that will eliminate political influences es. di Fa A01:0510k A01:0510m A01:0520a A01:0520b A01:0520c A01:0520d A01:0520e A01:0520f A01:0520g A01:0520h A01:0520i A01:0520j A01:0520k A01:0520m A01:0520n A01:0530a A01:0530b A01:0530c A01:0530d A01:0530e A01:0530f A01:0530g A01:0530h A01:0530i A YB II NP1t GG JJ FB YH NNOc YH NNU1c NNL1c YC AT NN1c VVDt YIL CST CSn AT JJ NN1n VVZv NN1n NPM <minbrk> - [Oh.Oh] Regarding regarding [O[S[P:r. Atlanta Atlanta [Ns[G[Nns.Nns] +<apos>s - .G] new new . multi multi<hyphen> [Nu. +<hyphen> - . +million million . +<hyphen> - . +dollar dollar .Nu] airport airport .Ns]P:r] +, . the the [Ns:s. jury jury .Ns:s] recommended recommend [Vd.Vd] <ldquo> . +that that [Fn%:o. when when [Fa:t[Rq:t.Rq:t] the the [Ns:s. new new . management management .Ns:s] takes take [Vz.Vz] charge charge [Ns:o.Ns:o] Jan. [N:t. D-139 Linea 1.1 - Treebank sintattico-semantica dell'italiano A01:0530j MC1n A01:0530k AT A01:0530m NNL1c A01:0540a VB0 A01:0540b VVNv A01:0540c II A01:0540d AT1 A01:0540e NN1c A01:0540f CST A01:0540g YG A01:0540h VMo A01:0540i VV0t A01:0540j JJ A01:0540k .Np:o]Fr]Ns:133]P:h]Fn%:o] A01:0540m YIR A01:0540n YF 1 .N:t]Fa:t] the the [Ns:S. airport airport .Ns:S] be be [Vjp. operated operate .Vjp] in in [P:h. a a [Ns:133. manner manner . that that [Fr. [s133.s133] will will [Vc. eliminate eliminate .Vc] political political [Np:o. NN2 influences influence +<rdquo> +. - .O] .S] 6. Yes, your honor, replied Bellows. What this amounts to, if true, is that there will be a free-for-all fight in this case. There is a conflict among the defendants. Es. di Ff A03:0160e YB A03:0160f YIL A03:0160g UH A03:0160h YC A03:0160i APPGy A03:0160j NN1n A03:0160k YIR A03:0160m YC A03:0160n VVDv A03:0170a NP1s A03:0170b YF A03:0170c YIL A03:0170d [Q[S[Ff:s[Dq:G111.Dq:G111] A03:0170e DD1i A03:0170f VVZi A03:0170g IIt A03:0170h YG A03:0170i YC A03:0170j CSi A03:0170k JJ A03:0170m YC A03:0170n VBZ A03:0170p CST A03:0170q EX A03:0170r VMo A03:0170s VB0 A03:0170t AT1 A03:0170u JJ A03:0170v YH A03:0170w IF A03:0170x YH A03:0170y DBa A03:0180a NN1n A03:0180b II A03:0180c DD1i <minbrk> [Oh.Oh] <ldquo> [O[S. +Yes yes [Q:o. +, . your your [Ns”. honor honour .Ns”]Q:o] +<rdquo> . +, . replied reply [Vd.Vd] Bellows Bellows [Nns:s.Nns:s]S] +. . <ldquo> . DDQ +What what this this [Ds:s.Ds:s] amounts amount [Vz.Vz] to to [P:u. [111.111]P:u] +, . if if [Fa:c. true true [J:e.J:e]Fa:c]Ff:s] +, . is be [Vzb.Vzb] that that [Fn:e. there there . will will [Vcb. be be .Vcb] a a [Ns:s. free free [Jh. +<hyphen> . +for for [P. +<hyphen> . +all all .P]Jh] fight fight .Ns:s] in in [P:p. this this [Ns. D-140 Linea 1.1 - Treebank sintattico-semantica dell'italiano A03:0180d A03:0180e A03:0180f A03:0180g A03:0180h A03:0180i A03:0180j A03:0180k A03:0180m .Np]P]Ns:s]S]Q] A03:0180n A03:0180p - NN1c YF EX VBZ AT1 NN1n II AT - - YIR YF case case .Ns]P:p]Fn:e]S] +. . There there [S. is be [Vzb.Vzb] a a [Ns:s. conflict conflict . among among [P. the the [Np. NN2 defendants defendant +<rdquo> +. - .O] . 7. It recommended that Fulton legislators act to have these laws studied and revised to the end of modernizing and improving them. Es. di Tg A01:0150f YB <minbrk> [Oh.Oh] A01:0150g PPH1 It it [O[S[Ni:s.Ni:s] A01:0150h VVDt recommended recommend [Vd.Vd] A01:0150i CST that that [Fn%:o. A01:0150j NP1s Fulton Fulton [Np:s[Nns.Nns] A01:0150k NN2 legislators legislator .Np:s] A01:0160a VV0v act act [V.V] A01:0160b YIL <ldquo> . A01:0160c TO +to to [Ti:c[Vi. A01:0160d VH0 have have .Vi] A01:0160e DD2i these these [Np:o. A01:0160f NN2 laws law .Np:o] A01:0160g VVNv studied study [Tn:j[Vn[VVNv&. A01:0160h CC and and [VVNt+. A01:0160i VVNt revised revise .VVNt+]VVNv&]Vn] A01:0160j IIt to to [P:c. A01:0160k AT the the [Ns. A01:0160m NN1c end end . A01:0160n IO of of [Po. A01:0160p VVGt modernizing modernize [Tg[Vg[VVGt&. A01:0170a CC and and [VVGv+. A01:0170b VVGv improving improve .VVGv+]VVGt&]Vg] A01:0170c PPHO2 them they [Nop:o.Nop:o]Tg]Po]Ns]P:c]Tn:j]Ti:c] A01:0170d YIR +<rdquo> .Fn%:o]S] A01:0170e YF +. .O] 8. However, the jury said it believes these two offices should combined to achieve greater efficiency and reduce the cost administration. Es. di Ti A01:0210d A01:0210e A01:0210f A01:0210g A01:0210h A01:0210i - YBR RR YC AT NN1c VVDv <emajhd> .Oh] However however [O[S[R:c.R:c] +, . the the [Ns:s. jury jury .Ns:s] said say [Vd.Vd] D-141 be of Linea 1.1 - Treebank sintattico-semantica dell'italiano A01:0210j PPH1 it it [Fn:o[Ni:s.Ni:s] A01:0210k VVZv believes believe [Vz.Vz] A01:0210m YIL <ldquo> . A01:0210n DD2i +these these [Fn:o[Np:S. A01:0220a MC two two . A01:0220b NN2 offices office .Np:S] A01:0220c VMd should shall [Vdcp. A01:0220d VB0 be be . A01:0220e VVNv combined combine .Vdcp] A01:0220f TO to to [Ti:c[Vi. A01:0220g VV0t achieve achieve .Vi] A01:0220h JJR greater great [Ns:o. A01:0220i NN1u efficiency efficiency .Ns:o] A01:0220j CC and and [Ti+. A01:0220k VV0v reduce reduce [V.V] A01:0230a AT the the [Ns:o. A01:0230b NN1n cost cost . A01:0230c IO of of [Po. A01:0230d NNJ1n administration administration .Po]Ns:o]Ti+]Ti:c]Fn:o]Fn:o] A01:0230e YIR +<rdquo> .S] A01:0230f YF +. .O] 9. State Party Chairman James W. Dorsey added that enthusiasm was picking up for a state rally to be held Sept. 8 in Savannah at which newly elected Texas Sen. John Tower will be the featured speaker. Es. d Tf A01:0900e A01:0900f A01:0900g A01:0900h A01:0900i A01:0900j A01:0900k A01:0910a A01:0910b A01:0910c A01:0910d A01:0910e A01:0910f A01:0910g A01:0910h A01:0910i A01:0910j A01:0910k A01:0910m A01:0910n A01:0910p A01:0910q A01:0910r A01:0920a A01:0920b A01:0920c [Nns.Nns]P:p] A01:0920d A01:0920e A01:0920f A01:0920g A01:0920h A A - YB NNL1n NNJ1n NNS1c NP1m NP1i NP1s VVDv CST NN1u YG VBDZ VVGv RP IF AT1 NNL1n NN1c YG TO VB0 VVNv NPM MCn II <minbrk> [Oh.Oh] State state [O[S[Nns:s. Party party . Chairman chairman . James James . W. . Dorsey Dorsey .Nns:s] added add [Vd.Vd] that that [Fn:o. enthusiasm enthusiasm [Ns:s. [143.143]Ns:s] was be [Vsu. picking pick .Vsu] up up [R:n.R:n] for for [Tf:G143. a a [Ns:S145. state state . rally rally . [147.147]Ns:S145] to to [Vip. be be . held hold .Vip] Sept. [N:t. 8 .N:t] in in [P:p. NN1c Savannah Savannah II DDQr RR VVNt NP1p at which newly elected Texas - at [Fr:G147[Pq:p. which [Dq:145.Dq:145]Pq:p] newly [Nns:s[Tn[R:t.R:t] elect [Vn.Vn]Tn] Texas . D-142 Linea 1.1 - Treebank sintattico-semantica dell'italiano A01:0920i A NNS A01:0920j NP1m A01:0920k NP1s A01:0930a VMo A01:0930b VB0 A01:0930c AT A01:0930d VVNt A01:0930e .Ns:e]Fr:G147]Tf:G143]Fn:o]S] A01:0930f YF Sen. . John John . Tower Tower .Nns:s] will will [Vcb. be be .Vcb] the the [Ns:e. featured feature [Tn[Vn.Vn]Tn] NNS1c speaker speaker +. - .O] 10. Daniel termed extremely conservative his estimate that it would produce million dollars to help erase an anticipated deficit of 63 million dollars at the end of the current fiscal year next Aug. 31. Es. di Tb A02:0100a YB <minbrk> [Oh.Oh] A02:0100b NP1s Daniel Daniel [O[S[Nns:s.Nns:s] A02:0100c VVDt termed term [Vd.Vd] A02:0100d YIL <ldquo> . A02:0100e RR +extremely extremely [J:j. A02:0100f JJ conservative conservative .J:j] A02:0100g YIR +<rdquo> . A02:0100h APPGm his his [Ns:o. A02:0100i NN1c estimate estimate . A02:0100j CST that that [Fn. A02:0100k PPH1 it it [Ni:s.Ni:s] A02:0100m VMd would will [Vdc. A02:0110a VV0v produce produce .Vdc] A02:0110b MCn 17 [Nup:o[M. A02:0110c NNOc million million .M] A02:0110d NNU2 dollars dollar .Nup:o] A02:0110e TO to to [Ti:c[Vi. A02:0110f VV0v help help .Vi] A02:0110g VV0t erase erase [Tb:o[V.V] A02:0110h AT1 an an [Ns:o. A02:0110i VVNt anticipated anticipate [Tn[Vn.Vn]Tn] A02:0110j NN1c deficit deficit . A02:0110k IO of of [Po. A02:0120a MCn 63 [Nup[M. A02:0120b NNOc million million .M] A02:0120c NNU2 dollars dollar .Nup]Po]Ns:o] A02:0120d II at at [P:t. A02:0120e AT the the [Ns. A02:0120f NN1c end end . A02:0120g IO of of [Po. A02:0120h AT the the [Ns. A02:0120i JB current current . A02:0120j JJ fiscal fiscal . A02:0120k NNT1c year year .Ns]Po] A02:0120m MDt next next [N@. A02:0120n A NPM Aug. . A02:0130a MCn 31 .N@]Ns]P:t]Tb:o]Ti:c]Fn]Ns:o]S] A02:0130b YF +. .O] 11. It was a fortunate time in which to build, for D-143 the seventeenth Linea 1.1 - Treebank sintattico-semantica dell'italiano century was a great period in Persian art. Es. di Tq G05:0010a G05:0010b G05:0010c G05:0010d G05:0010e G05:0010f G05:0010g G05:0010h G05:0010i G05:0010j G05:0010k G05:0010m G05:0010n G05:0010p G05:0020a G05:0020b G05:0020c G05:0020d G05:0020e G05:0020f G05:0020g G05:0020h G05:0020i - YB PPH1 VBDZ AT1 JJ NNT1c II DDQr TO VV0v YC CSf AT MD NNT1c VBDZ AT1 JJ NN1c II JJ NN1n YF <minbrk> [Oh.Oh] It it [O[S[Ni:s.Ni:s] was be [Vsb.Vsb] a a [Ns:e101. fortunate fortunate . time time . in in [Tq[Pq:p. which which [Dq:101.Dq:101]Pq:p] to to [Vi. build build .Vi]Tq]Ns:e101] +, . for for [Fa:c. the the [Ns:s. seventeenth seventeenth . century century .Ns:s] was be [Vsb.Vsb] a a [Ns:e. great great . period period .Ns:e] in in [P:p. Persian Persian [Ns. art art .Ns]P:p]Fa:c]S] +. . 12. With eyes focused on the third congressional district, the historic Delta district, and Congressman Frank E. Smith as the one most likely to go, the redistricting battle will put to a test the longstanding power which lawmakers from the Delta have held in the Legislature. Es. di W A08:0950i A08:0950j A08:0950k A08:0950m A08:0960a A08:0960b A08:0960c A08:0960d A08:0960e A08:0960f A08:0960g A08:0960h A08:0960i A08:0960j .Nns@] A08:0960k A08:0960m A08:0970a A08:0970b A08:0970c A08:0970d A08:0970e A08:0970f A08:0970g A08:0970h - YB IW NN2 VVNv II AT MD JJ NNL1c YC AT JJ NN1c <minbrk> [Oh.Oh] With with [O[S[W:b. eyes eye [Np:S.Np:S] focused focus [Vn.Vn] on on [P:q. the the [N. third third . congressional congressional . district district . +, . the the [Nns@. historic historic . Delta delta . NNL1c district district YC CC NNS1c NP1m NP1i NP1s IIa AT MC1 DAT +, . and and [Nns+. Congressman congressman Frank Frank . E. . Smith Smith .Nns+]N]P:q] as as [P:j. the the [Ms:184. one one . most most [Z[J:e. A - D-144 . Linea 1.1 - Treebank sintattico-semantica dell'italiano A08:0970i JJ likely likely .J:e] A08:0970j YG [Ti:s[s184.s184] A08:0970k TO to to [Vi. A08:0970m VV0i go go .Vi]Ti:s]Z]Ms:184]P:j]W:b] A08:0970n YC +, . A08:0970p AT the the [Ns:s. A08:0970q VVGt redistricting redistrict [Tg[Vg.Vg]Tg] A08:0980a NN1n battle battle .Ns:s] A08:0980b VMo will will [Vc. A08:0980c VV0v put put .Vc] A08:0980d IIt to to [P:q. A08:0980e AT1 a a [Ns. A08:0980f NN1c test test .Ns]P:q] A08:0980g AT the the [Ns:o167. A08:0980h JJ longstanding long<hyphen>standing . A08:0980i NN1n power power . A08:0980j DDQr which which [Fr[Dq:o167.Dq:o167] A08:0980k NN2 lawmakers lawmaker [Np:s. A08:0990a II from from [P. A08:0990b AT the the [Nns. A08:0990c NN1c Delta delta .Nns]P]Np:s] A08:0990d VH0 have have [Vf. A08:0990e VVNv held hold .Vf] A08:0990f II in in [P:p. A08:0990g AT the the [Nns. A08:0990h NNJ1c Legislature legislature .Nns]P:p]Fr]Ns:o167]S] A08:0990i YF +. .O] 13. After a long, hot controversy, Miller County has a new school superintendent elected, as a policeman put it, in the coolest election I ever saw in this county Es. di A, J A01:1670j A01:1670k A01:1670m A01:1670n A01:1670p A01:1670q .Ns]P:t] A01:1670r A01:1680a A01:1680b A01:1680c A01:1680d A01:1680e A01:1680f A01:1680g A01:1680h A01:1680i A01:1680j A01:1680k A01:1680m A01:1680n A01:1690a - ICSt AT1 JJ YC JJ - - After a long +, hot NN1n YC NP1s NNL1cb VHZ AT1 JJ NNJ1n NNS1c YC YG VVNt YC CSA AT1 - after [S[P:t. a [Ns. long [J[JJ&. . hot [JJ-.JJ-]JJ&]J] controversy controversy +, . Miller Miller [Nns:s. County county .Nns:s] has have [Vz.Vz] a a [Ns:o235. new new . school school . superintendent superintendent . +, . [Tn[S235.S235] elected elect [Vn.Vn] +, . as as [A:m. a a [Ns:s. NN1c policeman policeman D-145 Linea 1.1 - Treebank sintattico-semantica dell'italiano .Ns:s] A01:1690b VVDv A01:1690c PPH1 A01:1690d YC A01:1690e II A01:1690f AT A01:1690g YIL A01:1690h JJT A01:1690i NN1n A01:1690j PPIS1 A01:1690k RR A01:1690m VVDv A01:1690n YG A01:1690p II A01:1690q DD1i A01:1690r NNL1cb A01:1690s .Ns:237]P:p]Tn]Ns:o235]S] A01:1690t YF put put [Vd.Vd] it it [Ni:o.Ni:o]A:m] +, . in in [P:p. the the [Ns:237. <ldquo> . +coolest cool . election election I I [Fr[Nea:s.Nea:s] ever ever [R:t.R:t] saw see [Vd.Vd] [o237.o237] in in [P:p. this this [Ns. county county .Ns]P:p]Fr] YIR +<rdquo> +. - . - .O] 14. The disclosure by Charles Bellows, chief defense counsel, startled observers and was viewed as the prelude to a quarrel between the six attorneys representing the eight former policemen now on trial. Es. di Z A03:0040a A03:0040b A03:0040c A03:0040d A03:0040e A03:0040f A03:0040g A03:0040h A03:0040i A03:0040j A03:0040k A03:0050a [Np:o.Np:o] A03:0050b A03:0050c A03:0050d A03:0050e A03:0050f A03:0050g A03:0050h A03:0050i A03:0050j A03:0050k A03:0050m A03:0050n A03:0060a A03:0060b A03:0060c [Vg.Vg] A03:0060d A03:0060e A03:0060f A03:0060g A03:0060h A03:0060i - AT NN1n IIb NP1m NP1s YC JB NN1n NNn YC VVDt The the [S[Ns:s. disclosure disclosure . by by [Pb. Charles Charles [Nns. Bellows Bellows . +, . chief chief [N@. defense defence . counsel counsel .N@] +, .Nns]Pb]Ns:s] startled startle [Vd.Vd] NN2 observers observer CC VBDZ VVNt IIa AT NN1c IIt AT1 NN1c II AT MC NN2 YG and and [S+. was be [Vsp. viewed view .Vsp] as as [P:e. the the [Ns. prelude prelude . to to [P. a a [Ns. quarrel quarrel . between between [P. the the [Np:103. six six . attorneys attorney . [Tg[s103.s103] VVGt representing represent - AT MC DAr NN2 YG RTo the the [Np:o104. eight eight . former former . policemen policeman [Z[s104.s104] now now [Rw:t.Rw:t] D-146 . Linea 1.1 - Treebank sintattico-semantica dell'italiano A03:0060j II on on [P:p. A03:0060k NN1n trial .P:p]Z]Np:o104]Tg]Np:103]P]Ns]P]Ns]P:e]S+]S] A03:0060m YF +. .O] trial 15. Within an easy walk from the Capitol Hill where Pennsylvania Avenue comes together with Constitution Avenue, begins a series of great federal buildings, some a block long and all about seven-stories high. Es. di L A08:0300a II A08:0300b AT1 A08:0300c JJ A08:0300d NNL1c A08:0300e II A08:0300f NN1c A08:0300g NNL1c A08:0300h CSr A08:0300i NP1p A08:0300j NNL1c A08:0300k VVZi A08:0310a [P:u[II=. A08:0310b II22 A08:0310c NN1n A08:0310d NNL1c A08:0310e YC A08:0310f VVZv A08:0310g AT1 A08:0310h NNc A08:0310i IO A08:0310j JJ A08:0310k JJ A08:0320a NNL2 A08:0320b YC A08:0320c DDi A08:0320d AT1 A08:0320e NN1c A08:0320f JJ A08:0320g CC A08:0320h DBa A08:0320i RGi A08:0320j MC A08:0320k YH A08:0320m NN2 A08:0320n .Jx:e]L+]L]Np]Po]Ns:s]S] A08:0320p YF Within within [S[P:p. an an [Ns. easy easy . walk walk . from from [P. Capitol Capitol [Nns. Hill hill .Nns]P] where where [Fa[Rq:p.Rq:p] Pennsylvania Pennsylvania [Nns:s. Avenue avenue .Nns:s] comes come [Vz.Vz] II21 together together with with .II=] Constitution constitution [Nns. Avenue avenue .Nns]P:u]Fa]Ns]P:p] +, . begins begin [Vz.Vz] a a [Ns:s. series series . of of [Po. great great [Np. federal federal . buildings building . +, . some some [L[D:s.D:s] a a [Jx:e[Ns. block block .Ns] long long .Jx:e] and and [L+. all all [D:s.D:s] about about [Jx:e[Np. seven seven . +<hyphen> . +stories story .Np] JJ high high +. - .O] 16. The grand jury commented on a number of other topics, among them the Atlanta and Fulton County purchasing departments, which it said are well operated and follow generally accepted practices which inure to the best interest of both governments. Es. di V D-147 Linea 1.1 - Treebank sintattico-semantica dell'italiano A01:0170f YB <minbrk> [Oh.Oh] A01:0170g AT The the [O[S[Ns:s. A01:0170h JJ grand grand . A01:0170i NN1c jury jury .Ns:s] A01:0170j VVDi commented comment [Vd.Vd] A01:0170k II on on [P:u. A01:0170m AT1 a a [Ns. A01:0170n NN1c number number . A01:0180a IO of of [Po. A01:0180b JBo other other [Np. A01:0180c NN2 topics topic .Np]Po]Ns]P:u] A01:0180d YC +, . A01:0180e II among among [L:b[P:p. A01:0180f PPHO2 them they .P:p] A01:0180g AT the the [Np:s113. A01:0180h NP1t Atlanta Atlanta [Nn. A01:0180i CC and and [Nns+. A01:0180j NP1s Fulton Fulton . A01:0180k NNL1cb County county .Nns+]Nn] A01:0180m VVGt purchasing purchase [Tg[Vg.Vg]Tg] A01:0190a NN2 departments department . A01:0190b DDQr which which [Fr[Dq:G113.Dq:G113] A01:0190c PPH1 it it [Ni:s.Ni:s] A01:0190d VVDv said say [Vd.Vd] A01:0190e YIL <ldquo> . A01:0190f YG [Fn:o[o113.o113] A01:0190g YG [h115.h115] A01:0190h VBR +are be [Vap. A01:0190i RR well well [R:G115.R:G115] A01:0190j VVNv operated operate .Vap] A01:0190k CC and and [Fn+. A01:0190m VV0v follow follow [V.V] A01:0190n RR generally generally [Np:o117[Tn[R:h.R:h] A01:0200a VVNv accepted accept [Vn.Vn]Tn] A01:0200b NN2 practices practice . A01:0200c DDQr which which [Fr[Dq:s117.Dq:s117] A01:0200d VV0t inure inure [V.V] A01:0200e IIt to to [P:u. A01:0200f AT the the [Ns. A01:0200g JJT best good . A01:0200h NN1n interest interest . A01:0200i IO of of [Po. A01:0200j DB2 both both [Np. A01:0200k NN2 governments government .Np]Po]Ns]P:u]Fr]Np:o117]Fn+]Fn:o] A01:0200m YIR +<rdquo> - .Fr]Np:s113]L:b]S] A01:0200n YF +. .O] 17. Gov. Vandiver is expected to make the traditional visit to both chambers as they work toward adjournment. Vandiver likely will mention the $100 million highway bond issue approved earlier in the session as his first priority item. Es. di R, M A01:1190d A01:1190e A01:1190f A01:1190g A - YB NNS NP1s VBZ <minbrk> Gov. Vandiver is be D-148 - [Oh.Oh] [O[S[Nns:S179. Vandiver .Nns:S179] [Vzp. Linea 1.1 - Treebank sintattico-semantica dell'italiano A01:1190h A01:1190i A01:1190j A01:1190k A01:1190m A01:1190n A01:1200a A01:1200b A01:1200c A01:1200d A01:1200e A01:1200f A01:1200g A01:1200h A01:1200i .P:q]Fa:t]Ti:o]S] A01:1200j A01:1200k [S[Nns:s.Nns:s] A01:1200m A01:1210a A01:1210b A01:1210c A01:1210d A01:1210e A01:1210f A01:1210g A01:1210h A01:1210i A01:1210j A01:1210k A01:1210m A01:1220a A01:1220b A01:1220c .Ns]P]R:t]Tn]Ns:o181] A01:1220d A01:1220e A01:1220f A01:1220g A01:1220h A01:1220i - VVNt YG TO VV0v AT JJ NN1c IIt DB2 NNL2 CSA PPHS2 VV0v II YF expected expect .Vzp] [Ti:o[s179.s179] to to [Vi. make make .Vi] the the [Ns:o. traditional traditional . visit visit . to to [P. both both [Np. chambers chamber .Np]P]Ns:o] as as [Fa:t. they they [Nap:s.Nap:s] work work [V.V] toward toward [P:q. NN1c adjournment adjournment +. NP1s - . Vandiver Vandiver RR VMo VV0t AT NNUb MCn NNOc NNL1c NN1c NN1n YG VVNv RRR II AT likely likely [R:m.R:m] will will [Vc. mention mention .Vc] the the [Ns:o181. <dollar> - [Nu. +100 [M. million million .M]Nu] highway highway [Ns. bond bond .Ns] issue issue . [Tn[S181.S181] approved approve [Vn.Vn] earlier early [R:t. in in [P. the the [Ns. NNT1c session session IIa APPGm MDo NN1n NN1c YF as as [P:j. his his [Ns. first first [Ns. priority priority item item .Ns]P:j]S] +. .O] .Ns] 18. The petition said that the couple has not lived together as man and wife for more than a year. Es. di D A01:0760h A01:0760i A01:0760j .Ns:s] A01:0760k A01:0760m A01:0760n A01:0760p A01:0770a A01:0770b A01:0770c A01:0770d [R:w.R:w] - YB AT <minbrk> [Oh.Oh] The the [O[S[Ns:s. NN1c petition petition VVDv CST AT NN1c VHZ XX VVNv said that the couple has not lived RL - say [Vd.Vd] that [Fn:o. the [Ns:s. couple .Ns:s] have [Vzef. not . live .Vzef] together D-149 together Linea 1.1 - Treebank sintattico-semantica dell'italiano A01:0770e A01:0770f A01:0770g A01:0770h A01:0770i A01:0770j A01:0770k A01:0770m A01:0770n A01:0770p - IIa NN1c CC NN1c IF DAR CSN AT1 NNT1c YF as man and wife for more than a year +. as man and wife for more than a year - [P:h. [N[NN1c&. [NN1c+. .NN1c+]NN1c&]N]P:h] [P:t. [D. [P. [Ns. .Ns]P]D]P:t]Fn:o]S] .O] 19. Georgia Republicans are getting strong encouragement to candidate in the 1962 governor’s race, a top official said enter a Es. di G A01:0860a A01:0860b [O[S[S:o[Np:s[Nns.Nns] A01:0860c .Np:s] A01:0860d A01:0860e A01:0860f A01:0860g A01:0860h A01:0860i A01:0870a A01:0870b .Ns:o] A01:0870c A01:0870d A01:0870e A01:0870f A01:0870g A01:0870h A01:0870i A01:0870j A01:0870k A01:0870m .Ns:s] A01:0870n A01:0870p [Nns:t.Nns:t]S] A01:0870q - YB <minbrk> NP1p NN2 - [Oh.Oh] Georgia Georgia Republicans republican VBR VVGv JJ NN1n TO VV0v AT1 are be [Vau. getting get .Vau] strong strong [Ns:o. encouragement encouragement . to to [Ti[Vi. enter enter .Vi] a a [Ns:o. NN1c candidate candidate II AT MCy NNS1c GG NN1n YC AT1 NN1c in in [P:p. the the [Ns. 1962 . governor governor [G. +<apos>s .G] race race .Ns]P:p]Ti]Ns:o]S:o] +, . a a [Ns:s. top top . NN1c official official VVDv YF said NPD1 +. say [Vd.Vd] Wednesday - Wednesday .O] PB e TSAM: CARATTERISTICHE COMUNI Entrambi i casi in esame hanno scelto di produrre una annotazione sintattica unificata che inglobi i tratti e i tag morfosintattici tralasciando le caratteristiche tipografiche del testo. Iniziamo a commentare dal PB che più degli altri si differenzia dal nostro approccio. Includiamo qui in basso le intenzioni del curatore Marcus: “This is the Penn Treebank Project: Release 2 CDROM, featuring a million words of 1989 Wall Street Journal material annotated in Treebank II style. This bracketing style, which is designed to allow the D-150 Linea 1.1 - Treebank sintattico-semantica dell'italiano extraction of simple predicate-argument structure, is described in doc/arpa94 and the new bracketing style manual (in doc/manual/). In addition, there is a small sample of ATIS-3 material, also annotated in Treebank II style. Finally, there is a considerably cleaner version of the material released on the previous Treebank CDROM (Preliminary Release, Version 0.5, December 1992), annotated in Treebank I style.” Il PT è legato ad una visione strettamente configurazionale della rappresentazione sintattica e la presenza massiccia di categorie vuote: in pratica la teoria chomskiana che prevede la possibilità di attuare una interpretazione semantica partendo dalla struttura superficiale sulla quale vengono aggiunte tutte le categoria vuote, sia quelle prodo tte dal movimento WH- sia quelle più frequenti prodotte dal movimento NP. Inoltre, vengono indicate con categorie vuote tutte le funzioni grammaticali inespresse, come i soggetti di verbi di modo indefinito, e tutte le strutture ellittiche. Il problema principale di questa rappresentazione sintattica è la presenza del nodo VP e l’utilizzo massiccio della chomsky-adjunction per indicare tipi diversi di fenomeni: - gli elementi in SPEC vengono inclusi in un nodo duplicato del costituente principale: - ad esempio nel VP gli ausiliari sono in un nodo duplicato più alto, (S (NP-SBJ Casey) (VP will (VP throw (NP the ball)))) - lo stesso vale per i modificatori di NP che sono attaccati al nodo NP più alto, (S (NP (NP the soldiers) (ADJP involved (PP in (NP the killing)))) - nel caso in cui ci fosse una frase appositiva aggiunta ci sarebbe un nodo di VP aggiunto e avremmo la situazione seguente con tre nodi di VP: (S (NP-SBJ Investors) (VP might (VP (VP appear (ADJP-PRD unenthusiastic (PP about (NP the new issue)))) (SBAR (WHNP-1 which) - invece nel caso si abbiano complementi del predicato reggente questi vengono subito dopo la testa come nella nostra rappresentazione: (NP the belief (SBAR that (S the world is flat))) Per quanto riguarda i premodificatori invece, la PT nostro stesso criterio di includerli direttamente livello della testa: “Premodifiers: Premodifiers generally associated with: (NP the red ball) are placed inside D-151 the utilizza il allo stesso phrase they are Linea 1.1 - Treebank sintattico-semantica dell'italiano (ADJP extremely delicious) (ADVP (NP one year) ago) VP premodifiers, however, are more often attached at S-level or VP level.” at Il discorso è che gli avverbiali vengono inclusi in un loro costituente senza raddoppiare il nodo come si fa con gli altri aggiunti: (S (NP-SBJ Sandy) (VP (ADVP-MNR sneakily) threw (NP a curve))) Altre pesantezze della descrizione in costituenti si trovano nelle infinitive che sono costruire come frasi S, con un nodo VP raddoppiato nel caso ci fosse il “to” espresso: (S (NP-SBJ-1 Casey) (VP wants (S (NP-SBJ *-1) (VP to (VP throw (NP the ball)))))) Stranamente poi, quando ci sono frasi dipendenti preposte, queste vengono messe sotto il nodo S principale allo stesso livello del resto della principale e non in un nodo aggiunto!!: (S (S-ADV (NP-SBJ *-1) (VP Running (PP-DIR toward (NP Casey)))) , (NP-SBJ-1 Willie) (VP caught (NP the ball))) Proprio quando il nodo aggiunto servirebbe a rendere visibile la relazione di dipendenza tra principale e secondaria, questo viene a mancare. Da notare che nel caso in cui la secondaria si trova in posizione postverbale, questa viene chiusa nel VP come se non si trattasse di un aggiunto a livello di frase identico a quello in posizione preverbale. L’esempio che riportiamo è preso da pag.19 e ha i NP invertiti “He ate *television while watching *dinner”(sic). ( (S (NP-SBJ-1 He) (VP ate (NP television) (SBAR-TMP while (S (NP-SBJ *-1) (VP watching (NP dinner))))) .)) La PT poi utilizza nomi di costituenti per indicare la non canonicità di strutture frasali: ad esempio SQ per frasi interrogative senza soggetto e senza ausiliare. (SQ (NP-SBJ *) (VP See (NP that cute dog)) ?) Nel caso in cui ci fosse una struttura inversa questa verrebbe D-152 Linea 1.1 - Treebank sintattico-semantica dell'italiano comunque indicata a livello alto: (SINV (ADVP-TMP Never) had (NP-SBJ I) (VP seen (NP such a place))) Invece se la frase inversa fosse una dipendente di condizionale, apparirebbe il nodo SBAR: (S (SBAR-ADV (SINV had (NP-SBJ Casey) (VP thrown (NP the ball) (ADVP-MNR harder)))) , (NP-SBJ it) (VP would (VP have (VP reached (NP home plate)... tipo E’ difficile interpretare l’utilità di un ulteriore nodo al di sopra di SINV! Il nodo SBAR nella PT viene utilizzato per le domande indirette e per le relative cioè per complementi e aggiunti ma senza attributi: (S (NP-SBJ (NP The person) (SBAR (WHNP-1 who) (S (NP-SBJ *T*-1) (S (NP-SBJ Willie) (VP knew (SBAR that (S (NP-SBJ Casey) Il nodo viene aggiunto e non incassato nel NP. Per aumentare la mescolanza di livelli e di interpretazioni, SBAR viene sostituito da SBARQ nella domande dirette ed è seguito da SQ e non da S: (SBARQ (WHNP-1 Who) (SQ (NP-SBJ *T*-1) (VP threw (NP the ball))) ?) Un ulteriore tipologia strutturale è costituita dalle frasi scisse, in cui la struttura di frase relativa predicativa viene sollevata a livello di VP: nel nostro caso invece sarebbe più in alto, allo stesso livello di frase in cui si trova il soggetto espletivo. Vale la pena notare che il livello di incassamento nella PT è di 9 parentesi: nella corrispondente struttura assegnata dalla nostra annotazione, che proponiamo in basso con le stesse etichette della PT, invece scenderebbe a 4. (S-CLF (NP-SBJ It) (VP is (ADVP-TMP-PRD then) (SBAR (WHADVP-1 that) (S (NP-SBJ-2 young queens) (VP begin (S (NP-SBJ *-2) (VP to (VP appear))) (ADVP-TMP *T*-1)))))) (F-CLF (NP-SBJ It) (IBAR is) D-153 Linea 1.1 - Treebank sintattico-semantica dell'italiano (COMPC ADVP-TMP-PRD-then) (FAC PK-that (F (NP-SBJ-2 young queens) (IBAR begin) (SV2 to appear))) ) Nella nostra rappresentazione la frase scissa non conterrebbe un elemento WH- in questo caso ma un complementatore, e la frase predicativa sarebbe a livello più alto. Con un pronome relativo avremmo una diversa marca di costituente ma sempre a livello di frase alta: (S-CLF (NP-SBJ It) (VP was (NP Casey) (SBAR (WHNP-1 who) (S (NP-SBJ *T*-1) (VP threw (NP the ball)))))) (F-CLF (NP-SBJ It) (IBAR was) (COMPC (NP Casey)) (F2 WHNP-1 who (F (NP-SBJ *T*-1) (IBAR threw) (COMPT (NP the ball)))) ) Insomma la frase scissa verrebbe trattata come le frasi con strutture estraposte che contengono in inglese un espletivo lessicale: Nel caso di estraposizione come in quello precedente di cleft, la frase estraposta non si trova nel complemento ma a livello più alto. (S (NP-SBJ (NP It) (S *EXP*-1)) (VP is (NP-PRD a pleasure) (S-1 (NP-SBJ *) (VP to (VP teach (NP her)))))) (S (NP-SBJ It) (IBAR is) (COMPC (NP-PRD a pleasure)) (SV2 to teach (NP her)) ) Gli elementi dislocati che si trovano in posizione di inizio frase non vengono messi in un costituente particolare ma semplicemente elencati sotto lo stesso nodo in cui si trova poi il soggetto: unica differenza hanno una marca o attributo aggiunto al NP-TPC di topic. Nel nostro caso invece, si troverebbero sotto CP separati dalla frase. (S (NP-TPC-5 This) (NP-SBJ every man) (VP contains D-154 Linea 1.1 - Treebank sintattico-semantica dell'italiano (NP *T*-5) (PP-LOC within (NP him)))) (CP NP-TPC-5 This (F (NP-SBJ every man) (IBAR contains) (COMPC (PP-LOC within) (NP him)))) Una struttura di frase interessante è costituita da FRAG, che viene utilizzata in PT nel modo seguente: “FRAG marks those portions of text that appear to be clauses, but lack too many essential elements for the exact structure to be easily determined (e.g., answers to questions). Predicate argument structure therefore cannot be extracted from FRAGs.” (SBARQ (WHNP-9 Who) (S (NP-SBJ *T*-9) (VP threw (NP the ball))) ?) (FRAG (NP Casey) , (NP-TMP yesterday)) Sono tutte le frasi ellittiche. utilizzato al posto di S. Notare che FRAG è di nuovo Infine la coordinazione. La coordinazione viene trattata raddoppiando i nodi e inserendoli in una struttura chomsky-aggiunta. Dal nodo padre pende l’elemento congiunzione. Dal momento che però la stessa cosa avviene con i modificatori, non c’è nessuna informazione utile per capire che si tratta di una struttura coordinata. (NP-SBJ (NP These girls) and (NP those boys)) (VP (VP throw (ADVP-MNR well)) and (VP catch (ADVP-MNR badly)))) 2.1 Bracket labels 2.1.1 Clause level S | Simple declarative clause, i.e. one that is not introduced by a (possibly empty) subordinating conjunction or wh-word and that does not exhibit subject-verb inversion. SBAR | Clause introduced by a (possibly empty) subordinating conjunction. SBARQ |Direct question introduced by a wh-word or wh-phrase. Indirect questions and relative clauses should be bracketed as SBAR, not SBARQ. SINV | Inverted declarative sentence, i.e. one in which the subject follows the tensed verb or modal. SQ | Inverted yes/no question, or main clause of a wh-question, following the wh-phrase in SBARQ. D-155 Linea 1.1 - Treebank sintattico-semantica dell'italiano 2.1.2 Phrase level ADJP |Adjective Phrase. Phrasal category headed by an adjective (including comparative and superlative adjectives). Example: outrageously expensive. ADVP | Adverb Phrase. Phrasal category headed by an adverb (including comparative and superlative adverbs). Examples: rather timidly , very well indeed, rapidly . CONJP | Conjunction Phrase. Used to mark certain “multi-word” conjunctions, such as as well as, instead of. FRAG | Fragment. INTJ | Interjection. Corresponds approximately to the part-of-speech tag UH. LST | List marker. Includes surrounding punctuation. NAC | Not A Constituent; used to show the scope of certain prenominal modifiers within a noun phrase. NP | Noun Phrase. Phrasal category that includes all constituents that depend on a head noun. NX | Used within certain complex noun phrases to mark the head of the noun phrase. Corresponds very roughly to N-bar level but used quite differently. PP | Prepositional Phrase. Phrasal category headed by a preposition. PRN | Parenthetical. PRT | Particle. Category for words that should be tagged RP. QP | Quantifier Phrase (i.e., complex measure/amount phrase); used within NP. RRC | Reduced Relative Clause. UCP | Unlike Coordinated Phrase. VP | Verb Phrase. Phrasal category headed a verb. WHADJP | Wh-adjective Phrase. Adjectival phrase containing a whadverb, as in how hot. WHADVP | Wh-adverb Phrase. Introduces a clause with an ADVP gap. May be null (containing the 0 complementizer) or lexical, containing a wh-adverb such ashow or why. WHNP | Wh-noun Phrase. Introduces a clause with an NP gap. May be null (containing the 0 complementizer) or lexical, containing some wh-word, e.g. who, which book, whose daughter, none of which, or how many leopards. WHPP | Wh-prepositional Phrase. Prepositional phrase containing a wh-noun phrase (such as of which or by whose authority) that either introduces a PP gap or is contained by a WHNP. X |Unknown, uncertain, or unbracketable. X is often used for bracketing typos and in bracketing the...the - constructions. Sono 22 simboli di costituenti maggiori. Interessanti quelli di LST e quelli X che noi non abbiamo. SBAR S NP PP (SBAR if (S (NP that ‘s) (VP done)) (S (NP the inmate) is immediately (VP returned (PP to (NP jail)))))) D-156 forse sono Linea 1.1 - Treebank sintattico-semantica dell'italiano SBARQ PRT (NP (NP the period (PP of (NP impunity))) (SBARQ (WHNP that) (S (NP T) has (VP (VP tarnished (NP the judicial system)) and (VP covered (PRT up) SINV ((SINV `` (S-2 (NP-SBJ There) (VP ‘s (NP (NP a price) ( (SINV (VP Says (S *ICH*-1)) (NP-SBJ (NP long-time associate Jerry Griffin) SQ (SQ Can (NP-SBJ he) (VP act (PP (ADVP more) like (NP hard-charging Teddy Roosevelt)))) QP (NP-TMP (QP only 2 1) years) WHADVP (SBAR (WHADVP When) (S (NP a computerized call) is (VP made (PP to (NP (NP a former prisoner) ‘s home phone)))) ADVP (S (ADVP (NP Next week)) (S (NP (NP some inmates) (VP released D-157 Linea 1.1 - Treebank sintattico-semantica dell'italiano (ADVP early) (PP from (NP the Hampton County jail (PP in (NP Springfield)))))) WHNP (NP (NP Computerized phone calls) (SBAR (WHNP which) (S (NP T) (VP do (NP everything (PP from (NP (VP selling (NP magazine subscriptions)))) WHPP (SBAR (WHPP to (WHNP which justice)) (S has not (VP been (VP applied ))))) ADJP (S (SBAR if (S (NP (NP the soldiers) (ADJP involved (PP in (NP the killing)))) FRAG (SBARQ (WHNP-9 Who) (S (NP-SBJ *T*-9) (VP threw (NP the ball))) ?) (FRAG (NP Casey) , (NP-TMP yesterday)) RRC (VP read (NP (NP the books) (RRC (PP on (NP the shelf)) (NP-TMP yesterday)))) LST ( (NP (LST 1) (NP Full payment) (PP of (NP (NP hospital bills) (PP for D-158 Linea 1.1 - Treebank sintattico-semantica dell'italiano (NP (NP stays) (NP (QP up to 90) days))))) .)) ( (NP (LST 2) (NP Full payment) (PP of (NP nursing home bills)) (PP-TMP for (NP (NP (QP up to 180) days) (PP-TMP following (NP (NP discharge) (PP from (NP a hospital)))))) .)) ( (NP (LST 3) (NP Hospital outpatient clinic diagnostic service) (PP for (NP (NP all costs) (PP in (NP (NP excess) (PP of (NP (NP $ 20) (NP-ADV a patient))))))) .)) UCP (PP-CLR=4 as (UCP (PP out (PP to (NP lunch))) and (ADJP totally half-baked))) (ADVP=5 *NOT*)))) (UCP-ADV (ADVP (ADVP so much) (SBAR *RNR*-1)) and (PP-TMP for (NP (NP so long) (SBAR *RNR*-1))) NAC (PP (PP-LOC in (NP court records)) or (PP-MNR via (NP the (NAC Freedom (PP of (NP Information))) Act)))) (NP (NAC sale (PP of (NP firecrackers))) law) (NP (NAC Secretary (PP of (NP State))) James Baker) D-159 Linea 1.1 - Treebank sintattico-semantica dell'italiano INTJ (INTJ please) (VP close (NP the door)) PRN ( (NP-HLN (NP The end) (PP of (NP Trujillo)))) ( (S (NP-SBJ (NP Assassination) (PRN , (PP (ADVP even) of (NP a tyrant)) ,)) (VP is (ADJP-PRD repulsive (PP to (NP (NP men) (PP of (NP good conscience)))))) NX (NP the (NX (NX red book) and (NX yellow pencils))) TSAM Queste sono le informazioni relative al TSAM: Antonio Moreno Sandoval, Susana Lo’pez Ruesga, Fernando Sa’nchez Leo’n Laboratorio de Lingu’istica Informa’tica Universidad Auto’noma de Madrid Version 4, 30 April 1999 Il TSAM unifica tutti i livelli di annotazione all’interno della rappresentazione sintattica in costituenti in forma parentesizzata. Ad esempio, nella frase “Giovanni vuole leggere un libro di Chekov”, “Juan quiere leer un libro de Chejov” (S (NP SUBJ ID-1 SG P3 (N “<Juan>“ “Juan” PROPER SG P3)) (VP TENSED PRES IND SG P3 (V “<quiere>“ “querer” TENSED PRES IND SG P3) (CL INFINITIVE OBJ1 (NP * SUBJ REF-1) (VP UNTENSED INFINITE (V “<leer>“ “leer” UNTENSED INFINITE) (NP OBJ1 (ART “<un>“ “uno” INDEF MASC SG) (N “<libro>“ “libro” MASC SG) (PP DE (PREP “<de>“ “de”) (NP D-160 Linea 1.1 - Treebank sintattico-semantica dell'italiano (N “<Chejov>“ “Chejov” PROPER)))))))) Nelle parole degli annotatori: “Combination of Parts Of Speech (POS) tags and features: the annotation format combines a typical POS label with feature values that specify the syntactic information for each (terminal and non terminal) element. Layers of annotation: we annotate syntactic categories (i.e., parts of-speech such as NOUNS, ADJECTIVES, ...), syntactic functions (e.g. SUBJ, OBJ1 (direct object), OBJ2 (indirect object)...), syntactic features (i.e. number, gender, tense, etc.) and some semantic features (HUMAN, TIME, etc.). The actual string is presented between ``<...>‘‘, and its lexeme is between ``... ‘‘.” L’inventario dei tag sintattici non è molto esteso: è composto da soli 10 tipi di costituenti sintatti a cui vanno aggiunti tutti i tratti. % Adjective Phrases --> ADJP % Adverb Phrases --> ADVP % Clauses --> CL % Noun Phrase --> NP % Prepositional Phrases --> PP % Quantifier Phrases --> QP % Score --> (SCORE) % Sentences --> S % Titles --> TITLE % Verb Phrases --> VP 4.2 Phrases and clauses % Adjective Phrases (ADJP {ATTR} {APPOS} {COMPARATIVE|COMPARATIVE-1|COMPARATIVE-2} {SUPERLATIVE} {INTERROGATIVE} {IDIOM} {DISCONTINUOUS|DISCONTINUOUS-1|DISCONTINUOUS-2} {MASC|FEM} {SG|PL} {COORDINATED}) % Adverb Phrases (ADVP {INTERROGATIVE|NORMAL|LOCATIVE|MODAL|NEG|TIME|REL} {DEG|COMPARATIVE} {IDIOM} {COORDINATED}) % Clauses (CL {COMPLETIVE|INFINITIVE|RELATIVE|PARTICIPLE|GERUND} {INTERROGATIVE|TIME|LOCATIVE|MODAL|EXPLICATIVE|CONCESIVE|NEG|CAUSE|F INAL} {COMPARATIVE|COMPARATIVE-1|COMPARATIVE-2} {CONDITIONAL|CONDITION|MAIN} {COORDINATED|COORDINATED-1|COORDINATED-2} {CORRELATIVE|CORRELATIVE1|CORRELATIVE-2} {DISCONTINUOUS|DISCONTINUOUS-1|DISCONTINUOUS-2} {DISTRIBUTIVE|DISTRIBUTIVE-1|DISTRIBUTIVE-2} {INDIRECT SPEECH|DIRECT SPEECH} {IMPERSONAL|PASSIVE} {ABS-PART} {MASC|FEM} {SG|PL} {SUBJ|OBJ1|OBJ2|OBL|ATTR|APPOS} D-161 Linea 1.1 - Treebank sintattico-semantica dell'italiano {REF}) (NP {SUBJ|OBJ1|OBJ2|OBL|ATTR|TIME|LOCATIVE|MEASURE|APPOS} {REF|ID} {COMPARATIVE|COMPARATIVE-1|COMPARATIVE-2} {CORRELATIVE|CORRELATIVE1|CORRELATIVE-2} {MASC|FEM|NEUT} {SG|PL} {P1|P2|P3} {IDIOM} {POLITE} {COORDINATED}) Feature implications: APPOS > REF % Null element marks * only in null subjects *?* for ellipsed material different from null subjects. % Predicative Complements (PRED-COMPL {REF} {MASC|FEM} {SG|PL} {COORDINATED}) % Prepositional Phrases (PP {“pval”} {LOCATIVDE|TIME|INTERROGATIVE} {OBJ1|OBJ2|OBL} {COMPARATIVE|COMPARATIVE-1|COMPARATIVE-2} {CORRELATIVE|CORRELATIVE1|CORRELATIVE-2} {IDIOM} {COMPOUND} {COORDINATED}) *pval= any single or multiword preposition. % Quantifier Phrases (QP {COORDINATED}) % Score (SCORE) % Sentences (S {IMPERSONAL} {COORDINATED|CONDITIONAL|CORRELATIVE|DISCONTINUOUS|DISTRIBUTIVE}) % Titles (TITLE {SUBJ|OBJ1|OBJ2} {SG|PL} {P3} {COORDINATED}) % Verb Phrases (VP {TENSED|UNTENSED} {PRES|IMPERFECT|FUT|PAST|COND} {INFINITE|GERUND|PART} {MASC|FEM} D-162 Linea 1.1 - Treebank sintattico-semantica dell'italiano {DISCONTINUOUS|DISCONTINUOUS-1|DISCONTINUOUS-2} {DISTRIBUTIVE|DISTRIBUTIVE-1|DISTRIBUTIVE-2} {IND|SUBJUNCTIVE|IMPERATIVE} {PERFECT|PROGRESSIVE|INCHOATIVE|MODAL|PASSIVE|FUTURE|COPULATIVE|IMPE RSONAL} {SG|PL} {P1|P2|P3} {POLITE} {COORDINATED}) Una importante caratteristica è determinata dalla presenza del nodo di VP che domina il nodo V, dove si trova il verbo flesso oppure una struttura di verbo complesso, come ad esempio in, “deve andare”. Il nodo di VP contiene anche tutti i complementi e gli aggiunti verbali; inoltre, eredita tutti i tratti funzionali dal verbo flesso. (VP TENSED PRES IND SG P3 (V “<tiene que ir>“ “ir” TENSED PRES IND MODAL SG P3 (AUX “<tiene que>“ “tener que” TENSED PRES IND SG P3) (V “<ir>“ “ir” UNTENSED INFINITE)) Un’altra importante caratteristica è la presenza di categorie vuote solo quando sono necessarie all’interpretazione, nello spirito di LFG, e cioè i soggetti inespressi lessicalmente di frasi a tempo finito e indefinito, - quindi molto diversamente dalla PT e anche diversamente da quanto espresso nelle parole degli annotatori: “5.2 Null elements We will follow basically the Penn Treebank schema for empty elements, but we will only annotate null subjects (*) and ellipsed material (*?*) such as VP, PP, CL, etc. in coordinations, and also required objects. We do not mark traces (*T* in the Penn Treebank)” Riportiamo prima un esempio relativo al soggetto vuoto di una frase a tempo finito, in cui è possibile vedere l’annotazione dei tratti funzionali del verbo: “Regresamos ayer”. (S (NP * SUBJ PL P1) (VP TENSED PRES IND PL P1 (V “<Regresamos>“ “regresar” TENSED PRES IND PL P1) (ADVP TIME (ADV “<ayer>“ “ayer”TIME)))) E ora un esempio con un verbo all’infinito in cui viene indicato l’indice di controllo del soggetto inespresso lessicalmente: “Juan quiere leer un libro de Chejov” (S (NP SUBJ ID-1 SG P3 (N “<Juan>“ “Juan” PROPER SG P3)) (VP TENSED PRES IND SG P3 (V “<quiere>“ “querer” TENSED PRES IND SG P3) (CL INFINITIVE OBJ1 (NP * SUBJ REF-1) (VP UNTENSED INFINITE (V “<leer>“ “leer” UNTENSED INFINITE) (NP OBJ1 (ART “<un>“ “uno” INDEF MASC SG) (N “<libro>“ “libro” MASC SG) D-163 Linea 1.1 - Treebank sintattico-semantica dell'italiano (PP DE (PREP “<de>“ “de”) (NP (N “<Chejov>“ “Chejov” PROPER)))))))) E’ interessante notare come viene riportato e annotato il materiale ellittico in una frase coordinata, che a differenza del SC viene costruita con un nodo di coordinazione più alto con l’elemento lessicale di coordinazione appeso e due strutture di frase come nodi fratelli. Il materiale ellittico viene indicato con la marca di costituenza più un punto interrogativo tra due asterischi e un indice di riferimento (V *?* REF-1): Wall Street retrocedio el 1,44% y Tokio un 2,30%”. (S COORDINATED (CL COORDINATED-1 (NP SUBJ SG P3 (N “<Wall Street>“ “Wall Street” PROPER)) (VP TENSED PAST IND SG P3 (V “<retrocedio>“ “retroceder” TENSED PAST IND SG P3 ID-1) (NP OJB1 (ART “<el>“ “el” DEF MASC SG) (N “<1,44%>“ “catorce coma cuarenta y cuatro por ciento” MASC SG PCENT)))) (C “<y>“ “y” COORDINATING) (CL COORDINATED-2 (NP SUBJ SG P3 (N “<Tokio>“ “Tokio” PROPER)) (VP TENSED PAST IND SG P3 (V *?* REF-1) (NP OBJ1 (ART “<un>“ “un” INDEF MASC SG) (N “<2,30%>“ “dos coma treinta por ciento” MASC SG PCENT))))) Un’altra questione interessante riguarda il trattamento delle enclitiche che richiedono particolare attenzione. A parte l’introduzione di una feature DISCONTINUOUS e dell’uso dell’indice di coreferenza che non condividiamo, noi seguiremo la proposta di Madrid, che quindi riportiamo qui in basso: 5.4 Complex constituents 5.4.1 Postclitics Clitics in Spanish can appear before (preclitics) or after (postclitics) the verb. Significatively, preclitics are always separate words (se lo dio), and postclitics are always joined to the verb (darselo). Annotating preclitics is not problematic, since they are pronouns, and therefore NPs. For postclitics we can split the input string into parts: “dar” “se” “lo”. But we want to show that both, verb and clitic(s), constitute a compound. We mark this using the following format: (VP UNTENSED INFINITE (V “<darselo>“ “dar” UNTENSED INFINITE #CLITIC DISCONTINUOUS ID-1 (NP (P “se” PERS P3 SG DISCONTINUOUS REF-1)) (NP OBJ1 (P “lo” PERS P3 ACC MASC SG DISCONTINUOUS REF-1)))) Non vediamo invece la necessità di spezzare gli amalgami come le preposizione articolate, che hanno un tag diverso nel nostro corpus e tutte le informazioni relative all’articolo nelle features. D-164
Documenti analoghi
F. Mambrini, L`Ancient Greek Dependency Treebank. Un nuovo
nozione stessa di ‘testo’, in questa prospettiva, appare problematica.
A ben guardare, se la linguistica dei corpora per le lingue contemporanee privilegia
l’aspetto sintagmatico, ovvero la sequenz...
Abstracts - Universitetet i Bergen
Il modo in cui i testi fammentari sono attualmente rappresentati all'interno delle collezioni digitali di testi
non solo risulta poco adeguato alla natura stessa dei fammenti, ma corre anche il ris...
Dialoghi Annotati per Interfacce vocali avanzate – Specifiche Tecniche
2 MODALITÀ DI ACQUISIZIONE DEI DIALOGHI ........................................................11
2.1 Modalità di acquisizione: dialoghi macchina/persona .............................................