ConParoleTue: crowdsourcing al servizio di un Dizionario delle
Transcript
ConParoleTue: crowdsourcing al servizio di un Dizionario delle
10.12871/CLICIT2014138 ConParoleTue: crowdsourcing al servizio di un Dizionario delle Collocazioni Italiane per Apprendenti (Dici-A) Andrea Gobbi Dipartimento di Scienze Politiche, Sociali e della Comunicazione, Università di Salerno [email protected] Stefania Spina Dipartimento di Scienze Umane e Sociali, Università per Stranieri di Perugia [email protected] Le collocazioni occupano da alcuni decenni un posto di primo piano negli studi sull’apprendimento di una lingua seconda (Meunier e Granger, 2008). Quella collocazionale è riconosciuta come una competenza chiave per un apprendente, perché svolge un ruolo fondamentale nei due aspetti della produzione (fornisce infatti blocchi lessicali precostituiti e pronti per essere utilizzati, migliorando la fluenza; Schmitt, 2004) e della comprensione (Lewis, 2000). Anche nell’ambito della lessicografia italiana la ricerca sulle collocazioni è stata particolarmente produttiva, ed ha portato, negli ultimi cinque anni, alla pubblicazione di almeno tre dizionari cartacei delle collocazioni italiane: Urzì (2009), nato in ambito traduttivo; Tiberii (2012) e Lo Cascio (2013). Il DICI-A (Dizionario delle Collocazioni Italiane per Apprendenti; Spina, 2010a; 2010b) è costituito dalle 11.400 collocazioni italiane estratte dal Perugia Corpus, un corpus di riferimento dell’italiano scritto e parlato contemporaneo1.Tra le tante proposte, la definizione alla base della costituzione del DICI-A è quella di Evert (2005), secondo cui una collocazione è “a word combination whose semantic and/or syntactic properties cannot be fully predicted from those of its components, and which therefore has to be listed in a lexicon”. Le collocazioni del DICI-A appartengono a 9 categorie diverse, selezionate sulla base delle sequenze più produttive di categorie grammaticali che le compongono: aggettivo-nome (tragico errore), nome-aggettivo (anno prossimo), nome-nome (peso forma), verbo(art.)-nome (fare una domanda/fare pena), nome-preposizione-nome (carta di credito), aggettivo-come-nome (fresco come una rosa), aggettivo-congiunzione-aggettivo (sano e salvo), nomecongiunzione-nome (carta e penna), verboaggettivo (costare caro). Per ogni collocazione sono stati calcolati gli indici di Juilland di dispersione e di uso (Bortoli- Abstract English. ConParoleTue è un esperimento di uso del crowdsourcing nell’ambito della lessicografia L2. A partire dalla costituzione di un dizionario di collocazioni per apprendenti di italiano L2, ConParoleTue rappresenta un tentativo di re-inquadramento di problematiche tipiche dell'elaborazione lessicografica (la qualità e il registro delle definizioni) verso una maggiore centralità delle necessità comunicative di chi apprende. A questo fine una metodologia basata sul crowdsourcing viene sfruttata per la redazione delle definizioni. Questo articolo descrive tale metodologia e presenta una prima valutazione dei suoi risultati: le definizioni ottenute attraverso il crowdsourcing sono quantitativamente rilevanti e qualitativamente adatte a parlanti non nativi dell’italiano. Italiano. ConParoleTue is an experiment of adoption of crowdsourcing techniques applied to L2 lexicography. It started while compiling a dictionary of collocations for learners of Italian as a second language, and it uses crowdsourcing to find new solutions, both quantitatively and qualitatively, to traditional issues connected with lexicography, such as the quality and the register of definitions, towards a more learner-centred approach. This paper describes our methodology and a first evaluation of results: the definitions acquired through crowdsourcing are quantitatively relevant and qualitatively appropriate to non-native speakers of Italian. 1 Introduzione ConParoleTue (2012) è un esperimento di applicazione del crowdsourcing all’ambito della lessicografia L2, elaborato all'interno del Progetto APRIL (Spina, 2010b) dell'Università per Stranieri di Perugia nel corso della costituzione di un dizionario di collocazioni per apprendenti di italiano L2. 1 197 http://perugiacorpus.unistrapg.it ni et al., 1971), sulla base dei quali sono state selezionate le collocazioni definitive. Si è presentato dunque il problema di come procedere alla loro definizione. In questo contesto è nata l'idea dell'impiego del crowdsourcing, e all'elaborazione di ConParoleTue. to per apprendenti di una L2 come un'opera collettiva, sebbene monitorato e revisionato nella sua forma finale, rappresenta una sfida interessante ed ambiziosa, oltre che un esperimento applicativo di metodologie che sempre più spesso si rivelano preziose nella ricerca linguistica. 2 2.1 La scelta del crowdsourcing Metodologia Per la realizzazione dell’esperimento, è stata innanzitutto predisposta una piattaforma web dedicata2. Dopo una breve schermata di presentazione, attraverso la piattaforma vengono raccolti pochi dati essenziali sui partecipanti (età, sesso, titolo di studio, madrelingua, eventuale livello QCER di italiano), al fine di acquisire alcune informazioni sociolinguistiche di base su ciascuno degli autori delle definizioni. Il sistema propone quindi, una dopo l'altra, cinque collocazioni da definire, estratte a caso dal database (fig. 1). L'adozione del crowdsourcing in linguistica è principalmente legata ad obiettivi di ottimizzazione delle risorse (Snow et al., 2008; Hsueh et al., 2009), in particolare nell'ambito della traduzione (Callison-Burch, 2009), della creazione di corpora (Wang et al., 2012; Post et al.,2012) e della loro annotazione (Munro et al., 2010); tra le metodologie e gli strumenti più utilizzati figurano Mechanical Turk di Amazon (Schnoebelen e Kuperman, 2010) e i serious games (Kneissl e Bry, 2012). Oltre all’aspetto dell’ottimizzazione delle risorse, tuttavia, la scelta del crowdsourcing per il DICI-A è stata dettata anche da un preciso approccio alla lingua,che presta particolare attenzione alla natura sociale e condivisa dello strumento linguistico, da cui derivano i suoi specifici processi acquisizionali (Gobbi, 2012; Gobbi, 2013; Gobbi e Spina, 2013). Il coinvolgimento di una platea molto ampia di collaboratori per acquisire le definizioni delle collocazioni da includere nel dizionario, e il modo stesso con il quale il progetto è stato presentato (ogni richiesta di definizione recitava: “Come lo spiegheresti ad un tuo amico straniero?”) era volutamente teso ad elicitare il maggior grado possibile di naturalezza e spontaneità nelle risposte. Da un punto di vista meta lessicografico, ciò ha comportato la decisione di non richiedere ai contributori di conformarsi ad uno stile predeterminato di definizione, allo scopo di perseguire le condizioni di informalità dell’interazione quotidiana. I vantaggi di un tale approccio collaborativo, sviluppato dal basso e mirato alla naturalezza delle definizioni, sono diversi, e di diversa natura: in primo luogo, quello di offrire agli apprendenti e futuri utenti del DICI-A uno strumento che fornisca risposte meno accademiche e più formalmente simili a quelle ottenibili nella vita quotidiana, e dunque adeguate ad un contesto interazionale. Un tale approccio, inoltre, si presta alla sensibilizzazione di parlanti nativi su questioni linguistiche, quali il dover riflettere su come definire un'espressione con altre parole, operazione di fatto non semplice (Schafroth, 2011). Infine, lo sviluppo di uno strumento di riferimen- Figura 1 - Esempio di collocazione da definire Infine, viene chiesto di valutare due definizioni precedentemente elaborate da altri partecipanti, allo scopo di effettuare un primo filtraggio di eventuali definizioni inappropriate (fig. 2). Il progetto è stato ampiamente diffuso tramite vari social media (una pagina Facebook e un profilo Twitter appositamente creati), una newsletter dedicata, e numerosi contatti istituzionali. Sebbene sia tuttora online, il periodo di maggior attività di ConParoleTue è stato quello compreso tra dicembre 2012 ed aprile 2013, data di conclusione del progetto APRIL. 2 198 http://elearning.unistrapg.it/conparoletue/ scenza generica e condivisa e non caratteristica della lingua target, fornendo loro il maggior numero di informazioni possibile sui suoi contesti sintagmatici (Schafroth, 2011). La presenza di queste caratteristiche può essere verificata attraverso alcune misure quantitative calcolate nel corpus di definizioni; nel confronto tra quelle ottenute attraverso l’esperimento di ConParoleTue (d’ora in avanti CPT) e quelle del dizionario De Mauro (DM) abbiamo dunque considerato in primo luogo aspetti superficiali dei due testi, come il numero di tokens per definizione e la lunghezza media delle parole, aspetti tradizionalmente associati alla maggiore o minore semplicità di un testo (Franchina e Vacca, 1986). I risultati, riassunti nella tab. 1, mostrano come le definizioni di CPT siano più brevi di quelle di DM,mediamente composte da parole più brevi e da un numero maggiore di frasi più brevi. Figura 2 - Esempio di valutazione delle definizioni 3 Risultati Le definizioni ottenute attraverso l’esperimento di crowdsourcing erano, a marzo 2014, 3.267 (al netto di una ventina redatte in lingue diverse dall’italiano, e di poche altre illeggibili). Per verificare le caratteristiche di tali definizioni, elaborate non da specialisti, ma da semplici parlanti dell’italiano, esse sono state confrontate con un numero identico di definizioni tratte da un dizionario monolingue, il De Mauro Paravia (2000); le 3.267 definizioni del De Mauro sono state estratte in modo casuale tra quelle riferite a una sola delle possibili diverse accezioni di lemmi di marca comune. Il confronto con le definizioni elaborate da lessicografi mira a verificare l’ipotesi di una maggiore naturalezza delle definizioni create da parlanti non specialisti e, di conseguenza, della loro appropriatezza per un dizionario delle collocazioni destinato a parlanti non nativi dell’italiano. Tra le caratteristiche principali di un learner dictionary, che ne fanno uno strumento anche concettualmente diverso rispetto ad un dizionario per parlanti nativi (Tarp, 2009), c’è infatti proprio la specificità delle sue definizioni: in quanto rivolte ad un pubblico di parlanti non nativi, esse dovrebbero: tokens CPT 38.697 DM 42.310 tokens per definizione 11,8 13,2 frasi tokens per lunghezza frase parole 3.506 11,2 5 3.318 13 5,7 Tabella 1 - Misure quantitative di CPT e DM I tratti superficiali considerati fin qui sono quelli che tradizionalmente concorrono al calcolo dell’indice di leggibilità (Amizzoni e Mastidoro, 1993), che ha appunto l’obiettivo di misurare il grado di facilità con cui un testo viene letto e compreso; uno degli indici di leggibilità più utilizzati per l’italiano, Gulpease (Lucisano e Piemontese, 1988), differisce in modo significativo in CPT (68,7) e DM (60,59). Se tutti questi elementi suggeriscono una maggiore comprensibilità delle definizioni ottenute attraverso il crowdsourcing, vanno comunque considerati i limiti degli indici, che, come quello di Gulpease, sono basati esclusivamente su caratteristiche superficiali dei testi, come la lunghezza in caratteri delle parole e quella delle frasi; tali caratteristiche hanno dimostrato di essere indicatori spesso non del tutto attendibili della leggibilità dei testi (vedi ad esempio Feng et al., 2009). Per valutare in modo più accurato il grado di comprensibilità dei due gruppi di definizioni, in particolare per parlanti non nativi dell’italiano, abbiamo considerato una serie di altri tratti, di tipo lessicale e morfosintattico (Heilman et al., 2007), sulla base di alcune delle indicazioni contenute in Dell’Orletta et al., (2011). • avere carattere più linguistico che enciclopedico, quindi “evocare un tipo di sapere pre-scientifico, intuitivo, [...] che abbia un valore prototipico, facilmente riconoscibile” (Schafroth, 2011:26); • essere formate da un lessico semplice, per quanto possibile di base, e da una sintassi poco complessa, adatta alle limitate competenze linguistiche dei destinatari. Un learner dictionary dovrebbe far comprendere ai lettori il significato di un’espressione facendo riferimento quanto più possibile a cono- 199 tratti riportati nella tab. 2 (i verbi, i nomi, e tre tipi di frasi subordinate: quelle implicite introdotte da preposizioni, quelle esplicite introdotte da congiunzioni, e le relative). Per ognuno dei tratti è stato calcolata la log-likelihood (Rayson e Garside, 2000), per misurare la significatività delle differenze. Come si evince dalla tab. 2, le definizioni di CPT sono composte da un numero sensibilmente maggiore di verbi (specie di modo finito e per il 90% inclusi nei 2000 lemmi più frequenti) e da un numero minore di nomi; CPT si serve inoltre in misura significativamente maggiore di subordinate, sia implicite che esplicite. Come mostra la coppia di esempi (1) e (2), le definizioni non specialistiche di CPT procedono per brevi subordinate che precisano con parole semplici l’enunciazione della principale, mentre quelle di DM, spesso prive di verbo,sono caratterizzate da un accumulo di sintagmi nominali e preposizionali, per lo più astratti. I tratti lessicali comprendono il rapporto tra types e tokens (TTR), che misura la varietà del lessico utilizzato, e la distribuzione dei tokens di CPT e DM nelle tre fasce di frequenza del vocabolario di base. La TTR3, considerato uno degli indicatori della leggibilità di un testo (Dell’Orletta et al.,2011), è risultata significativamente più elevata in DM (49,4) rispetto a CPT (36.3). Per misurare la distribuzione dei lemmi delle definizioni nelle tre fasce del vocabolario di base è stata utilizzata la lista di frequenza dei lemmi estratti dal Perugia Corpus; in particolare, la fascia dei 2000 lemmi più frequenti (rango 12000), che copre il 79% dei lemmi totali del corpus, la fascia dei successivi 2000 lemmi (rango 2001-4000), che aggiunge alla precedente una copertura del 5,9%, e la fascia dei successivi 3000 lemmi (rango 4001-7000), che aggiunge una copertura del 3,4% dei lemmi totali. Le tre fasce, dunque, comprendono i 7000 lemmi più frequenti del Perugia Corpus, che totalizzano una copertura dell’88,3% e che sono assunti come vocabolario di base4. La fig. 3 rappresenta la diversa distribuzione dei lemmi delle definizioni nelle tre fasce di frequenza; il grafico evidenzia come in CPT siano predominanti i lemmi della fascia più frequente, quindi quelli più verosimilmente già noti a parlanti non nativi di italiano, mentre in DM oltre il 20% dei lemmi è composto da parole non incluse tra le 7000 più frequenti, e in particolare da nomi astratti o poco comuni (intasamento, lamina, perno o merlatura). (1) Pietra dello scandalo (CPT): qualcuno che è al centro dell'attenzione perché ha fatto qualcosa di grave. (2) Scandalo (DM): turbamento della coscienza o sconvolgimento della sensibilità. Tratto Verbi Nomi pre. + sub. cong. sub. rela. ≠CHE CPT 6185 8525 849 1516 257 DM 5746 9803 388 699 183 L-L 79,10 11,61 219,63 385,92 19,99 p-value 0,000 0,001 0,000 0,000 0,000 Tabella 2 - Tratti morfosintattici in CPT e DM 4 Conclusioni L’esperimento descritto, che riguarda l’uso del crowdsourcing per l’acquisizione di definizioni di collocazioni italiane redatte da parlanti generici, si è rivelato efficace sia dal punto di vista quantitativo (oltre 3200 definizioni raccolte in cinque mesi) che da quello della loro appropriatezza ad un pubblico di apprendenti. Un confronto con definizioni redatte da un team di lessicografi ha evidenziato il carattere più intuitivo e naturale delle definizioni dei non specialisti, rispetto alla maggiore astrattezza e complessità delle definizioni dei professionisti. I risultati descritti inducono a proseguire la redazione del dizionario attraverso tale metodologia basata sul crowdsourcing. Fig. 3 - La distribuzione dei lemmi di DM e CPT nelle tre fasce del vocabolario di base Passando infine agli aspetti morfosintattici, nei due corpora di definizioni sono stati misurati i 3 La TTR è stata calcolata usando l’indice di Guiraud (Guiraud, 1954), per ovviare alla non omogeneità nel numero dei tokens dei due insiemi di dati. 4 Il Vocabolario di Base della lingua italiana (De Mauro 1980) è in corso di revisione. Per questo si è deciso di utilizzare al posto della sua vecchia versione la lista di frequenza dei lemmi del Perugia Corpus, anche se non rappresenta nativamente un vocabolario di base dell’italiano. 200 Paul Guiraud. 1954. Les Charactères Statistiques du Vocabulaire. Essai de méthodologie. Presses Universitaires de France, Paris. References Maurizio Amizzoni e Nicola Mastidoro. 1993. Linguistica applicata alla leggibilità: considerazioni teoriche e applicazioni. Bollettino della Società Filosofica Italiana, n. 149 (maggio - agosto 1993), pp. 49-63. Michael J. Heilman, Kevyn Collins and Jamie Callan. 2007. Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts. Proceedings of the Human Language Technology Conference, pp. 460–467 Umberta Bortolini, Carlo Tagliavini e Antonio Zampolli. 1971. Lessico di frequenza della lingua italiana contemporanea. Garzanti, Milano. Michael Lewis. 2000. Teaching collocation. Further developments in the lexical approach. Language Teaching Publications, Hove. Chris Callison-Burch. 2009. Fast, cheap, and creative: evaluating translation quality using Amazon’s Mechanical Turk. EMNLP ’09: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, 286–295. Vincenzo Lo Cascio. 2013. Dizionario Combinatorio Italiano. John Benjamins, Amsterdam. Pietro Lucisano e Maria Emanuela Piemontese. 1988. GULPEASE: una formula per la predizione della difficoltà dei testi in lingua italiana, Scuola e città, 3, 31, marzo 1988, pp. 110-124. ConParoleTue. 2012. Home Page del progetto: http://elearning.unistrapg.it/conparoletue. Tullio De Mauro. 1980. Guida all’uso delle parole. Editori Riuniti, Roma. Fanny Meunier e Sylviane Granger. 2008. Phraseology in foreign language learning and teaching. John Benjamins, Amsterdam. Tullio De Mauro. 2000. Dizionario della lingua italiana. Paravia, Torino. Stefen Evert. 2005. The Statistics of Word Cooccurrences: Word Pairs and Collocations. Dissertation, IMS, University of Stuttgart. Robert Munro, Steven Bethard, Victor Kuperman, Vicky Tzuyin Lai, Robin Melnick, Christopher Potts, Tyler Schnoebelen, and Harry Tily. 2010. Crowdsourcing and language studies: the new generation of linguistic data. Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk, 122-130. Lijun Feng, Noemie Elhadad and Matt Huenerfauth. 2009. Cognitively motivated features for readability assessment. Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics (EACL ’09), pp. 229– 237 Matt Post, Chris Callison-Burch, and Miles Osborne. 2012. Constructing parallel corpora for six Indian languages via crowdsourcing. Proceedings of the Seventh Workshop on Statistical Machine Translation. Association for computational linguistics, 401-409. Valerio Franchina e Roberto Vacca. 1986. Adaptation of Flesh readability index on a bilingual text written by the same author both in Italian and English languages. Linguaggi (3), pp. 47-49 Pei-Yun Hsueh, Prem Melville, and Vikas Sindhwani. 2009. Data quality from crowdsourcing: a study of annotation selection criteria. In Proceedings of the NAACL HLT 2009 Workshop on Active Learning for Natural Language Processing, pp. 27–35. Progetto April. 2010. Home Page del progetto: http://april.unistrapg.it/april/. Fabian Kneissl and François Bry. 2012. MetropolItalia: a crowdsourcing platform for linguistic field research. Proceedings of the IADIS international conference WWW/internet. Paul Rayson and Roger Garside. 2000. Comparing corpora using frequency profiling. Proceedings of the workshop on Comparing Corpora, held in conjunction with the 38th annual meeting of the Association for Computational Linguistics (ACL 2000). 1-8 October 2000, Hong Kong, pp. 1 - 6. Andrea Gobbi. 2012. Ipotesi Glottodidattica 2.0. Journal of e-Learning and Knowledge Society, 8(3): 47-56. Elmar Schafroth. 2011. Caratteristiche fondamentali di un learner’s dictionary italiano. Italiano Lingua Due, 1, pp. 23-52. Andrea Gobbi. 2013. Tweetaliano: a native 2.0 approach to language learning. ICT for Language Learning 2013, Conference Proceedings, 282-285. Norbert Schmitt (Ed.). 2004. Formulaic Sequences. John Benjamins, Amsterdam. Tyler Schnoebelen and Victor Kuperman. 2010.Using Amazon Mechanical Turk for linguistic research. Psihologija, Vol. 43 (4), 441–464. Andrea Gobbi e Stefania Spina. 2013. Smart Cities and Languages: The Language Network. Interaction Design and Architecture(s) Journal – IxD&A. 16: 37-46. Rion Snow, Brendan O’Connor, Daniel Jurafsky, and Andrew T. Ng. 2008. Cheap and fast—but is it good?: evaluating non-expert annotations for natu- 201 ral language tasks. EMNLP ’08: Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, 254–263. Stefania Spina. 2010a. The Dici Project: towards a Dictionary of Italian Collocations integrated with an online language learning platform, in Granger S., Paquot M., eLexicography in the 21st century: New Challenges, New Applications, Proceeding of eLex 2009 (Louvain-La-Neuve, 22-24 ottobre 2009), Presses Universitaires de Louvain, pp. 273282. Stefania Spina. 2010b. The Dictionary of Italian Collocations: Design and Integration in an Online Learning Environment, in Calzolari N., Choukri K., Maegaard B., Mariani J., Odjik J., Piperidis S., Rosner M.and Tapias D., 2010, Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC'10), Malta, May 2010, European Language Resources Association, pp. 3202-3208 . Sven Tarp. 2009. The foundations of a theory of learners’ dictionaries. In Lexicographica, 25, pp. 155-168. Paola Tiberii. 2012. Dizionario delle collocazioni. Zanichelli, Bologna. Francesco Urzì. 2009. Dizionario delle Combinazioni Lessicali. Convivium, Lussemburgo. William Yang Wang, Dan Bohus, Ece Kamar and Eric Horvitz. 2012. Crowdsourcing the acquisition of natural language corpora: Methods and observations. Proceedings of the IEEE SLT 2012, 73-78. 202