View MONEGLIA- italianisti-scand
Transcript
View MONEGLIA- italianisti-scand
Massimo Moneglia Università di Firenze C-ORAL-ROM (Integrated reference Corpora for Spoken romance languages). Uno strumento per lo studio delle lingue romanze parlate C-ORAL-ROM è un progetto triennale del V° Programma Quadro dell’Unione Europea nel programma Information Society Technology che è stato coordinato dal Laboratorio Linguistico del Dipartimento di italianistica dell’Università di Firenze (LABLITA), e che si è concluso nel marzo 2004. C-ORAL-ROM ha realizzato un corpus di riferimento per il parlato romanzo che fornisce alla comunità linguistica e in special modo a chi si occupa di lingua italiana e di lingue romanze, una collezione multilingue di corpora comparabili di parlato spontaneo che può essere utilizzata sia a fine di ricerca sia per l’insegnamento delle lingue. La risorsa non documenta tutte le lingue romanze, ma è limitata a quelle tradizionalmente considerate “principali”, Italiano, Francese, Portoghese e Spagnolo. Essa è composta da quattro diverse collezioni di campioni di produzioni spontanee, registrate in situazioni “naturali”, dell’ampiezza di circa 300.000 parole ciascuna per complessive 120 ore di parlato spontaneo in diverse situazioni. I corpora sono in buona parte tratti da archivi nazionali preesistenti, tra i più rilevanti tra quelli disponibili per delle lingue interessate, che vengono così, anche se parzialmente, messi a disposizione della comunità scientifica, in modo omogeneo e in formati standard facilmente comprensibili e consultabili.1 Il consorzio che ha realizzato il progetto è il seguente: a) hanno fornito i quattro corpora nazionali e gli studi linguistici rispettivamente - Università di Firenze (UFIR.LABLITA); - Université de Provence (UPRO.DELIC); - Fundação da Universidae de Lisboa (FUL.CLUL); - Universidad Autónoma de Madrid (UAM.LLI) b) Pitch Instruments France ha realizzato il software per l’analisi acustica e il formato multimediale; c) L’università di Provenza (Jean Veronis) ha fornito un motore di ricerca testuale d) Istituto Trentino di Cultura (ITC-Irst) ha validato i risultati sviluppando tecnologie multilingui; e) European Language Association Agency (ELDA) e Instituto Cervantes (IC) si occupano rispettivamente della distribuzione e della disseminazione della risorsa.2 Il corpus è distribuito in formato multimediale su DVD, una forma nella quale l’informazione testuale e il materiale sonoro sono sincronizzati e integrati da tools di analisi per permettere il pieno apprezzamento dell’informazione sia testuale che acustica. C-ORAL-ROM sarà a disposizione della comunità scientifica a partire dalla fine del 2004 in due forme: a) In libreria attraverso una edizione multimediale su un DVD, accompagnata da un volume illustrativo. In questa forma, destinata all’uso personale e alle biblioteche, il corpus sarà criptato e compresso, e potrà essere consultato solo con gli strumenti di analisi acustica e testuale già citati, forniti all’interno del DVD.3 b) Attraverso licenze di utilizzo a fini di ricerca o di ricerca e sviluppo tecnologico, in un pacchetto di 9 DVD. In questa forma il corpus è distribuito con compresso e non criptato, ovvero computabile e accessibile con qualsiasi strumento e può essere copiatro per usi interni, quali l’utilizzo simultaneo su più macchine nei laboratori di lingua o per scopi di sviluppo.4 In questo intervento saranno illustrati brevemente i criteri utilizzati per la rappresentazione di un universo complesso come il parlato a livello multilingue e si darà conto al lettore di cosa si può trovare nel corpus e i limiti di rappresentatività. Forniremo poi un esempio di come l’informazione orale viene resa disponibile in C-ORAL-ROM in modo tale che il lettore possa configurare l’utilizzo della risorsa. La rappresentazione dell’universo “lingua parlata” Il corpus C-ORAL-ROM si è proposto di rappresentare la lingua parlata di tutti i giorni con la sua variabilità e le sue forme specifiche, necessariamente distanti dalle forme assunte della lingua nella codificazione scritta. Questo è l’aspetto fondamentale della base di dati, dalla quale si possono ottenere informazioni sull’uso linguistico italiano e delle altre lingue romanze altrimenti non osservabili. Per documentare il parlato C-ORAL-ROM fornisce campioni di produzioni spontanee, registrate in situazioni “naturali” e corrisponde a criteri di campionamento statisticamnete significativi. Il parlato spontaneo è caratterizzato da: 5 • • • • • • • • dialoghi faccia a faccia (interattività) multimodalità della trasmissione dell’informazione riferimento ad uno spazio deittico comportamento linguistico libero, non determinato dal contesto (non predicibile) programmazione mentale simultanea alla esecuzione vocale (un-scripted) grande varietà di strutture dell’evento comunicativo diversa qualità acustica grande variabilità strutturale La variabilità sia strutturale che lessicale è forse la proprietà principale dei testi orali, sicuramente superiore rispetto alla pur grande varietà di forme che assumono i testi scritti.6 Se si vuole creare una base dati significativa del parlato spontaneo naturale non si può rappresentare il parlato semplicemente documentando pochi contesti. Ma quanti e quali sono i contesti significativi non è un dato ovvio allo stato delle conoscenze. Vale la pena riflettere sulle difficoltà che la rappresentazione dell’universo “parlato spontaneo” presenta. Per esempio l’ evento orale costituito da una conversazione durante un pranzo avrà proprietà, di struttura dialogica, di complessità strutturale e di lessico, diverse da un evento orale costituito da una fiaba raccontata ad un bambino. Oppure, spiegare a qualcuno come si fa un disegno costituisce un evento radicalmente diverso per lessico, modalità e struttura da un intervento al parlamento. I criteri di campionamento per la costituzione della base dati sono dunque uno degli aspetti essenziali per la documentazione di un universo, in special modo se questo è un universo linguistico, per sua definizione aperto e in continuo mutamento. Per rappresentare il parlato spontaneo in modo rilevante è dunque certamente necessario documentare una gamma ampia di variazioni di contesto in cui questo è usato. Ed è quindi necessario disporre di dati rappresentativi delle possibilità linguistiche che si realizzano in situazioni naturali avendone una misura quantitativamente significativa. I principali parametri di variazione del parlato, sono stati studiati principalmente dalla sociolinguistica contemporanea, (Cfr. Biber, 1988, Berruto, 1986, De Mauro et alii, 1992; Gadet, 1996, Labov, 1966, Moneglia, 2000) e possono essere riassunti nella serie seguente • • • • • • • • • Tipo di canale utilizzato Struttura dell’evento comunicativo Contesto sociale d’uso Genere Dominio semantico (o argomento del testo) Tipo di programmazione Uso formale o informale Variazione diastratica dei parlanti Variazione diatopica dei parlanti Dati i parametri di variazione precedenti il corpus design di C-ORAL-ROM segue da due scelte fondamentali: a) Campionamento per situazioni d’uso e non per tipologia dei parlanti b) Criteri di campionamento diversi per la documentazione del parlato in contesti formali e informali. c) definizione di una lunghezza dei campioni in termini di unità informative minime. In linea di principio definire un campione statisticamente significativo delle tipologie di parlanti presenti un una comunità linguistica è il metodo più diretto per ottenere, di conseguenza, esempi dei diversi tipi di parlato da essi praticato. Se si identifica un campione significativo di popolazione e si registrano i soggetti in tutta una loro giornata casuale, si ottiene infatti uno spaccato significativo delle tipologie dell’uso del parlato nella società. Tale criterio porta a identificare nella variazione diastratica e diatopica dei parlanti i livelli fondamentali per l’individuazione delle tipologie di comportamento orale presenti nella società, che essendo strutturata socialmente, si istanzia, nella giornata dei vari soggetti sociali e le loro relazioni tipiche. Parallelamente l’adozione di tale criterio porta ad ignorare gli altri parametri di variazione, che vengono ad essere rappresentati nel corpus per conseguenza. I parlanti sono i vettori che attraversando nel giorno la loro porzione di società manifestano il loro parlato in situazioni significativamente diverse. Per cui, dato un criterio casuale di campionamento delle giornate, se il campione di parlanti rappresenta bene la società, ogni tipologia del parlato che occorre nell’universo avrà il suo giusto peso rappresentativo rispetto all’insieme. In tale paradigma lo studio delle situazioni significative d’uso del parlato e dei generi avviene quindi a posteriori rispetto al campionamento, quando le registrazioni sono trasformate da continue a discrete, e sono trascritte e rappresentate in forma testuale Un corpus design per parlanti è stato fino ad ora proposto solo per il corpus dell’ebreo contemporaneo. Ma non è stata ancora realizzato. (Izre'el et al. 2001) Le difficoltà di operare effettivamente la selezione del campione e di realizzare campionamenti di parlato lunghi una intera giornata di ogni soggetto, cozza con notevoli problemi tecnici, paratici e legali. Sono molte infatti le situazioni in cui, nonostante la buona volontà, non è facile ottenere il consenso alla registrazione da parte di chi viene ad interagire con il soggetto, o comunque non è tecnicamente possibile operare una registrazione senza compromettere la spontaneità dell’interazione. Un tale criterio è sicuramente più semplice da realizzare per lo studio del parlato trasmesso, che, campionando una informazione acustica già registrata, non presenta tale difficoltà. Il Lessico dell’Italiano Radiofonico realizzato recentemente dall’Accademia della Crusca è un esempio significativo dell’applicazione di tale criterio all’Italiano. C-ORAL-ROM sia per i motivi pratici sopra esposti, sia per l’opportunità di riutilizzare archivi di parlato già presenti, ha scelto la strada opposta, ovvero di non operare una selezione per parlanti, ma di definire un ambito di variazioni di situazione giudicato significativo, tale da rappresentare in modo uniforme le principali possibilità di variazione del parlato e poter quindi realizzare quattro basi di dati comparabili per le lingue romanze.7 Questa strada prevede quindi la definizione di una serie di variazioni di contesto di raccolta prevedibili e quantitativamente determinate ed è la più sperimentata. E’ la stessa realizzata per l’italiano nel LIP (De Mauro et alii 1992) e recente applicata alla raccolta di altri corpora orali di grandi dimensioni come il Dutch Corpus, ma non è esente da difetti rilevanti propriamente a livello statistico. Infatti da un lato molte variazioni possibili non sono conosciute a priori, dall’altro il peso statistico delle varie situazioni non è prevedibile. In particolare se si definisce rigidamente una serie di situazioni possibili come istanze a priori rappresentative si ha come conseguenza di ridurre a 0 la possibilità di occorrenza di tutte le altre. Per esempio se si definisce il corpus composto da un certo numero rispettivamente di interviste, di conversazioni a pranzo e di conferenze, si definisce una variazione dell’orale estesa e comparabile, ma si escludono a priori, per esempio, le discussioni di lavoro, o la vendita di prodotti, o le interrogazioni scolastiche o quant’altro. Per cui le proprietà di queste ultime situazioni non saranno rappresentate. Perché le prime dovrebbero essere più tipiche delle seconde? Nella impossibilità di realizzare un campione statisticamente valido, non resterebbe dunque che limitarsi a proporre situazioni campione, a priori identificate come istanze tipiche del parlato naturale, lasciando a tale scelta il compito di rappresentare analogicamente l’intero universo. Nonostante il fatto che la difficoltà sopra riportata non possa essere superata completamente si possono però adottare misure significative per ottenere ugualmente un corpus rappresentativo, e questo, almeno in via di principio, è il caso di C-ORAL-ROM che ha scelto strategie di corpus design che riducono significativamente la sotto-determinazione dei corpora orali rispetto all’universo. Riflettendo sulla possibilità di identificare situazioni tipiche d’uso del parlato è emerso che la partizione tra situazioni in cui il parlato si realizza in modo formale e situazioni in cui al contrario l’uso linguistico è informale evidenzia una significativa differenza: l’insieme di contesti nei quali, in un certo dominio storico sociale, l’uso linguistico formale è privilegiato, è un insieme in linea di principio chiuso e definito, mentre al contrario è aperto e indefinito solo l’insieme delle situazioni nelle quali è possibile l’uso informale. Infatti la scelta dell’uso formale è marcata rispetto all’uso informale e segue da convenzioni storico-sociali. La scelta non marcata non dipende invece da convenzioni positive. Per esempio se è giusto dire che nella sfera della trasmissione e formazione delle conoscenze o nel dominio politico o religioso o nei media l’uso formale è privilegiato, non ha senso cercare di identificare quali siano i domini nei quali l’informale è privilegiato: la casa, il quartiere, la strada, il lavoro, lo scambio occasionale sono contesti nei quali centinaia di situazioni diverse hanno luogo. In altri termini, l’identificazione di situazioni tipiche per la rappresentazione del parlato è una scelta significativa per la rappresentazione della sua varietà formale, ed è invece specificamente sottodeterminata la varietà dell’uso informale. A partire da tali rilievi la strategia di corpus design di C-ORAL-ROM identifica due distinte serie di scelte per la rappresentazione del parlato formale e informale che vengono ad essere rappresentati in due porzioni separate del corpus. La variazione dell’informale è documentata seguendo variazioni parametrizzate, con occorrenza casuale, mentre al contrario la variazione del formale è definita da una serie chiusa di contesti tipici dell’uso delle varietà formali. Le variazioni di struttura dell’evento comunicativo e la variazione di contesto sociale d’uso sono i parametri utilizzati per assicurare la variazione nell’informale C-ORAL-ROM. Nelle pagine che seguono il lettore potrà trovare la matrice nella quale tutte le scelte principali sono dettagliate. Una seconda scelta di corpus design di C-ORAL-ROM, dopo la definizione dei criteri di rappresentazione della variazione linguistica, pertiene la quantità dei campioni e la loro dimensione. Se i quattro corpora romanzi debbono essere comparabili rispetto ai parametri di variazione, allora debbono rappresentare tali parametri in modo comparabile sia per quanto riguarda il numero dei campioni sia per quanto riguarda la dimensione dei campioni stessi. I campioni hanno una restrizione intrinseca. Perché un campione sia valido, deve essere lungo abbastanza da poter in linea di principio permettere l’occorrenza di proprietà linguistiche specifiche del contesto. In altri termini il campione di orale non può essere un sample casuale, ma deve contenere caratteri di testualità e di compiutezza sufficienti a poterlo considerare un evento comunicativo del tipo in questione. Per es. non è possibile estrarre due minuti di una conferenza e considerare tale campione un sample delle conferenze. E’ necessario che ci sia sufficiente testo della conferenza da esemplificare lo sviluppo tematico dell’argomento. All’opposto non è necessario avere un campione di dimensioni uguali alla conferenza se si vuole documentare lo scambio dialogico tra un cliente e un venditore di giornali. La prima conseguenza della precedente restrizione connessa alla testualità del campione è la scelta dell’unità di misura per la determinazione delle dimensioni di un testo: dato che la dimensione da rappresentare riguarda unità di informazione, l’unità di riferimento deve essere necessariamente identificata in una unità informativa e non un semplice parametro temporale. Si è scelto quindi di misurare la dimensione dei campioni in parole e non in unità temporali (minuti). Parallelamente nel caso di sessioni di registrazione continue, la selezione dell’inizio e della fine del campione, ovvero l’unità discreta, non può essere casuale per ovvi motivi di coerenza e significatività. Si è dunque scelto di determinare i testo a partire dal primo punto che assicurasse coerenza testuale data la dimensione del campione stesso Per quanto riguarda la lunghezza dei campioni sono poi state determinate due lunghezze tipo, rispettivamente 1.500 (circa 10 minuti) parole per i testi informali e 3000 parole (circa 20 minuti) per i testi informali, per assicurare la rappresentatività nei due macro contesti. La seguente è la matrice del corpus design di C-ORAL-ROM con l’indicazione del numero di parole previsto per ogni campo del corpus design: Language register Social context Structure of the communication event Informal 150,000 words Family/private 124,500 words Dialogue and Multi-dialogue 102,000 words Public 25,500 words Monologue 48,000 words Channel Typical domain of use Formal Natural context 65,000 words Political speech Political debate Preaching Teaching Professional explanation Conference Business Law Formal Media 60,000 words Talk shows Scientific press Reportage Interviews Sport News Weather forecast Informal Telephone 25,000 words Private conversations 15,000 words Human-machine interactions 10,000 words Il trattamento dell’informazione linguistica nel corpus C-ORAL-ROM La base di dati ricavata dal corpus di sessioni registrate è costituita dalla seguente serie di file, che comprendono la sorgente acustica e una serie di annotazioni: - - trascrizione ortografica in formato CHAT (Mac Whinney, 1994), arricchito dall’annotazione dei breaks prosodici terminali e non terminali, in file .TXT metadati di ogni sessione in formato CHAT e formato IMDI sincronizzazione di ogni enunciato trascritto alla sorgente acustica in file .xml Corpus testuale in file .xml corpus testuale annotato con parti del discorso (PoS tagging) in file .txt una serie di misurazioni linguistiche estratte dall’annotazione del corpus in file .excel L’insieme delle annotazioni consentono un pieno apprezzamento dell’informazione linguistica presente nel corpus con particolare riguardo all’informazione acustica e prosodica. A tal fine il corpus è distribuito in associazione al software di analisi acustica Win-Pitch-Corpus e con il motore di ricerca testuale Contextes e richiede, per essere consultato, una attrezzatura informatica elementare, accessibile anche ad utenti singoli.8 In particolare deve essere sottolineato che l’annotazione principale di CORAL-ROM deriva dall’interazione tra tre componenti, che rendere possibile l’osservazione e la riflessione linguistica sull’intera serie di dati contenuti nell’orale: a) La sincronizzazione tra l’informazione testuale e l’informazione acustica b) Un criterio di scansione del testo in unità discrete coerenti con le unità proprie del parlato (enunciati) c) La possibilità di elaborare simultaneamente sia l’informazione testuale e acustica che l’analisi acustica Ogni enunciato, definito come l’unità di riferimento del parlato (Cresti 2000), coincidente con un atto linguistico, ed in C-ORAL-ROM è annotato sia nelle trascrizioni sia nel segnale acustico. La selezione delle unità pertinenti è determinata in modo univoco dai trascrittori attraverso l’identificazione percettiva dei confini prosodici terminali (annotati con il simbolo “//”) e non terminali (annotati con il simbolo “/”).9 Per cui, a partire da tale informazione, è stato possibile sincronizzare, attraverso un software (Win Pitch Corpus), le unità testuali significative alla loro realizzazione acustica (Cresti et al. 2004). L’esempio seguente, tratto da un dialogo tra una estetista (*EST) e la sua cliente (*CLA) mostra bene come l’informazione linguistica è strutturata in CORAL-ROM. La partizione in enunciati del parlato e la sua sincronizzazione al segnale e all’analisi acustica permettono di apprezzare il modo specifico con cui nel parlato si costruisce il testo. I tipici enunciati brevi e senza verbo, sono isolati e possono essere riascoltati, così come le interiezioni, i marcatori discorsivi, le strutture articolate prosodicamente, rendendo possibile una riflessione specifica sulle caratteristiche naturali del parlato e sulle sue peculiari proprietà in ognuna delle lingue romanze considerate: *EST: o vieni / dai // %ill: invito ad avvicinarsi per iniziare la depilazione10 *CLA: a patire // %ill: asserzione ironica *EST: no // ascolta / qui sopra ? sì // %ill: rassicurazione (1) domanda introdotta da un conativo su dove incominciare la depilazione (2) auto risposta (3) *CLA: qui ? sì // %ill: domanda (1) risposta (2) Come mostra la trascrizione e la figura corrispondente, ogni enunciato è stato identificato nella trascrizione e allineato alla controparte acustica (immediatamente al disotto dell’onda nel riquadro nero della figura). Di ogni enunciato è visibile l’analisi e simultaneamente il suono dell’enunciato o di parte di esso è immediatamente disponibile alla percezione. Il trattamento appena brevemente descritto, in C-ORAL-ROM è esteso a circa 120 ore di parlato e riguarda sia i corpora delle quattro lingue romanze considerate. Da questo punto di vista la risorsa ha una strutturazione multimediale dell’informazione che la rende uno strumento funzionale sia alla ricerca linguistica che all’insegnamento delle lingue. Bibliografia Bacelar do Nascimento, F., a cura di (2001) Portugues falado: varietades geograficas e sociais, CLUL & Instituto Camoens, Lisboa. Berruto, G. 1987. Sociolinguistica dell'Italiano Contemporaneo. Roma: La Nuova Italia Scientifica. Biber, D. 1988. Variation across speech and writing, Cambridge: Cambridge University Press. Biber, D., Johansson, S., Leech, G., Finegan, E. (eds.) 1998. Corpus linguistics: investigating language structure and use. Cambridge: Cambridge University Press. Blanche-Benveniste C. & Rouget, C. & Sabio, F., a cura di (2002) Choix de textes de Français parlé, Champion, Paris. CHAT http://childes.psy.cmu.edu/manuals/CHAT.pdf CONTEXTES http://www.up.univ-mrs.fr/veronis/logiciels/Contextes Cresti, E. 2000. Corpus di italiano parlato, vol. I- II, CD-Rom, Firenze: Accademia della Crusca. Cresti, E. Moneglia, M., Bacelar, F., Sandoval, A.M., Veronis, J., Martin, PH., Choucri, K., Mapelli ,V.; Falavigna, D.; Cid, A. 2002. "The C-ORALROM Project. New methods for spoken language archives in a multilingual romance corpus". In Proceedings of LREC 2002, M. C. Rodriguez and Suarez Araujo, C. (eds), vol. 1, 2-10. Paris: ELRA. Cresti, E., Bacelar do Nascimento, F., Sandoval, A. M., Veronis, J., Martin, Ph., Choukr, K.i The C-ORAL-ROM CORPUS. A Multilingual Resource of Spontaneous Speech for Romance Languages., M.T. Lino, M.F. Xavier, F. Ferreira, R. Costa, R. Silva, Proceedings of the LREC conference, pp. 575578, Paris, ELRA. Cresti, E., Moneglia, M. (eds.) in stampa. C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages, Vol. e DVD, Amsterdam: Benjamins. Danieli, M., Garrido, J. M., Moneglia, M., Panizza, A., Quazza, S., Swerts, M. 2004. Evaluation of Consensus on the Annotation of Prosodic Breaks in the Romance Corpus of Spontaneous Speech “C-ORAL-ROM” in M.T Lino, M.F. Xavier, F. Ferraira, R. Costa, R. Silva (eds) Prococeeding of the 4th LREC Conference , vol 4, pp. 1513-1516, Paris: ELRA, De Mauro, T., Mancini, F., Vedovelli, M., Voghera, M. (1993) Lessico di frequenza dell'italiano parlato, Milano, Etass Libri. Gadet, F. 1996. Variabilité, variation, varieté: le Français d’Europe. French Language Studies, 6: 45-58. IMDI, http://www.mpi.nl/IMDI/ Izre'el S., Hary, B. and Rahav, G. 2001. "Designing CoSIH: The Corpus of Spoken Israeli Hebrew". International Journal of Corpus Linguistics 6: 171197. Labov, W. 1966. The social stratification of English in New York City. Washington D.C. LIR, (AA.VV.) 1997. Il progetto LIR, Bollettino di informazioni. Centro di ricerche informatiche per i Beni Culturali, 7. MacWhinney, B. 1994. The CHILDES project: tools for analyzing talk. Hillsdale: Lawrence Erlbaum Associates. Marcos Marín, F. 1992. "El Corpus Oral de Referencia de la Lengua Española Contemporánea''. Informe del proyecto. Madrid. Published in ftp://ftp.lllf.uam.es/pub/corpus/oral. Moneglia M.(2000) Le corpus LABLITA, in M. Bilger (ed.) Corpus. Méthodologie et aplications linguistique Champion, Paris.pp. 49-57. The Spoken Dutch Corpus, http//lands/let.kun.nl/cgn/edesign.htm WINPITCH, http://www.winpitch.com 1 C-ORAL-ROM è stato preceduto da pubblicazioni di campionamenti dei corpora in oggetto in formati diversi: Bacelar 2001; Blanche-Benveniste et al., 2002; Cresti 2000; Marcos-Marin 1992. 2 C-ORAL-ROM si è avvalso inoltre di un importante “Comitato di controllo” accademico e industriale: Claire Blanche Benveniste École Pratique des Hautes Études; Bernard Cerquellini (INaLF); Dominique Willems (Collate Research Network, University of Gent); Marc Swerts (IPO, Eindhoven); Morena Danieli (LOQUENDO); Juan Maria Garrido (Telefonica I+D); Nuno Beires (PT-Inovação) hanno consigliato il consorzio verificando le scelte rispetto alle esigenze scientifiche e tecnologiche cui il corpus è destinato 3 Nella serie Corpus Linguistics Studies presso Benjamins, Amsterdam (Cresti & Moneglia, in stampa) 4 http://www.elda.fr/rubrique6.html 5 Cfr. Biber 1988; Berruto 1987; Gadet 1996; Miller & Weinert 1999 6 Si veda Cresti et al. 2002. per una discussione. 7 Data la natura multilingue della risorsa la variazione diatopica non è rappresentata in C-ORALROM . I corpora danno una rappresentazione delle varietà presenti nei centri da cui originano (Firenze, Aix-Marsiglia, Lisbona, Madrid) senza nessuna restrizione quantitativa. 8 La configurazione minima è infatti costituita da processore Pentium III a 1 GHz, 252 MB ram, scheda audio S-blaster , e sistema operativo Windows 2000 o XP. 9 Il criterio di partizione degli enunciati è stato validato da istituzioni indipendenti (Cfr. Danieli et al. 2004) 10 Per aiutare il lettore a ricostruire l’enuciato senza l’informazione acustica è stata aggoiunta una riga dipendente introdotta da “ %ill” che specifica gli atti illocutori compiuti da ciascun enunciato