View MONEGLIA- italianisti-scand

Transcript

View MONEGLIA- italianisti-scand
Massimo Moneglia
Università di Firenze
C-ORAL-ROM (Integrated reference Corpora for Spoken romance
languages). Uno strumento per lo studio delle lingue romanze parlate
C-ORAL-ROM è un progetto triennale del V° Programma Quadro
dell’Unione Europea nel programma Information Society Technology che è stato
coordinato dal Laboratorio Linguistico del Dipartimento di italianistica
dell’Università di Firenze (LABLITA), e che si è concluso nel marzo 2004.
C-ORAL-ROM ha realizzato un corpus di riferimento per il parlato
romanzo che fornisce alla comunità linguistica e in special modo a chi si occupa
di lingua italiana e di lingue romanze, una collezione multilingue di corpora
comparabili di parlato spontaneo che può essere utilizzata sia a fine di ricerca sia
per l’insegnamento delle lingue.
La risorsa non documenta tutte le lingue romanze, ma è limitata a quelle
tradizionalmente considerate “principali”, Italiano, Francese, Portoghese e
Spagnolo. Essa è composta da quattro diverse collezioni di campioni di
produzioni spontanee, registrate in situazioni “naturali”, dell’ampiezza di circa
300.000 parole ciascuna per complessive 120 ore di parlato spontaneo in diverse
situazioni.
I corpora sono in buona parte tratti da archivi nazionali preesistenti, tra i
più rilevanti tra quelli disponibili per delle lingue interessate, che vengono così,
anche se parzialmente, messi a disposizione della comunità scientifica, in modo
omogeneo e in formati standard facilmente comprensibili e consultabili.1
Il consorzio che ha realizzato il progetto è il seguente:
a) hanno fornito i quattro corpora nazionali e gli studi linguistici rispettivamente
-
Università di Firenze (UFIR.LABLITA);
-
Université de Provence (UPRO.DELIC);
-
Fundação da Universidae de Lisboa (FUL.CLUL);
-
Universidad Autónoma de Madrid (UAM.LLI)
b) Pitch Instruments France ha realizzato il software per l’analisi acustica e il
formato multimediale;
c) L’università di Provenza (Jean Veronis) ha fornito un motore di ricerca testuale
d) Istituto Trentino di Cultura (ITC-Irst) ha validato i risultati sviluppando
tecnologie multilingui;
e) European Language Association Agency (ELDA) e Instituto Cervantes (IC) si
occupano rispettivamente della distribuzione e della disseminazione della risorsa.2
Il corpus è distribuito in formato multimediale su DVD, una forma nella quale
l’informazione testuale e il materiale sonoro sono sincronizzati e integrati da tools
di analisi per permettere il pieno apprezzamento dell’informazione sia testuale che
acustica.
C-ORAL-ROM sarà a disposizione della comunità scientifica a partire dalla
fine del 2004 in due forme:
a) In libreria attraverso una edizione multimediale su un DVD, accompagnata
da un volume illustrativo. In questa forma, destinata all’uso personale e
alle biblioteche, il corpus sarà criptato e compresso, e potrà essere
consultato solo con gli strumenti di analisi acustica e testuale già citati,
forniti all’interno del DVD.3
b) Attraverso licenze di utilizzo a fini di ricerca o di ricerca e sviluppo
tecnologico, in un pacchetto di 9 DVD. In questa forma il corpus è
distribuito con compresso e non criptato, ovvero computabile e accessibile
con qualsiasi strumento e può essere copiatro per usi interni, quali
l’utilizzo simultaneo su più macchine nei laboratori di lingua o per scopi di
sviluppo.4
In questo intervento saranno illustrati brevemente i criteri utilizzati per la
rappresentazione di un universo complesso come il parlato a livello multilingue e
si darà conto al lettore di cosa si può trovare nel corpus e i limiti di
rappresentatività. Forniremo poi un esempio di come l’informazione orale viene
resa disponibile in C-ORAL-ROM in modo tale che il lettore possa configurare
l’utilizzo della risorsa.
La rappresentazione dell’universo “lingua parlata”
Il corpus C-ORAL-ROM si è proposto di rappresentare la lingua parlata di tutti i
giorni con la sua variabilità e le sue forme specifiche, necessariamente distanti
dalle forme assunte della lingua nella codificazione scritta. Questo è l’aspetto
fondamentale della base di dati, dalla quale si possono ottenere informazioni
sull’uso linguistico italiano e delle altre lingue romanze altrimenti non osservabili.
Per documentare il parlato C-ORAL-ROM fornisce campioni di
produzioni spontanee, registrate in situazioni “naturali” e corrisponde a criteri di
campionamento statisticamnete significativi. Il parlato spontaneo è caratterizzato
da: 5
•
•
•
•
•
•
•
•
dialoghi faccia a faccia (interattività)
multimodalità della trasmissione dell’informazione
riferimento ad uno spazio deittico
comportamento linguistico libero, non determinato dal contesto (non
predicibile)
programmazione mentale simultanea alla esecuzione vocale (un-scripted)
grande varietà di strutture dell’evento comunicativo
diversa qualità acustica
grande variabilità strutturale
La variabilità sia strutturale che lessicale è forse la proprietà principale dei testi
orali, sicuramente superiore rispetto alla pur grande varietà di forme che
assumono i testi scritti.6 Se si vuole creare una base dati significativa del parlato
spontaneo naturale non si può rappresentare il parlato semplicemente
documentando pochi contesti. Ma quanti e quali sono i contesti significativi non è
un dato ovvio allo stato delle conoscenze.
Vale la pena riflettere sulle difficoltà che la rappresentazione dell’universo
“parlato spontaneo” presenta. Per esempio l’ evento orale costituito da una
conversazione durante un pranzo avrà proprietà, di struttura dialogica, di
complessità strutturale e di lessico, diverse da un evento orale costituito da una
fiaba raccontata ad un bambino. Oppure, spiegare a qualcuno come si fa un
disegno costituisce un evento radicalmente diverso per lessico, modalità e
struttura da un intervento al parlamento.
I criteri di campionamento per la costituzione della base dati sono dunque uno
degli aspetti essenziali per la documentazione di un universo, in special modo se
questo è un universo linguistico, per sua definizione aperto e in continuo
mutamento. Per rappresentare il parlato spontaneo in modo rilevante è dunque
certamente necessario documentare una gamma ampia di variazioni di contesto in
cui questo è usato. Ed è quindi necessario disporre di dati rappresentativi delle
possibilità linguistiche che si realizzano in situazioni naturali avendone una
misura quantitativamente significativa.
I principali parametri di variazione del parlato, sono stati studiati
principalmente dalla sociolinguistica contemporanea, (Cfr. Biber, 1988, Berruto,
1986, De Mauro et alii, 1992; Gadet, 1996, Labov, 1966, Moneglia, 2000) e
possono essere riassunti nella serie seguente
•
•
•
•
•
•
•
•
•
Tipo di canale utilizzato
Struttura dell’evento comunicativo
Contesto sociale d’uso
Genere
Dominio semantico (o argomento del testo)
Tipo di programmazione
Uso formale o informale
Variazione diastratica dei parlanti
Variazione diatopica dei parlanti
Dati i parametri di variazione precedenti il corpus design di C-ORAL-ROM segue
da due scelte fondamentali:
a) Campionamento per situazioni d’uso e non per tipologia dei parlanti
b) Criteri di campionamento diversi per la documentazione del parlato in contesti
formali e informali.
c) definizione di una lunghezza dei campioni in termini di unità informative
minime.
In linea di principio definire un campione statisticamente significativo delle
tipologie di parlanti presenti un una comunità linguistica è il metodo più diretto
per ottenere, di conseguenza, esempi dei diversi tipi di parlato da essi praticato. Se
si identifica un campione significativo di popolazione e si registrano i soggetti in
tutta una loro giornata casuale, si ottiene infatti uno spaccato significativo delle
tipologie dell’uso del parlato nella società.
Tale criterio porta a identificare nella variazione diastratica e diatopica dei
parlanti i livelli fondamentali per l’individuazione delle tipologie di
comportamento orale presenti nella società, che essendo strutturata socialmente, si
istanzia, nella giornata dei vari soggetti sociali e le loro relazioni tipiche.
Parallelamente l’adozione di tale criterio porta ad ignorare gli altri parametri di
variazione, che vengono ad essere rappresentati nel corpus per conseguenza. I
parlanti sono i vettori che attraversando nel giorno la loro porzione di società
manifestano il loro parlato in situazioni significativamente diverse. Per cui, dato
un criterio casuale di campionamento delle giornate, se il campione di parlanti
rappresenta bene la società, ogni tipologia del parlato che occorre nell’universo
avrà il suo giusto peso rappresentativo rispetto all’insieme. In tale paradigma lo
studio delle situazioni significative d’uso del parlato e dei generi avviene quindi a
posteriori rispetto al campionamento, quando le registrazioni sono trasformate da
continue a discrete, e sono trascritte e rappresentate in forma testuale
Un corpus design per parlanti è stato fino ad ora proposto solo per il
corpus dell’ebreo contemporaneo. Ma non è stata ancora realizzato. (Izre'el et al.
2001) Le difficoltà di operare effettivamente la selezione del campione e di
realizzare campionamenti di parlato lunghi una intera giornata di ogni soggetto,
cozza con notevoli problemi tecnici, paratici e legali. Sono molte infatti le
situazioni in cui, nonostante la buona volontà, non è facile ottenere il consenso
alla registrazione da parte di chi viene ad interagire con il soggetto, o comunque
non è tecnicamente possibile operare una registrazione senza compromettere la
spontaneità dell’interazione. Un tale criterio è sicuramente più semplice da
realizzare per lo studio del parlato trasmesso, che, campionando una informazione
acustica già registrata, non presenta tale difficoltà. Il Lessico dell’Italiano
Radiofonico realizzato recentemente dall’Accademia della Crusca è un esempio
significativo dell’applicazione di tale criterio all’Italiano.
C-ORAL-ROM sia per i motivi pratici sopra esposti, sia per l’opportunità
di riutilizzare archivi di parlato già presenti, ha scelto la strada opposta, ovvero di
non operare una selezione per parlanti, ma di definire un ambito di variazioni di
situazione giudicato significativo, tale da rappresentare in modo uniforme le
principali possibilità di variazione del parlato e poter quindi realizzare quattro basi
di dati comparabili per le lingue romanze.7
Questa strada prevede quindi la definizione di una serie di variazioni di
contesto di raccolta prevedibili e quantitativamente determinate ed è la più
sperimentata. E’ la stessa realizzata per l’italiano nel LIP (De Mauro et alii 1992)
e recente applicata alla raccolta di altri corpora orali di grandi dimensioni come il
Dutch Corpus, ma non è esente da difetti rilevanti propriamente a livello statistico.
Infatti da un lato molte variazioni possibili non sono conosciute a priori, dall’altro
il peso statistico delle varie situazioni non è prevedibile. In particolare se si
definisce rigidamente una serie di situazioni possibili come istanze a priori
rappresentative si ha come conseguenza di ridurre a 0 la possibilità di occorrenza
di tutte le altre.
Per esempio se si definisce il corpus composto da un certo numero
rispettivamente di interviste, di conversazioni a pranzo e di conferenze, si
definisce una variazione dell’orale estesa e comparabile, ma si escludono a priori,
per esempio, le discussioni di lavoro, o la vendita di prodotti, o le interrogazioni
scolastiche o quant’altro. Per cui le proprietà di queste ultime situazioni non
saranno rappresentate. Perché le prime dovrebbero essere più tipiche delle
seconde?
Nella impossibilità di realizzare un campione statisticamente valido, non
resterebbe dunque che limitarsi a proporre situazioni campione, a priori
identificate come istanze tipiche del parlato naturale, lasciando a tale scelta il
compito di rappresentare analogicamente l’intero universo.
Nonostante il fatto che la difficoltà sopra riportata non possa essere
superata completamente si possono però adottare misure significative per ottenere
ugualmente un corpus rappresentativo, e questo, almeno in via di principio, è il
caso di C-ORAL-ROM che ha scelto strategie di corpus design che riducono
significativamente la sotto-determinazione dei corpora orali rispetto all’universo.
Riflettendo sulla possibilità di identificare situazioni tipiche d’uso del
parlato è emerso che la partizione tra situazioni in cui il parlato si realizza in modo
formale e situazioni in cui al contrario l’uso linguistico è informale evidenzia una
significativa differenza: l’insieme di contesti nei quali, in un certo dominio storico
sociale, l’uso linguistico formale è privilegiato, è un insieme in linea di principio
chiuso e definito, mentre al contrario è aperto e indefinito solo l’insieme delle
situazioni nelle quali è possibile l’uso informale. Infatti la scelta dell’uso formale
è marcata rispetto all’uso informale e segue da convenzioni storico-sociali. La
scelta non marcata non dipende invece da convenzioni positive.
Per esempio se è giusto dire che nella sfera della trasmissione e
formazione delle conoscenze o nel dominio politico o religioso o nei media l’uso
formale è privilegiato, non ha senso cercare di identificare quali siano i domini nei
quali l’informale è privilegiato: la casa, il quartiere, la strada, il lavoro, lo scambio
occasionale sono contesti nei quali centinaia di situazioni diverse hanno luogo.
In
altri
termini,
l’identificazione
di
situazioni
tipiche
per
la
rappresentazione del parlato è una scelta significativa per la rappresentazione
della sua varietà formale, ed è invece specificamente sottodeterminata la varietà
dell’uso informale.
A partire da tali rilievi la strategia di corpus design di C-ORAL-ROM
identifica due distinte serie di scelte per la rappresentazione del parlato formale e
informale che vengono ad essere rappresentati in due porzioni separate del corpus.
La variazione dell’informale è documentata seguendo variazioni
parametrizzate, con occorrenza casuale, mentre al contrario la variazione del
formale è definita da una serie chiusa di contesti tipici dell’uso delle varietà
formali. Le variazioni di struttura dell’evento comunicativo e la variazione di
contesto sociale d’uso sono i parametri utilizzati per assicurare la variazione
nell’informale C-ORAL-ROM. Nelle pagine che seguono il lettore potrà trovare
la matrice nella quale tutte le scelte principali sono dettagliate.
Una seconda scelta di corpus design di C-ORAL-ROM, dopo la definizione dei
criteri di rappresentazione della variazione linguistica, pertiene la quantità dei
campioni e la loro dimensione. Se i quattro corpora romanzi debbono essere
comparabili rispetto ai parametri di variazione, allora debbono rappresentare tali
parametri in modo comparabile sia per quanto riguarda il numero dei campioni sia
per quanto riguarda la dimensione dei campioni stessi.
I campioni hanno una restrizione intrinseca. Perché un campione sia
valido, deve essere lungo abbastanza da poter in linea di principio permettere
l’occorrenza di proprietà linguistiche specifiche del contesto. In altri termini il
campione di orale non può essere un sample casuale, ma deve contenere caratteri
di testualità e di compiutezza sufficienti a poterlo considerare un evento
comunicativo del tipo in questione. Per es. non è possibile estrarre due minuti di
una conferenza e considerare tale campione un sample delle conferenze. E’
necessario che ci sia sufficiente testo della conferenza da esemplificare lo
sviluppo tematico dell’argomento. All’opposto non è necessario avere un
campione di dimensioni uguali alla conferenza se si vuole documentare lo
scambio dialogico tra un cliente e un venditore di giornali.
La prima conseguenza della precedente restrizione connessa alla testualità
del campione è la scelta dell’unità di misura per la determinazione delle
dimensioni di un testo: dato che la dimensione da rappresentare riguarda unità di
informazione, l’unità di riferimento deve essere necessariamente identificata in
una unità informativa e non un semplice parametro temporale. Si è scelto quindi
di misurare la dimensione dei campioni in parole e non in unità temporali
(minuti).
Parallelamente nel caso di sessioni di registrazione continue, la selezione
dell’inizio e della fine del campione, ovvero l’unità discreta, non può essere
casuale per ovvi motivi di coerenza e significatività. Si è dunque scelto di
determinare i testo a partire dal primo punto che assicurasse coerenza testuale data
la dimensione del campione stesso
Per quanto riguarda la lunghezza dei campioni sono poi state determinate
due lunghezze tipo, rispettivamente 1.500 (circa 10 minuti) parole per i testi
informali e 3000 parole (circa 20 minuti) per i testi informali, per assicurare la
rappresentatività nei due macro contesti.
La seguente è la matrice del corpus design di C-ORAL-ROM con l’indicazione
del numero di parole previsto per ogni campo del corpus design:
Language
register
Social context
Structure of the
communication event
Informal
150,000 words
Family/private
124,500 words
Dialogue and Multi-dialogue
102,000 words
Public
25,500 words
Monologue
48,000 words
Channel
Typical domain of use
Formal
Natural context
65,000 words
Political speech
Political debate
Preaching
Teaching
Professional explanation
Conference
Business
Law
Formal
Media
60,000 words
Talk shows
Scientific press
Reportage
Interviews
Sport
News
Weather forecast
Informal
Telephone
25,000 words
Private conversations
15,000 words
Human-machine interactions
10,000 words
Il trattamento dell’informazione linguistica nel corpus C-ORAL-ROM
La base di dati ricavata dal corpus di sessioni registrate è costituita dalla seguente
serie di file, che comprendono la sorgente acustica e una serie di annotazioni:
-
-
trascrizione ortografica in formato CHAT (Mac Whinney, 1994), arricchito
dall’annotazione dei breaks prosodici terminali e non terminali, in file .TXT
metadati di ogni sessione in formato CHAT e formato IMDI
sincronizzazione di ogni enunciato trascritto alla sorgente acustica in file .xml
Corpus testuale in file .xml
corpus testuale annotato con parti del discorso (PoS tagging) in file .txt
una serie di misurazioni linguistiche estratte dall’annotazione del corpus in file
.excel
L’insieme
delle
annotazioni
consentono
un
pieno
apprezzamento
dell’informazione linguistica presente nel corpus con particolare riguardo
all’informazione acustica e prosodica. A tal fine il corpus è distribuito in
associazione al software di analisi acustica Win-Pitch-Corpus e con il motore di
ricerca testuale Contextes e richiede, per essere consultato, una attrezzatura
informatica elementare, accessibile anche ad utenti singoli.8
In particolare deve essere sottolineato che l’annotazione principale di CORAL-ROM deriva dall’interazione tra tre componenti, che rendere possibile
l’osservazione e la riflessione linguistica sull’intera serie di dati contenuti
nell’orale:
a) La sincronizzazione tra l’informazione testuale e l’informazione acustica
b) Un criterio di scansione del testo in unità discrete coerenti con le unità proprie del
parlato (enunciati)
c) La possibilità di elaborare simultaneamente sia l’informazione testuale e acustica
che l’analisi acustica
Ogni enunciato, definito come l’unità di riferimento del parlato (Cresti 2000),
coincidente con un atto linguistico, ed in C-ORAL-ROM è annotato sia nelle
trascrizioni sia nel segnale acustico.
La selezione delle unità pertinenti è determinata in modo univoco dai
trascrittori attraverso l’identificazione percettiva dei confini prosodici terminali
(annotati con il simbolo “//”) e non terminali (annotati con il simbolo “/”).9 Per
cui, a partire da tale informazione, è stato possibile sincronizzare, attraverso un
software (Win Pitch Corpus), le unità testuali significative alla loro realizzazione
acustica (Cresti et al. 2004).
L’esempio seguente, tratto da un dialogo tra una estetista (*EST) e la sua
cliente (*CLA) mostra bene come l’informazione linguistica è strutturata in CORAL-ROM.
La partizione in enunciati del parlato e la sua sincronizzazione al segnale e
all’analisi acustica permettono di apprezzare il modo specifico con cui nel parlato
si costruisce il testo. I tipici enunciati brevi e senza verbo, sono isolati e possono
essere riascoltati, così come le interiezioni, i marcatori discorsivi, le strutture
articolate prosodicamente, rendendo possibile una riflessione specifica sulle
caratteristiche naturali del parlato e sulle sue peculiari proprietà in ognuna delle
lingue romanze considerate:
*EST: o vieni / dai //
%ill: invito ad avvicinarsi per iniziare la depilazione10
*CLA: a patire //
%ill: asserzione ironica
*EST: no // ascolta / qui sopra ? sì //
%ill: rassicurazione (1) domanda introdotta da un conativo su dove incominciare la
depilazione (2) auto risposta (3)
*CLA: qui ? sì //
%ill: domanda (1) risposta (2)
Come mostra la trascrizione e la figura corrispondente, ogni enunciato è stato
identificato
nella
trascrizione
e
allineato
alla
controparte
acustica
(immediatamente al disotto dell’onda nel riquadro nero della figura). Di ogni
enunciato è visibile l’analisi e simultaneamente il suono dell’enunciato o di parte
di esso è immediatamente disponibile alla percezione.
Il trattamento appena brevemente descritto, in C-ORAL-ROM è esteso a
circa 120 ore di parlato e riguarda sia i corpora delle quattro lingue romanze
considerate. Da questo punto di vista la risorsa ha una strutturazione multimediale
dell’informazione che la rende uno strumento funzionale sia alla ricerca
linguistica che all’insegnamento delle lingue.
Bibliografia
Bacelar do Nascimento, F., a cura di (2001) Portugues falado: varietades
geograficas e sociais, CLUL & Instituto Camoens, Lisboa.
Berruto, G. 1987. Sociolinguistica dell'Italiano Contemporaneo. Roma: La Nuova
Italia Scientifica.
Biber, D. 1988. Variation across speech and writing, Cambridge: Cambridge
University Press.
Biber, D., Johansson, S., Leech, G., Finegan, E. (eds.) 1998. Corpus linguistics:
investigating language structure and use. Cambridge: Cambridge
University Press.
Blanche-Benveniste C. & Rouget, C. & Sabio, F., a cura di (2002) Choix de textes
de Français parlé, Champion, Paris.
CHAT http://childes.psy.cmu.edu/manuals/CHAT.pdf
CONTEXTES http://www.up.univ-mrs.fr/veronis/logiciels/Contextes
Cresti, E. 2000. Corpus di italiano parlato, vol. I- II, CD-Rom, Firenze:
Accademia della Crusca.
Cresti, E. Moneglia, M., Bacelar, F., Sandoval, A.M., Veronis, J., Martin, PH.,
Choucri, K., Mapelli ,V.; Falavigna, D.; Cid, A. 2002. "The C-ORALROM Project. New methods for spoken language archives in a
multilingual romance corpus". In Proceedings of LREC 2002, M. C.
Rodriguez and Suarez Araujo, C. (eds), vol. 1, 2-10. Paris: ELRA.
Cresti, E., Bacelar do Nascimento, F., Sandoval, A. M., Veronis, J., Martin, Ph.,
Choukr, K.i The C-ORAL-ROM CORPUS. A Multilingual Resource of
Spontaneous Speech for Romance Languages., M.T. Lino, M.F. Xavier, F.
Ferreira, R. Costa, R. Silva, Proceedings of the LREC conference, pp. 575578, Paris, ELRA.
Cresti, E., Moneglia, M. (eds.) in stampa. C-ORAL-ROM. Integrated Reference
Corpora for Spoken Romance Languages, Vol. e DVD, Amsterdam:
Benjamins.
Danieli, M., Garrido, J. M., Moneglia, M., Panizza, A., Quazza, S., Swerts, M.
2004. Evaluation of Consensus on the Annotation of Prosodic Breaks in the
Romance Corpus of Spontaneous Speech “C-ORAL-ROM” in M.T Lino,
M.F. Xavier, F. Ferraira, R. Costa, R. Silva (eds) Prococeeding of the 4th
LREC Conference , vol 4, pp. 1513-1516, Paris: ELRA,
De Mauro, T., Mancini, F., Vedovelli, M., Voghera, M. (1993) Lessico di
frequenza dell'italiano parlato, Milano, Etass Libri.
Gadet, F. 1996. Variabilité, variation, varieté: le Français d’Europe. French
Language Studies, 6: 45-58.
IMDI, http://www.mpi.nl/IMDI/
Izre'el S., Hary, B. and Rahav, G. 2001. "Designing CoSIH: The Corpus of
Spoken Israeli Hebrew". International Journal of Corpus Linguistics 6: 171197.
Labov, W. 1966. The social stratification of English in New York City.
Washington D.C.
LIR, (AA.VV.) 1997. Il progetto LIR, Bollettino di informazioni. Centro di
ricerche informatiche per i Beni Culturali, 7.
MacWhinney, B. 1994. The CHILDES project: tools for analyzing talk. Hillsdale:
Lawrence Erlbaum Associates.
Marcos Marín, F. 1992. "El Corpus Oral de Referencia de la Lengua Española
Contemporánea''.
Informe
del
proyecto.
Madrid.
Published
in
ftp://ftp.lllf.uam.es/pub/corpus/oral.
Moneglia M.(2000) Le corpus LABLITA, in M. Bilger (ed.) Corpus.
Méthodologie et aplications linguistique Champion, Paris.pp. 49-57.
The Spoken Dutch Corpus, http//lands/let.kun.nl/cgn/edesign.htm
WINPITCH, http://www.winpitch.com
1
C-ORAL-ROM è stato preceduto da pubblicazioni di campionamenti dei corpora in oggetto in
formati diversi: Bacelar 2001; Blanche-Benveniste et al., 2002; Cresti 2000; Marcos-Marin 1992.
2
C-ORAL-ROM si è avvalso inoltre di un importante “Comitato di controllo” accademico e
industriale: Claire Blanche Benveniste École Pratique des Hautes Études; Bernard Cerquellini
(INaLF); Dominique Willems (Collate Research Network, University of Gent); Marc Swerts (IPO,
Eindhoven); Morena Danieli (LOQUENDO); Juan Maria Garrido (Telefonica I+D); Nuno Beires
(PT-Inovação) hanno consigliato il consorzio verificando le scelte rispetto alle esigenze
scientifiche e tecnologiche cui il corpus è destinato
3
Nella serie Corpus Linguistics Studies presso Benjamins, Amsterdam (Cresti & Moneglia, in
stampa)
4
http://www.elda.fr/rubrique6.html
5
Cfr. Biber 1988; Berruto 1987; Gadet 1996; Miller & Weinert 1999
6
Si veda Cresti et al. 2002. per una discussione.
7
Data la natura multilingue della risorsa la variazione diatopica non è rappresentata in C-ORALROM . I corpora danno una rappresentazione delle varietà presenti nei centri da cui originano
(Firenze, Aix-Marsiglia, Lisbona, Madrid) senza nessuna restrizione quantitativa.
8
La configurazione minima è infatti costituita da processore Pentium III a 1 GHz, 252 MB ram,
scheda audio S-blaster , e sistema operativo Windows 2000 o XP.
9
Il criterio di partizione degli enunciati è stato validato da istituzioni indipendenti (Cfr. Danieli et
al. 2004)
10
Per aiutare il lettore a ricostruire l’enuciato senza l’informazione acustica è stata aggoiunta una
riga dipendente introdotta da “ %ill” che specifica gli atti illocutori compiuti da ciascun enunciato