La traduzione automatica
Transcript
La traduzione automatica
La traduzione automatica Traduzione automatica Traduzione assistita dal computer human-aided machine translation Speech translation Modelli di traduttore automatico Software di traduzione Informatica e lingue naturali - Isabella Chiari (2004) 1 La traduzione come transcodifica La traduzione può essere interpretata come un: processo di “conversione” di un messaggio in codice in un altro messaggio in un altro codice il testo prodotto in una lingua di partenza (source language) deve essere trasformato in un testo di pari senso nella lingua di arrivo (target language) Informatica e lingue naturali - Isabella Chiari (2004) 2 1 La storia della traduzione automatica 1947, Warren Weaver, co-autore della Teoria matematica della comunicazione, suggerisce che il problema della traduzione possa essere assimilato a un problema crittografico di semplice trasposizione di un messaggio da un codice a un altro Dunque almeno una parte del lavoro di traduzione possa essere svolto in automatico TA, traduzione automatica, MT machine-translation Anni Cinquanta. Si sviluppa pienamente la teoria dell’informazione e nasce l’era dei calcolatori Informatica e lingue naturali - Isabella Chiari (2004) 3 I primi modelli di traduttore automatico tavole di corrispondenza parola per parola Pëtr Trojanskij propone (anni Trenta) di costruire un traduttore basato sull’esperanto come interlingua Il modello proposto da Trojanskij è però pressoché sconosciuto 1954, Università di Georgetown negli Stati Uniti, primo esperimento pubblico di traduzione automatica sistema IBM per la traduzione dal russo all’inglese (250 parole ) A cogliere la sfida con entusiasmo sono soprattutto indipendentemente Stati Uniti e Unione Sovietica Informatica e lingue naturali - Isabella Chiari (2004) 4 2 L’arresto e la ripresta della ricerca 1966, l’Automatic Language Processing Advisory Committee (ALPAC) afferma che le ricerche condotte sulla TA non hanno portato a vantaggi qualitativi, economici o di rapidità nelle traduzioni Seconda metà degli anni Settanta. Lo sviluppo dell’intelligenza artificiale e del Natural Language Processing (pos-tagging e parsing sintattico) permette di integrare ai modelli primitivi di TA componenti di analisi morfologica e sintattica e disambiguatori semantici nasce SYSTRAN come sistema di traduzione diretta dal russo all’inglese Usato alla NATO, UE e aziende commerciali come XEROX Nascono in concorrenza altri sistemi commerciali come Logos, Metal, Pc-Translator, GTS, ecc. Sempre negli anni Settanta entra sul mercato la ricerca e il prodotto giapponese Informatica e lingue naturali - Isabella Chiari (2004) 5 I finanziamenti, l’impulso economico organismi internazionali come la UE, la NATO, l’ONU banche dati terminologiche nei campi dell’economia, del diritto e della politica internazionale standardizzazione delle traduzioni tecnicoscientifiche dei documenti interni e pubblici multinazionali traduzione di manuali tecnici documenti multilingui a fini pratici Informatica e lingue naturali - Isabella Chiari (2004) 6 3 I nuovi obiettivi human-aided machine translation o traduzione automatica assistita computer-aided translation, CAT o traduzione assistita dal computer traduzione automatica del parlato (speech translation) traduttori automatici di pagine web di e-mail dell’instant messaging e delle chat Informatica e lingue naturali - Isabella Chiari (2004) 7 I sistemi di traduzione automatica Bilingui o plurilingui sistemi ultraspecializzati METEO canadese per le traduzioni dei bollettini meteorologici in francese e inglese sistemi di impianto generale (e multidisciplinare) Sistemi elementari per testi dialogici Informatica e lingue naturali - Isabella Chiari (2004) 8 4 I principali modelli di TA i. Sistemi basati su regole: i. Sistemi di traduzione diretta o per unità; ii. Sistemi di traduzione sintattici o T-sistemi (da transfer); iii. Sistemi di traduzione a interlingua; ii. Sistemi statistici e basati su corpora: i. SMT, Statistical Machine Translation ii. Example-based MT; Informatica e lingue naturali - Isabella Chiari (2004) 9 I sistemi basati su regole rule-based MT vengono identificate e formalizzate alcune regole di trasformazione delle unità Le regole possono essere organizzate in moduli diversi che interagiscono a diversi livelli, in genere le regole sono rappresentate da diagrammi ad albero (morfologici, sintattici e/o semantici). procedura di lavoro seriale Informatica e lingue naturali - Isabella Chiari (2004) 10 5 Sistema di traduzione diretta (rule-based) sistemi di traduzione diretta (o per unità, detti anche binary translation). 1. ogni unità testuale (in genere la parola grafica, in qualche caso unità composte da più unità come le polirematiche) viene analizzata per trovare il suo corrispondente diretto nella lingua di arrivo 2. un modulo morfologico per la lingua di partenza che analizza la forma della parola da tradurre per individuare le eventuali informazioni fornite dalla flessione 3. verifica degli omonimi e degli omografi 4. Individuazione del traducente 5. Applicazione del modulo morfologico per la lingua d’arrivo Informatica e lingue naturali - Isabella Chiari (2004) 11 Schema di traduttore diretto (rule-based) Unità testuale (it.) cani Forma selezionata cane1 : cani cani Traducente (ingl.) dog cani Traducente flesso dogs cani ANALISI LESSICALE ANALISI MORFOLOGICA (source) DIZIONARIO ANALISI MORFOLOGICA (target) Lista omonimi cane1 cane2 ecc. can-i (pl.) cane1 -> dog dog-s (pl.) Informatica e lingue naturali - Isabella Chiari (2004) 12 6 T-sistemi (transfer systems) rule-based approccio generativo: grammatica formale di tipo sintattico (tra i più usati oggi nella traduzione automatica) tre fasi: analisi morfo-sintattica, trasferimento della struttura sintattica della lingua di partenza in quella di arrivo, sintesi Informatica e lingue naturali - Isabella Chiari (2004) 13 sistemi a interlingua (rule-based) Tra source language e target language si trova una rappresentazione intermedia, l’interlingua L’interlingua è rappresentazione morfologica, sintattica e semantica semplificata Due passaggi: T1 descrive il passaggio dalla lingua di partenza all’interlingua, T2 descrive il passaggio dall’interlingua alla lingua di arrivo Pensata per sistemi plurilingui (come EUROTRA della CEE) Informatica e lingue naturali - Isabella Chiari (2004) 14 7 Schema di sistema a interlingua - Modulo morfosintattico - Modulo semantico - Knowledge bases Interlingua Lingua di partenza T1 Lingua di arrivo T2 Informatica e lingue naturali - Isabella Chiari (2004) 15 sistemi statistici di traduzione automatica I. example-based MT I. II. corpora paralleli Statistical Machine Translation (SMT) I. parametri statistici per l’attribuzione I. II. dell’ordine delle parole del traducente II. example-based MT III. sistemi non linguistici Informatica e lingue naturali - Isabella Chiari (2004) 16 8 Statistics-based MT Diapositiva tratta da Hurford, Leeds 2003 bilingual corpora: original and translation (not available for some languages) little or no linguistic ‘knowledge’, based on word co-occurrences in SL and TL texts (of a corpus), relative positions of words within sentences, length of sentences SL and TL sentences aligned statistically (according to sentence length and position) ‘translation model’: probability that a TL string is the translation of a SL string, based on: frequency of SL/TL co-occurrence in aligned texts of corpus position of SL words in SL string, and TL words in TL string ‘language model’: probability that a TL string is a valid TL sentence (based on frequencies of bigrams and trigrams), search for TL string that maximizes these probabilities first example: IBM Candide (1988) on Canadian Hansard (English and French) Informatica e lingue naturali - Isabella Chiari (2004) 17 Sistemi ibridi di traduzione di tipo componenziale, a moduli che si interconnettono Rule-based e statistici a seconda dello specifico problema di traduzione A strategia variabile Maggiore flessibilità e accuratezza dell’output Informatica e lingue naturali - Isabella Chiari (2004) 18 9 I principali software di traduzione a) i grandi progetti di traduzione automatica ad alto costo diffusi nelle grandi aziende multinazionali; b) software per i personal computer anche integrabili o integrati con i pacchetti di word processing; c) i servizi di traduzione online per documenti e pagine web; d) le workstations per traduttori. Informatica e lingue naturali - Isabella Chiari (2004) 19 Software commerciali software per personal computer Globalink, SYSTRAN, Intergraph e Logos sistemi di traduzione online SYSTRAN (Il traduttore Babelfish del motore di ricerca Altavista) un utente può gratuitamente tradurre in tempo reale un testo (in inglese, francese, tedesco, italiano, russo, ecc.) in qualunque delle lingue supportate incollando il testo nella finestra indicando l’indirizzo di una qualunque pagina web (URL) Il prodotto è una traduzione grezza Informatica e lingue naturali - Isabella Chiari (2004) 20 10 SYSTRAN su Babel Fish di Altavista Informatica e lingue naturali - Isabella Chiari (2004) 21 Diapositiva tratta da Hurford, Leeds 2003 Online and PC translation: why so bad? old models (word for word, simple transformer architecture) often single equivalents, no morphological analysis or target adjustment dictionaries too small, insufficient information, and difficult (or impossible) to update weak syntactic analysis/transfer poor disambiguation (little semantic information) general-purpose (not domain restricted) not designed for language/style of emails web page translations: graphics not translated, distorted, ignored; format lost need special functions if used as aid for writing in foreign language language coverage uneven; many languages of Africa and Asia are lacking translation from English often poorer than into English conclusion: of use/value only if source language unknown or known only poorly and if essence and not full information is adequate the less the user knows the source language, the more useful becomes automatic translation Informatica e lingue naturali - Isabella Chiari (2004) 22 11 Human-assisted MT Pre-edited input Controlled language input MT engine ‘Raw’ input Domain-specific database Post-editing User dictionary Sublanguage Diapositiva tratta da Hurford, Leeds 2003 Informatica e lingue naturali - Isabella Chiari (2004) 23 Sistemi professionali per traduttori Translator’s workstation (workbenches) TRADOS Translation Workbench, Translation Manager della IBM, Deja vu Le workstations sono dei pacchetti integrati per gestire le traduzioni in modo flessibile: word processors multilingui, controllori grammaticali e ortografici, dizionari e tesauri, banche dati terminologiche, possibilità di accesso a traduzioni precedenti (translation memory) motori di traduzione automatica Informatica e lingue naturali - Isabella Chiari (2004) 24 12 Machine-aided human translation Terminology database text glossary Human translator (workstation) revision pre-translation (MT) Translation memory Diapositiva tratta da Hurford, Leeds 2003 Informatica e lingue naturali - Isabella Chiari (2004) 25 Computer-aided translation and translation tools recognition that fully automatic translation not appropriate for professional translators PCs and multilingual word processing, desk top publishing Translator ‘in control’ dictionaries (monolingual, bilingual): on-line access grammar aids, spelling checkers user glossary, terminology management, ‘authorised’ terms, standards, specialist glossaries input, output, transmission (OCR, pre-editing, controlled language) translation memory, alignment management support tools (project control, budgeting, workflow) Diapositiva previous antagonism of translators to MT diminished tratta da Hurford, Leeds 2003 Informatica e lingue naturali - Isabella Chiari (2004) 26 13 Translation memories: weaknesses Expensive to build (in time and money) sentence-based comparisons restrict potential use (no phrase matching); whole sentence repetition is rare (except with revised texts) loss of context beyond sentence any TM likely to contain redundant, ambiguous versions any TM likely to contain conflicting translations (with little or no guidance) sentences are edited by translators outside TM environment and therefore not included in the database TM systems do not ‘learn’ decisions/choices made by users (e.g. which potential translations are preferred, which rejected) fuzzy matching often fails (hidden tags) and too complex, and translators opt not to use the facility; prefer translating from scratch combining extracted translation segments left entirely to user/translator Diapositiva developments needed: tratta da finding phrases (retrieval, fuzzy matching) Hurford, combining phrases; searching for words in combination Leeds 2003 phrase repetition Informatica e lingue naturali - Isabella Chiari (2004) 27 Un esempio TRADOS Informatica e lingue naturali - Isabella Chiari (2004) 28 14 Risultati recenti della TA produzione di traduzioni di buona qualità soprattutto di testi a carattere tecnicospecialistico; Sviluppo ed estensione delle translation memory; Traduzione in tempo reale di pagine web e di e-mail; Informatica e lingue naturali - Isabella Chiari (2004) Large-scale translation and MT 29 Diapositiva tratta da Hurford, Leeds 2003 accurate, good quality, publishable (dissemination) publicity, marketing, reports, operational manuals, localization technical documentation; large volumes repetitive, frequent updates; saving costs (and staffing?) multilingual output (e.g. English to French, German, Japanese, Portuguese, Spanish) available in-house terminological database; user (company) dictionaries backup resources (translated texts, personnel for dictionaries, etc.) human assistance for quality (controlled language input, post-editing) integrate with technical writing and publishing availability of in-house printing/publishing technical expertise (computers, printers, etc.) Informatica e lingue naturali - Isabella Chiari (2004) 30 15 MT: when it works and when it doesn’t cannot be both fully automatic (no pre- or post-editing) and general-purpose beyond its scope: literature, philosophy, sociology, law large corporations, cost-effective if: controlled input, standardised terminology, multilingual output, repetitive documentation, restricted domain occasional (information-only) rough, not for publication; immediate (fast) production small-scale MT ‘formulaic’ documents (business correspondence), restricted domain interactive assistance Diapositiva tratta da Hurford, Leeds 2003 Informatica e lingue naturali - Isabella Chiari (2004) 31 Obiettivi di ottimizzazione della TA Integrazione con corpora paralleli example-based MT Estensione a lingue precedentemente non trattate speech translation o spoken-language MT per i sistemi di dialogo uomo-macchina Integrazione con il riconoscimento e sintesi del parlato Difficoltà: differenze vocali individuali, ipo- ed iperarticolati, fenomeni come pause piene, esitazioni, ri-programmazioni del discorso, autocorrezioni, errori e lapsus, riferimenti extra-testuali Informatica e lingue naturali - Isabella Chiari (2004) 32 16
Documenti analoghi
La traduzione automatica
z Seconda metà degli anni Settanta. Lo sviluppo dell’intelligenza
artificiale e del Natural Language Processing (pos-tagging e parsing
sintattico) permette di integrare ai modelli primitivi di TA c...