Modello collaborativo per migliorare l`accuratezza dell`OCR del
Transcript
Modello collaborativo per migliorare l`accuratezza dell`OCR del
Modello collaborativo per migliorare l’accuratezza dell’OCR del Greco antico Federico Boschetti∗ [email protected] Project – Tufts University, Boston MA CIMeC – Univ. degli Studi di Trento ∗ Perseus Verona, 3–4 Marzo 2010 Federico Boschetti Modello collaborativo per migliorare l’OCR 1/ 30 Introduzione Metodologia Risultati Discussione Overview 1 Introduzione 2 Metodologia 3 Risultati 4 Discussione Federico Boschetti Modello collaborativo per migliorare l’OCR 2/ 30 Introduzione Metodologia Risultati Discussione Introduzione La nuova generazione di corpora greci e latini ha spostato l’interesse dai testi digitali alle edizioni digitali. Infatti nella creazione delle prime collezioni digitali, prefazioni, introduzioni, indici, bibliografie, note, apparati critici e varianti testuali presenti in edizioni differenti abitualmente non venivano presi in considerazione. Federico Boschetti Modello collaborativo per migliorare l’OCR 2/ 30 Edizione critica Critical edition Federico Boschetti Introduzione Overview Metodologia Textual Structures Risultati Mapping Discussione Results and Conclusions Critical edition Register of collations Repertory of conjectures Editions and Repertories Modello collaborativoAlignment per migliorare l’OCR and Linkage of Interpretations Federico Boschetti of Variants 3/ 30 Introduzione Overview Metodologia Textual Structures Risultati Mapping Discussione Results and Conclusions Critical edition Register of collations Repertory of conjectures Editions and Repertories Testo apparato critico Criticale edition Federico Boschetti Modello collaborativoAlignment per migliorare l’OCR and Linkage of Interpretations Federico Boschetti of Variants 4/ 30 Introduzione Overview Metodologia Textual Structures Risultati Mapping Discussione Results and Conclusions Critical edition Register of collations Repertory of conjectures Editions and Repertories Testo apparato critico Criticale edition Federico Boschetti Modello collaborativoAlignment per migliorare l’OCR and Linkage of Interpretations Federico Boschetti of Variants 4/ 30 Introduzione Metodologia Risultati Discussione Peculiarità dell’OCR applicato ad edizioni critiche dei classici Il layout è diviso in diversi specchi con differente dimensione del carattere. Il Greco antico usa un ampio set di caratteri per rappresentare le combinazioni di spiriti e accenti sulle vocali. Le edizioni critiche sono multilingui. Gli esemplari di edizioni del XIX e del XX secolo possono avere pagine di testo danneggiate. Federico Boschetti Modello collaborativo per migliorare l’OCR 5/ 30 Introduzione Metodologia Risultati Discussione Studi affini Si possono dividere i lavori relativi alla digitalizzazione dei testi antichi in tre gruppi: Il primo gruppo fornisce strumenti e metodi per l’analisi e la correzione assistita da computer. Il secondo gruppo di studi si occupa delle strategie e delle interfacce per registrare le varianti e le congetture. Il terzo gruppo riguarda i metodi per migliorare l’accuratezza dell’OCR tramite tecniche di post-processing sull’output di applicazioni per l’OCR. Federico Boschetti Modello collaborativo per migliorare l’OCR 6/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Overview 1 Introduzione 2 Metodologia Allineamento multiplo Selezione dei caratteri Spell-checking 3 Risultati 4 Discussione Federico Boschetti Modello collaborativo per migliorare l’OCR 7/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Edizioni usate per acquisire dati sperimentali Ateneo, Deipnosophistae Meineke (1858): Teubner [senza apparato] Kaibel (1887): Teubner [apparato ricco] Gulick (1951): Loeb [apparato minimo] Eschilo, Tragedie Hermann (1852): Weidmann [senza apparato] Campioni Cinque pagine sono state scelte a caso per addestrare le singole applicazioni per l’OCR. Altre cinque pagine sono state scelte a caso per addestrare il classificatore bayesiano. È stato applicato un metodo di valutazione incrociata, usando per l’addestramento tutte le pagine tranne quella da testare. Federico Boschetti Modello collaborativo per migliorare l’OCR 7/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Edizione di Hermann (1852) Federico Boschetti Modello collaborativo per migliorare l’OCR 8/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Abbyy Fine Reader 9.0 FineReader è in grado di compiere complesse analisi del layout e di riconoscere testi multilingui. Anche se il Greco politonico non è implementato nativamente, è possibile addestrare FineReader a riconoscere nuovi caratteri, associando l’immagine dei glifi ai corrispondenti codici Unicode. Dopo l’addestramento, FineReader dà i risultati migliori per quanto riguarda l’accuratezza. Federico Boschetti Modello collaborativo per migliorare l’OCR 9/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Ideatech Anagnostis 4.1 Anagnostis è l’unica applicazione capace di riconoscere, anche senza addestramento, il Greco antico. Tuttavia l’addestramento può migliorare il riconoscimento. Spiriti e accenti sono trattati separatamente dal corpo del carattere, migliorando la precisione del sistema di riconoscimento. Anagnostis non è in grado di riconoscere sequenze di Greco politonico e caratteri latini, come si incontrano abitualmente negli apparati critici. Federico Boschetti Modello collaborativo per migliorare l’OCR 10/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Ocropus 0.3/Tesseract 2.03 OCRopus è attualmente una delle applicazioni open source per l’OCR che danno risultati più accurati. OCRopus/Tesseract necessita un addestramento ad hoc per riconoscere il Greco politonico (o qualsiasi nuovo set di caratteri). Il riconoscimento di set misti di caratteri dà risultati accettabili. Il formato dell’output è solo testo oppure xhtml arricchito con un microformat che registra le posizioni delle parole (o anche dei singoli caratteri) sull’immagine della pagina. Federico Boschetti Modello collaborativo per migliorare l’OCR 11/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Allineamento degli output delle tre applicazioni Esempio di progressive multiple sequence alignment Federico Boschetti Modello collaborativo per migliorare l’OCR 12/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Il classificatore bayesiano Perché usare un classificatore bayesiano L’allineamento in se stesso non è sufficiente a determinare il carattere più probabile: anche se due applicazioni concordano, ma sono poco affidabili per il riconoscimento di uno specifico carattere, il carattere più probabile potrebbe essere fornito dalla terza applicazione in disaccordo. Federico Boschetti Modello collaborativo per migliorare l’OCR 13/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Il classificatore bayesiano La probabilità che la posizione corrente nell’originale pagina stampata e0 contenga il carattere x, dato che la prima applicazione e1 fornisce il carattere c1 , la seconda applicazione e2 fornisce il carattere c2 e la terza applicazione e3 fornisce il carattere c3 , è espressa dalla formula: P(e0 = x|e1 = c1 , e2 = c2 , e3 = c3 ) dove, in generale, P(E0 |E1 , E2 , E3 ), denota la probabilità a posteriori per l’evento E0 , data la congiunzione degli eventi E 1 ∩ E2 ∩ E3 . Federico Boschetti Modello collaborativo per migliorare l’OCR 14/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Il classificatore bayesiano Sviluppando la formula precedente e rispettando le tipiche assunzioni richieste da un naive Bayesian classifier, si ottiene x0 = arg maxx Q3 i=1 P(ei = ci |e0 = x) ∗ P(e0 = x)1/3 dove ei è una specifica applicazione e ci è il carattere fornito da quell’applicazione; e0 è la posizione corrente sulla originaria pagina a stampa e x è il carattere corretto effettivamente in quella posizione. Federico Boschetti Modello collaborativo per migliorare l’OCR 14/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Il classificatore bayesiano Cinque pagine di ciascun output dell’OCR sono state allineate con la ground truth, per calcolare la probabilità associata a ciascun error pattern. Secondo la formula precedente, la probabilità è espressa da C (a→b) C (b) ∗ C (b) N 1/3 Il primo fattore di questo valore esprime la probabilità che, dato un carattere a nell’output dell’OCR, rappresenti un carattere b nella ground truth. È costituito dal numero di occorrenze dell’allineamento corrente, C (a → b), diviso per il numero totale di occorrenze del carattere b nella ground truth, C (b). Il secondo fattore di questo valore è la radice cubica di C (b) diviso per il numero totale di caratteri, N. Questo fattore è usato per tutte le applicazioni di OCR, perché è basato soltanto sulla ground truth. Federico Boschetti Modello collaborativo per migliorare l’OCR 14/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Selezione della sequenza più probabile di caratteri l l o c | | | | | l l o c | | | | ; l l o c l l o c Federico Boschetti | d | | d | | d e k e Ð | | | | | | â k e Ð n o u | | n | o u | | ì â q e ; t o u â k e Ð n o u p | * a Ø | | | | p a Ø c | k a @ c t p a Ø c t ì d | . c | t | | d | | | | t ì ì d | | | ì d è r | | ê | | ê g o n h n | | | | | ¡ n u s e n ¢ n n s i n n ¢ n u s e n | | | | r g o n R U o r g o | Modello collaborativo per migliorare l’OCR | | u | s e | n . FineReader ; OCRopus . . Anagnostis Risultato | 15/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Selezione della sequenza più probabile di caratteri h n u | | | | | ¡ n u s e n ¢ n n s i n ¢ n u s e n | Federico Boschetti s e | n . FineReader ; OCRopus . . Anagnostis Risultato | Modello collaborativo per migliorare l’OCR 16/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Spell-checking supportato dai risultati dell’OCR Output di FineReader RegEx per tutte le applic. OCR Suggerimenti dello spell-checker Risultati âxer mwsen âxer á ?[mi]wsen [woº]p[ao]s[eì]n [eé]n e??pshc [eâ][Îu]junt[ ]rion pr[¸À]toc [KQH][ÔÜØ]roc [eê]jhke [DL]udÀn l[a][äå]n [«¢]las[et]?n e?i?[uî]frwo?n âxer mwse, âxer mwsè, âxhr mwsen âxer mwsen ºpasen, ºpasèn, spsen ºpasen wpasen en epshc âÎjuntrion pr¸toc KÔroc ejhke DudÀn län «lasen eufrwn Federico Boschetti (34. elemento) psùc ... pshc (11. elemento) ân, ân ... én én pshc, pshc eÎjunt rion, eÎjunt riìn, eÎjunt¨ri eÎjunt rion prÀtoc, prÀtìc, prwtäc prÀtoc KÜroc, KÜrìc, KÔproc KÜroc êjhke, êjekè, j¨ke DuÀn, DidÀn ... LudÀn êjhke (6. item) LudÀn laän, laìn, Liìn laän ¢lasen, ¢lasèn, ¢asen ¢lasen âÔfrwn, EÖfrwn, eÖfrwn (corretto) Modello collaborativo per migliorare l’OCR eufrwn 17/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Suggerimenti correttamente accettati Output di FineReader wpasen RegEx per tutte le applic. OCR [woº]p[ao]s[eì]n Suggerimenti dello spell-checker ºpasen, ºpasèn, spsen Risultato ºpasen Federico Boschetti Modello collaborativo per migliorare l’OCR 18/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Suggerimenti correttamente rifiutati Output di FineReader âxer mwsen RegEx per tutte le applic. OCR âxer á ?[mi]wsen Suggerimenti dello spell-checker âxer mwse, âxer mwsè, âxhr mwsen Risultato âxer mwsen Federico Boschetti Modello collaborativo per migliorare l’OCR 19/ 30 Introduzione Metodologia Risultati Discussione Allineamento multiplo Selezione dei caratteri Spell-checking Suggerimenti scorrettamente rifiutati Output di FineReader eufrwn RegEx per tutte le applic. OCR ? ?[uî]frwo?n e i Suggerimenti dello spell-checker âÔfrwn, EÖfrwn, eÖfrwn (corretto) Risultato eufrwn Federico Boschetti Modello collaborativo per migliorare l’OCR 20/ 30 Introduzione Metodologia Risultati Discussione Accuratezza delle singole applicazioni per l’OCR Accuratezza del testo allineato sottoposto allo spell-checker Accuratezza dell’apparato critico Mappatura del testo corretto sull’immagine Overview 1 Introduzione 2 Metodologia 3 Risultati Accuratezza delle singole applicazioni per l’OCR Accuratezza del testo allineato sottoposto allo spell-checker Accuratezza dell’apparato critico Mappatura del testo corretto sull’immagine 4 Discussione Federico Boschetti Modello collaborativo per migliorare l’OCR 20/ 30 Introduzione Metodologia Risultati Discussione Accuratezza delle singole applicazioni per l’OCR Accuratezza del testo allineato sottoposto allo spell-checker Accuratezza dell’apparato critico Mappatura del testo corretto sull’immagine Risultato dell’allineamento sottoposto a spell-checking FineReader ]^_`ab Ocropus ef_bgb Anagnostis baugg_vu Result "$%&' ((((((((((((((((((((((((( "$%&' "$%&' ((((((((((((((((((((((((( "$%&' \N)?"$%&' (A((((66(6(((A((((((((((( "$%&' "$%&' ((((((((((((((((((((((((( "$%&' )*,./%0121&45' ((((((((((((((((((((((((((((6(( )*,./%0121&75' )*,./%0121&EEE' (((((((((((((((((((((((((((UUU( )*,./%0121&75' )EE./%012h1&75' ((AUU(((((((((((((((6(((((((((( )*,./%0121&75' )*,./%0121&75' ((((((((((((((((((((((((((((((( )*,./%0121&75' $/%*.891:;09"%<' (((((((((((((((((((((((((((( $/%*.891:;09"%<' $/%*.891c;09"%<' (((((((((((((((6(((((((((((( $/%*.891:;09"%<' $/%*.891:;0d"%<' ((((((((((((((((((((((6((((( $/%*.891:;09"%<' $/%*.891:;09"%<' (((((((((((((((((((((((((((( $/%*.891:;09"%<' =%$>1$:,/1<4?@$2' (((((((((((((((A((((((BB6((((( =%$>1$:C/1EEF@$2' =%$>1$cC/1F@$2' (((((((((((((6(((((((((((((( =%$>1$:C/1F@$2' =%$>1$:,)/1F@$2' (6(((((((((((((A6((((((((((( =%$>1$:C/1F@$2' =%$>1$:C/1F@$2' (((((((((((((((((((((((((((( =%$>1$:C/1F@$2' GI.%&%J1:>K/%L/M' ((((((((((((((((((((((((((((((( GI.%&%J1:>K/%L/M' GI.%&%J1c>K/%L/O' ((((((((((6(((((((((((((((((A(( GI.%&%J1:>K/%L/M' jIh%&%1:k::K/%L/hl' A(6(((((A(((((6666((((6(((((6(B( GI.%&%J1:>K/%L/ME' GI.%&%J1:>K/%L/M' ((((((((((((((((((((((((((((((( GI.%&%J1:>K/%L/M' )1I%@NO9%&1%@P1%L9R' ((((((((((((((((((((A((((((((((((( )1I%@NO9%&1%SP1%L9R' )1Id@NO9d&1dSP1%L98' (((((A((((((((A((((A(((((((((((A(( )1I%@NO9%&1%SP1%L9R' )1I%@N/:n%&1%SP1%)E\' (((A(((((((AB6(((((((((((((((6(UA(( )1I%@NOE9%&1%SP1%L9R' )1I%@NO9%&1%SP1%L9R' (((((((((((((((((((((((((((((((((( )1I%@NO9%&1%SP1%L9R' )1/T1EL9&N.8$>%%&E4' (((((((((U(A(((((((((((((((((((((((U6( )1/T1:;L9&N.8$>%%&7V' )1/T1:;LN9&N.8$>N%&EEE' (((((((((((((6(((((((((((((((6((((UUU( )1/T1:;L9&N.8$>%%&7V' E@1:L&N.8$E%%ooE' ((U6AA(((((A((6(((((((((((((U(((66(U6( )1/T1:;L9&N.8$>%%&7V' )1/T1:;L9&N.8$>%%&EE' (((((((((((((((((((((((((((((((((((UU( )1/T1:;L9&N.8$>%%&7V' IW%.TI@N%X0$/I%@' ((((((((((((((((((((((((((((((( IW%.TI@N%X0$/I%@' IW%.TI@NdX0$/OI%@' ((((((((((((A((((((((((A((((((( IW%.TI@N%X0$/I%@' :%.ENp@N%UN0$I%@' 6(6((((U66(((((BA(((6((((((((((( IW%.TI@N%EX0$/I%@' IW%.TI@N%X0$/I%@' ((((((((((((((((((((((((((((((( IW%.TI@N%X0$/I%@' %..%YZ"N[%"2N&' ((((((((((((((((((((((((((( %..%YZ"N[%"2N&' %..%YZ"N[d"2N&' ((((((((((((((((((A(((((((( %..%YZ"N[%"2N&' %..%rZ"N:t%"2N&' (((((6(((((((((((B6((((((((( %..%YZ"NE[%"2N&' %..%YZ"N[%"2N&' ((((((((((((((((((((((((((( %..%YZ"N[%"2N&' $>@"01/)*1>@"1.\' ((((((((((((((((((((((((((((( $>@"01/)*1>@"1.\' $>@"01/)*1>@"1.\' ((((((((((((((((((((((((((((( $>@"01/)*1>@"1.\' $h@"01):@"1.\' (A(((((((6(((6(6(6(((((((A((( $>@"01/)*1>@"1.\' $>@"01/)*1>@"1.\' ((((((((((((((((((((((((((((( $>@"01/)*1>@"1.\' Federico Boschetti Modello collaborativo per migliorare l’OCR 21/ 30 Introduzione Metodologia Risultati Discussione Accuratezza delle singole applicazioni per l’OCR Accuratezza del testo allineato sottoposto allo spell-checker Accuratezza dell’apparato critico Mappatura del testo corretto sull’immagine Risultato dell’allineamento sottoposto a spell-checking Federico Boschetti Modello collaborativo per migliorare l’OCR 21/ 30 Introduzione Metodologia Risultati Discussione Accuratezza delle singole applicazioni per l’OCR Accuratezza del testo allineato sottoposto allo spell-checker Accuratezza dell’apparato critico Mappatura del testo corretto sull’immagine Risultato dell’allineamento sottoposto a spell-checking . ˆ A u dÀn | | | | || | || | ||| | |˜ | | | | ||++# | | | | b rodiaÐtwn d á p etai b rodiaÐtwn d é p etai FineReader L u dÀn ’ é p etai L u d Àn | | | | || | || | |||˜| | | | | | || | | | | | b rodiaÐtwn d Ocropus b rodiaÐtwn d é p etai L u d Àn ’ á k etai L u d Àn | # | | || | || | ||| | |˜# | | | || | | | | | r rodiaÐtwn d Anagnostis b rodiaÐtwn d é p etai L u d Àn b rodiaÐtwn d é p etai L u d Àn | | | | || | || | ||| | | | | | | | || | | | | | Risultato b rodiaÐtwn d é p etai L u d Àn Federico Boschetti Modello collaborativo per migliorare l’OCR 21/ 30 Introduzione Metodologia Risultati Discussione Accuratezza delle singole applicazioni per l’OCR Accuratezza del testo allineato sottoposto allo spell-checker Accuratezza dell’apparato critico Mappatura del testo corretto sull’immagine Valutazione dell’accuratezza accuratezza = Federico Boschetti corrispondenze corrispondenze+substituzioni+inserzioni+cancellazioni Modello collaborativo per migliorare l’OCR 22/ 30 Introduzione Metodologia Risultati Discussione Accuratezza delle singole applicazioni per l’OCR Accuratezza del testo allineato sottoposto allo spell-checker Accuratezza dell’apparato critico Mappatura del testo corretto sull’immagine Accuratezza: singole applicazioni Edizione Gulick (Loeb) Kaibel (Teubner) Meineke (Teubner) Hermann (Weidmann) Federico Boschetti FR senza built-in training FR con built-in training OCRopus Anagnostis 96.44% 93.11% 94.54% 97.41% 94.35% 93.15% 93.79% – 92.63% 95.19% 92.88% 91.84% 93.15% 92.97% 91.78% 78.64% Modello collaborativo per migliorare l’OCR 23/ 30 Introduzione Metodologia Risultati Discussione Accuratezza delle singole applicazioni per l’OCR Accuratezza del testo allineato sottoposto allo spell-checker Accuratezza dell’apparato critico Mappatura del testo corretto sull’immagine Accuratezza: allineamento e spell-checking Edizioni Gulick (Loeb) guadagno Kaibel (Teubner) guadagno Meineke (Teubner) guadagno Hermann (Weidmann) guadagno Federico Boschetti Allineam. e spell-checking FR allineato 99.01% +2.57% 98.17% +2.98% 97.46% +2.92% 98.91% +1.50% 98.02% +1.58% 95.45% +0.26% 96.15% +1.61% – – Modello collaborativo per migliorare l’OCR Applicazione migliore 96.44% 0.00% 95.19% 0.0% 94.54% 0.00% 97.41% 0.00% 24/ 30 Introduzione Metodologia Risultati Discussione Accuratezza delle singole applicazioni per l’OCR Accuratezza del testo allineato sottoposto allo spell-checker Accuratezza dell’apparato critico Mappatura del testo corretto sull’immagine Accuratezza: apparato critico Gulick guadagno Kaibel guadagno Federico Boschetti Allineamento e spell-checking FR con b.-in OCRopus Anagnostis 90.88% +2.89% 93.14% +3.60% 87.99% 0.0% 87.68% -1.86% 64.79% -23.20% 89.54% 0.0% 59.08% -28.91% 57.11% -32.43% Modello collaborativo per migliorare l’OCR 25/ 30 Introduzione Metodologia Risultati Discussione Accuratezza delle singole applicazioni per l’OCR Accuratezza del testo allineato sottoposto allo spell-checker Accuratezza dell’apparato critico Mappatura del testo corretto sull’immagine Mappatura del testo corretto sull’immagine Federico Boschetti Modello collaborativo per migliorare l’OCR 26/ 30 Introduzione Metodologia Risultati Discussione Accuratezza delle singole applicazioni per l’OCR Accuratezza del testo allineato sottoposto allo spell-checker Accuratezza dell’apparato critico Mappatura del testo corretto sull’immagine Mappatura del testo corretto sull’immagine Correzione j e s m À n ân SurakoÔsaic fhsÈ toØc panteleÐoic tÀ | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | Originale jesmÀn ân SurakoÔsaic fhsÈ toØc panteleÐoic n | t o ;n djvuxml [...] <LINE> <WORD coords=”114,194,249,233”>jesmÀn</WORD> <WORD coords=”271,187,312,233”>ân</WORD> <WORD coords=”332,187,574,233”>SurakoÔsaic</WORD> <WORD coords=”593,187,678,234”>fhsÈ</WORD> <WORD coords=”697,187,767,234”>toØc</WORD> <WORD coords=”787,187,1007,234”>PanteleÐoic</WORD> <WORD coords=”1027,187,1078,234”>tÀn</WORD> </LINE> [...] Federico Boschetti Modello collaborativo per migliorare l’OCR 26/ 30 Introduzione Metodologia Risultati Discussione Diagramma di flusso Modello collaborativo Conclusione Overview 1 Introduzione 2 Metodologia 3 Risultati 4 Discussione Diagramma di flusso Modello collaborativo Conclusione Federico Boschetti Modello collaborativo per migliorare l’OCR 27/ 30 Introduzione Metodologia Risultati Discussione Diagramma di flusso Modello collaborativo Conclusione Il diagramma di flusso per digitalizzazioni massicce di edizioni di classici Addestramento delle applicazioni per l’OCR (circa cinque pagine per libro). OCR. Allineamento multiplo. Correzioni tramite regular expressions riusabili. Correzioni manuali. Valutazione dell’accuratezza dei testi corretti. Federico Boschetti Modello collaborativo per migliorare l’OCR 27/ 30 Introduzione Metodologia Risultati Discussione Diagramma di flusso Modello collaborativo Conclusione Il modello collaborativo Forze in gioco L’installazione del software per l’OCR e per l’allineamento può presentare serie difficoltà, perché spesso ancora in beta version. Le operazioni di training sono dispendiose in termini di tempo. Uno stesso training set può essere usato su esemplari con caratteristiche simili. Versioni digitali diverse basate su un medesimo esemplare possono essere usate per l’allineamento e quindi per aumentare l’accuratezza complessiva. Federico Boschetti Modello collaborativo per migliorare l’OCR 28/ 30 Introduzione Metodologia Risultati Discussione Diagramma di flusso Modello collaborativo Conclusione Il modello collaborativo Scenario Su archive.org oppure books.google.com non è difficile trovare più di una copia digitale basata sulla medesima edizione o (più raramente) sul medesimo esemplare. Anche se spesso il Greco non è riconosciuto, le parti in caratteri Latini possono essere riusate per migliorare l’accuratezza. Gruppi indipendenti di specialisti interessati alle medesime edizioni possono trarre vantaggio dalla condivisione di trascrizioni digitali, anche se solo parzialmente corrette. Federico Boschetti Modello collaborativo per migliorare l’OCR 28/ 30 Introduzione Metodologia Risultati Discussione Diagramma di flusso Modello collaborativo Conclusione Il modello collaborativo Soluzione proposta Fornire metadata che permettano di identificare in modo univoco non solo autore ed opera, ma anche edizione, esemplare e scansione. Rendere disponibili i training sets, fornendo metadata sulla scansione su cui sono basati e sull’accuratezza raggiunta, grazie a questi, su una o più scansioni. Fornire la ground truth, associata ad oppurtini metadata, di un numero minimo di pagine (cinque?, dieci?) che permetta di valutare l’accuratezza dei diversi OCR e allineamenti applicati alle medesime scansioni. Usare webservices per l’esecuzione dell’OCR. Procedere alla correzione manuale tramite l’eccellente piattaforma collaborativa fornita da Wikisource (wikisource.org) Federico Boschetti Modello collaborativo per migliorare l’OCR 28/ 30 Introduzione Metodologia Risultati Discussione Diagramma di flusso Modello collaborativo Conclusione Conclusione Per andare oltre i digital incunabula è necessario creare un’affidabile biblioteca digitale di edizioni critiche. Una soddisfacente accuratezza dell’OCR per l’intero contenuto di un’edizione critica (testo e apparato) che permetta di abbattere i costi delle correzioni manuali, è uno dei primi, necessari passi per creare una nuova generazione di corpora testuali. Federico Boschetti Modello collaborativo per migliorare l’OCR 29/ 30 Introduzione Metodologia Risultati Discussione Diagramma di flusso Modello collaborativo Conclusione Direzioni future Analisi del layout: riconoscimento automatico degli specchi di testo, dell’apparato critico, delle note, etc. Federico Boschetti Modello collaborativo per migliorare l’OCR 30/ 30 Introduzione Metodologia Risultati Discussione Grazie per l’attenzione Federico Boschetti Modello collaborativo per migliorare l’OCR 30/ 30 Introduzione Metodologia Risultati Discussione Bibliografia S. Feng, R. Manmatha: A Hierarchical, HMM-based Automatic Evaluation of OCR Accuracy for a Digital Library of Books. JCDL 2006, 109–118 (2006) W.B. Lund, E.K. Ringger: Improving Optical Character Recognition through Efficient Multiple System Alignment, JCDL (2009) M. Reynaert: Non-interactive OCR Post-correction for Giga-Scale Digitization Projects. A. Gelbukh (ed.): CICLing 2008, LNCS 4919, 617–630 (2008) M. Reynaert: All, and only, the Errors: more Complete and Consistent Spelling and OCR-Error Correction Evaluation. 6th International Conference on Language Resources and Evaluation 2008, 1867–1872 (2008) C. Ringlstetter, K. Schulz, S. Mihov, K. Louka: The same is not the same - postcorrection of alphabet confusion errors in mixed-alphabet OCR recognition. 8th International Conference on Document Analysis and Recognition, 1, 406–410 (2005) M. Spencer, C. Howe: Collating texts using progressive multiple alignment. Computer and the Humanities, 37, 1, 97–109 (2003) G. Stewart, G. Crane, A. Babeu: A New Generation of Textual Corpora. JCDL 2007, 356–365 (2007) L. Zhuang, X. Zhu: An OCR Post-processing Approach Based on Multi-knowledge. 9th International Conference on Knowledge-Based Intelligent Information and Engineering Systems, 346–352 (2005) Federico Boschetti Modello collaborativo per migliorare l’OCR 30/ 30
Documenti analoghi
Scarica il file PDF
basso livello di confidenza, cioè di probabilità di essere stata riconosciuta correttamente, il programma propone comunque la lettera segnalando l’incertezza. Il
software che svolge l’operazione di...
Abstracts - Universitetet i Bergen
opera) scritte in caratteri latini sono fruibili tramite motori di ricerca, in quanto il testo, creato dall'OCR, è
mappato sull'immagine della pagina. Al contrario, nella quasi totalità dei casi, l...