Librerie digitali
Transcript
Librerie digitali
Gestione di testi Come si estrae il testo? C’è altro oltre al testo? Quali sono i metadati di interesse? Quale formato è opportuno usare per memorizzare il testo nella librearia digitale? Librerie digitali Gestione dei testi 2 Gestioni di testi Digitalizzazione di testi Molti dei dati memorizzatti in una libreria digitale sono testi/libri Insiemi di parole e immagini Le operazioni da eseguire per la digitalizzazione dei testi dipende fortemente dal “formato” dei dati Il testi che devono essere introdotti nella libreria digitale si presentano in vari formati Materiale cartaceo Documenti elettronici Scansione di documenti cartacei (=immagini) File word, pdf, latex, testi in formato ASCII 3 Digitalizzazione di testi 4 Digitalizzazione di testi Materiale cartaceo Scansione del documento Estrazione del testo dalle immagini Optical Character Recognition (OCR) Estrazione delle immagini contenute nel testo Identificazione della struttura del testo Capitoli, sezioni, titoli,... Salvataggio dei dati e dei metadati Documenti elettronici Scansioni di documenti cartacei e/o immagini Stesso procedimento usato per i documenit cartacei con la sola esclusione della fase di scansione 5 File word, pdf, latex, testi in formato ASCII Estrazione del testo Estrazione delle immagini Idenfificazione/estrazione della struttura del testo Facile con word, latex Difficile per semplici testi ASCII Salvataggio dei dati e dei metadati 6 1 CCS – Offices Digitalizzazione di testi Input Digitalizzazione di testi docWORKS engine Per ogni testo nella libreria digitale si memorizzano Il documento elettronico originale o la scansione Output Image Pre-Processing Scanning Correction Layout Analysis document Character Recognition Import Export Structural Analysis del documento cartaceo I metadati Versioni diverse dello stesso testo Word, testo ASCII, Immagine, .. Utile per permettere un accesso più facile ad utenti diversi Sommari e riassunti del testo Facilita l’analisi dei risultati da parte degli utenti METS ALTO TIFF JPEG Rules DB 7 CCS – Offices 8 CCS – Offices Ci sono molte altre informazioni OCR: esempio di output Pagina con il titolo THE Titolo della serie di volumi AMER IC AN MISSION AR Y. Vo.. XXXII JANU AR Y, 1878 No. 1 Numero dell‘issue American Missionary Association 1877 - 1888 xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx Data di pubblicazione Numero del volume Motto 9 CCS – Offices 10 CCS – Offices docWorks: Analisi della struttura docWorks: Analisi della struttura FRONT Subcapitolo 1 MAIN Subcapitolo 2 Capitolo 1 BACK Capitolo 2 11 12 2 CCS – Offices CCS – Offices docWorks: Analisi della struttura docWorks: esempio di digitalizzazione di un libro Prefazione Frontespizio Indice Informazioni editoriali 13 CCS – Offices 14 CCS – Offices docWorks: esempio di digitalizzazione di un libro docWorks: esempio di digitalizzazione di un libro 15 CCS – Offices docWorks: tipo di struttura logica utilizzata (METS) Metadata Encoding and Transmission Standard (METS) METS Un documento METS può avere 7 sezioni METS Header Metadati descrittivi Metadati amministrativi (e tecnici) Sezione relativa ai file che rappresentano il FILEID DC ALTO FILEGRP text block Coo rdin ates EID PHYS FILEID DIV (issue) ALTO DIV (contrib.) text block ord Co in a documento Mappa strutturale Link struttutali Sezione Behavior tes BEG IN DIV (chapter) fptr fptr LT XS seq T SL X DIV (paragraph) IN DCMD_#CONT# DCMD_CHAP# EID FIL DIV (volume) DCMD_ISSUE# BE G DCMD_PHYS DCMD_ELEC FI L LOGICAL 16 Those who have read the History of Columbus will, doubtless, remember the character and exploits ... Tutti gli esempi sono estratti da http://www.loc.gov/standards/mets/METSOverview.v2.html 17 18 3 METS Header Metadati descrittivi Descrive il documento/oggetto Possono esserci riferimenti a metadati Esterni (<mdRef>...</mdRef>) Interni (<mdWrap>... </mdWrap>) <metsHdr CREATEDATE="2003-07-04T15:00:00“ RECORDSTATUS="Complete"> <agent ROLE="CREATOR" TYPE="INDIVIDUAL"> <name>Jerome McDonough</name> </agent> <agent ROLE="ARCHIVIST” TYPE="INDIVIDUAL"> <name>Ann Butler</name> </agent> </metsHdr> Riferimento a metadati esterni <dmdSec ID="dmd001"> <mdRef LOCTYPE="URN" MIMETYPE="application/xml" MDTYPE="EAD" LABEL="Berol Collection Finding Aid">urn:xnyu:fales1735</mdRef> </dmdSec> 19 20 Metadati amministrativi e tecnici Metadati descrittivi Riferimento a metadati interni (embedded) Sezione <amdSec>...<amdSec> Metadati tecnici Sezione <techMD>...</techMD> Formato, processo di creazione, ... <dmdSec ID="dmd002"> <mdWrap MIMETYPE="text/xml" MDTYPE="DC" LABEL="Dublin Core Metadata"> <xmlData> <dc:title>Alice's Adventures in Wonderland</dc:title> <dc:creator>Lewis Carroll</dc:creator> <dc:date>between 1872 and 1890</dc:date> <dc:publisher>McCloughlin Brothers</dc:publisher> <dc:type>text</dc:type> </xmlData> </mdWrap> </dmdSec> Metadati relativi alla proprietà intellettuali e copyright Sezione <rightsMD>...</rightsMD> Informazioni su copyright, licenze, .. 21 Metadati amministrativi e tecnici 22 Sezione relativa ai file Metadati relativi alla “sorgente” dei dati Sezione <sourceMD>...</sourceMD> Informazioni descrittive e amministrative sull’oggetto (dato) che è stato incluso nella libreria digitale Metadati sulla provenienza dei dati Sezione <digiprovMD>...</digiprovMD> Provenienza dei dati e trasformazioni/migrazioni applicate sui dati 23 La sezione dei file è usata per Riportare i riferimenti ai file presenti nella DL Raggruppare file che sono “legati” tra di loro Elemento <fileGrp>...</fileGrp> Esempi di raggruppamenti: Documenti originali/master Versione PDF dei documenti .... 24 4 Sezione relativa ai file Mappa strutturale <fileSec> <fileGrp ID="VERS1"> <file ID="FILE001" MIMETYPE="application/xml" SIZE="257537" CREATED="2001-06-10"> <FLocat LOCTYPE="URL">http://dlib.nyu.edu/tamwag/beame.xml</FLocat> </file> </fileGrp> <fileGrp ID="VERS2"> <file ID="FILE002" MIMETYPE="audio/wav" SIZE="64232836" CREATED="2001-05-17" GROUPID="AUDIO1"> <FLocat LOCTYPE="URL">http://dlib.nyu.edu/tamwag/beame.wav</FLocat> </file> </fileGrp> <fileGrp ID="VERS3" VERSDATE="2001-05-18"> <file ID="FILE003" MIMETYPE="audio/mpeg" SIZE="8238866" CREATED="2001-05-18" GROUPID="AUDIO1"> <FLocat LOCTYPE="URL">http://dlib.nyu.edu/tamwag/beame.mp3</FLocat> </file> </fileGrp> </fileSec> Sezione <structMap>...</structMap> Un insieme gerarchico di elementi <div> per facilitare la navigazione da parte degli utenti Puntatori METS <mptr> Usati per referenziare altri file METS separati Puntatori a file <fptr> Usati per referenziare file descritti nella sezione dei file all’interno del file METS attuale 25 Link strutturali 26 Link strutturali Sezione <smLink>...<smLink> Usata per codificare hyperlink tra sottosezioni <div ID="P1" TYPE="page" LABEL="Page 1"> <fptr FILEID="HTMLF1"/> <div ID="IMG1" TYPE="image" LABEL="Image Hyperlink to Page 2"> <fptr FILEID="JPGF1"/> </div> nella sezione mappa strutturale Usata per gestire l’archiviazione di siti web <div ID="P2" TYPE="page" LABEL="Page 2"> <fptr FILEID="HTMLF2"/> </div> ********** <smLink from="IMG1" to="P2" xlink:title="Hyperlink from JPEG Image on Page 1 to Page 2" xlink:show="new" xlink:actuate="onRequest" /> 27 Esempi di uso concreto dello standard METS Sezione Behavior Section <behavior>...</behavior> Usata per associare executable behaviors con il Library of Congress Audio-Visual Prototype Project http://www.loc.gov/rr/mopic/avprot/metsmenu2.html contenuto del file METS Puntatori a programmi, codici eseguibili <mechanism>...</mechanism> <METS:behavior ID="DISS1.1" STRUCTID="S1.1" BTYPE="uva-bdef:stdImage" CREATED="2002-05-25T08:32:00" LABEL="UVA Std Image Disseminator" GROUPID="DISS1" ADMID="AUDREC1"> <METS:interfaceDef LABEL="UVA Standard Image Behavior Definition" LOCTYPE="URN" xlink:href="uva-bdef:stdImage"/> <METS:mechanism LABEL="A NEW AND IMPROVED Image Mechanism" LOCTYPE="URN" xlink:href="uva-bmech:BETTER-imageMech"/> </METS:behavior> 28 Fedora Digital Repository (UVa, Cornell et al.) http://www.fedora.info DSpace (MIT et al.) http://www.dspace.org Un numero elevato di strumenti per l’acquisizione e la trasformazione di libri/testi 29 30 5 Alcuni sistemi per la conversione dei testi Alcuni sistemi per la conversione dei testi The IU METS Page Turner Jane Johnson Collection http://webapp1.dlib.indiana.edu/collections/lilly/janejoh nson Brittle Books Collection http://urania.dlib.indiana.edu:8080/metsnav/default/wel The Harvard Online Reference Shelf http://hul.harvard.edu/huarc/refshelf/ The Metadata Engine Project (MetaE) http://meta-e.aib.uni-linz.ac.at/ come.doc University of Michigan Text Center http://www.hti.umich.edu/ 31 32 6
Documenti analoghi
Metadati - E-LIS repository
può risultare molto più rigorosa anche rispetto alle analisi condotte fino ad oggi negli
ambienti della catalogazione tradizionale.
Con l'incremento dei dati nel Web, ci sono molte iniziative volte...