L'eXtensible Markup Language per gli Studi Umanistici
Roma, 17-21 maggio 2004

Gian Paolo Renello ha aperto un forum di discussione sul corso. Se avete domande, suggerimenti o critiche, potete condividerle all'indirizzo www.melammu.org, forum, XML (previa registrazione).
Per chi non fosse stato eventualmente presente all'ultima lezione, ricordo di contattarmi tramite e-lettera (per una sfortunata coincidenza sabato 22 e domenica 23 maggio è stato trasferito il mio dominio: ora però funziona regolarmente) per richiedere l'attestato di partecipazione al corso.
Ecco infine la copertina del CD!

 

 

(19/V/2004) Post-lezione 2 & 3

(22/V/2004) Post-lezione 7 & 8

Cuneiform Text Markup Language

(22/V/2004) Il materiale presentato è stato estratto dalla brochure illustrativa (bozza del 28 maggio 2003) del progetto DARIOSH (Digital Achaemenid Royal Inscription Open Schema Hypertext). Il progetto è una collaborazione fra l'Istituto Italiano per l'Africa e l'Oriente (IsIAO) e il Museo Archeologico Nazionale d'Iran, Tehran. Il gruppo di lavoro italiano è composto da Adriano Valerio Rossi, Grazia Giovinazzo (Università “L’Orientale” di Napoli), Ela Filippone (Università della Tuscia di Viterbo) e dai relatori del corso.

Per un testo cuneiforme, il CTML si ripropone di codificare le seguenti tipologie di informazioni, indicandone le molteplici interrelazioni esistenti:

  1. Dati archeologici, che possono essere suddivisi sommariamente in due categorie:
    1. dati di localizzazione, consistenti in informazioni riguardo i luoghi di ritrovamento, ovvero tanto il contesto antico in cui le iscrizioni erano collocate quanto il contesto stratigrafico in cui in epoca moderna o contemporanea sono state ritrovate, nonché il loro attuale luogo di conservazione;
    2. la descrizione fisica, consistente in informazioni riguardanti i manufatti iscritti e il loro attuale stato di conservazione.
  2. Dati paleografici ed epigrafici, ovvero informazioni sugli antichi sistemi di scrittura e i grafemi usati.
  3. Dati testuali, ovvero traslitterazioni segno per segno, trascrizioni normalizzate, analisi grammaticali, traduzioni in lingue moderne, note e commentari.
  4. Dati lessicali e linguistici, ovvero glossari e lessici, descrizioni fonologiche, morfologiche e sintattiche.
  5. Bibliografie, ovvero riferimenti alla letteratura primaria e secondaria.

Schemi XML

Gli schemi XML definiscono le regole con cui sono registrati i dati. Stabiliscono inoltre quali tipi di informazioni devono essere archiviate e la struttura in cui devono essere organizzate. Sono stati sviluppati tre schemi strettamente interrelati ma indipendenti. La configurazione modulare risultante si è rivelata estremamente semplice e estensibile. Questi sono i dati gestiti da ciascuno schema:

Cuneiform Text Markup Language

Il Cuneiform Text Markup Language è un formato XML di marcatura testuale sviluppato al fine di scambiare testi cuneiformi traslitterati, trascritti, tradotti e commentati attraverso il web. Fornisce inoltro il supporto per incorporare testo cuneiforme entro articoli di carattere scientifico con note a piè di pagina e bibliografia.

Al fine di prevenire qualsiasi eventuale confusione di caratteri e segni diacritici, i dati sono codificati secondo lo standard UNICODE. Riferimenti a tali caratteri avverrano tramite entità, ad esempio “&along;” per ā o “θ” per θ e così via. Fogli di entità distinti si adatteranno a differenti rappresentazioni visuali dei caratteri diacritici, ad esempio š come sh nei vecchi sistemi privi di supporto UNICODE. E’ inoltre possibile preparare nuovi fogli di entità per rispondere a esigenze personalizzate conformi alla pratica di ciascun utente, ad esempio aleph al posto di a nella traslitterazione dell’antico persiano di W. Hinz.

Il CTML è composto da tre elementi principali: DIV, LOG e NOTE. L’intento primario del linguaggio è la definizione di pochi elementi di base riutilizzabili poi coerentemente in contesti differenti. Questo significa che per i testi complessi si può raggiungere un alto livello di precisione, mantenendo semplice allo stesso tempo la codifica di testi privi di informazioni dettagliate. La complessità della codifica rimane quindi sempre proporzionale alla complessità dei dati.

Gli elementi DIV rappresentano le suddivisioni fisiche di un testo cuneiforme, come le facce di una tavoletta o le colonne e le linee in cui è disposto il testo. Ogni elemento DIV può contenere altri elementi DIV o una sequenza di elementi S. Ogni elemento S rappresenta un segno grafico e può contenere sia dati paleografici come altezza, larghezza e spaziatura sia informazioni correlate alla leggibilità e allo stato di conservazione. Al fine di formare un apparato critico, gli elementi S possono essere racchiusi in elementi APP contenenti una o più letture divergenti del testo. Queste possono rappresentare sia opinioni differenti da studioso a studioso sia testimoni discordanti del testo stesso.

Gli elementi LOG rappresentano la struttura logica di un testo. Ogni elemento LOG può contenere o altri elementi LOG o la trascrizione (normalizzazione) del correlato frammento testuale. Gli elementi LOG possono marcare periodi, frasi, sintagmi, parole e anche affissi morfologici. Gli attributi forniscono pieno supporto per l’analisi grammaticale e sintattica. Inoltre è possibile segnalare nomi propri, divini, geografici etc., o assegnare speciali categorie di significato o funzione. L’elemento APP si comporta con LOG in modo simile a S. Anche la traduzione di un testo può essere marcata con elementi LOG in modo da correlare periodi, frasi e parole fra una fonte antica e la sua traduzione moderna. Un meccanismo simile sincronizza le versioni in lingue differenti di uno stesso testo. L’elemento LOG è estremamente versatile, tanto da poter correlare un suffisso o un sintagma preposizionale babilonese con una singola parola antico persiana.

Gli elementi NOTE contengono annotazioni e commenti con supporto di testo formattato (cioè corsivo, grassetto etc.). E’ inoltre possibile incorporare testo cuneiforme, riferimenti a fonti testuali e rimandi bibliografici che possono poi essere automaticamente indicizzati. Ogni elemento NOTE può essere correlato con uno o più elementi DIV, S, APP o LOG, strutturando così le annotazioni conformemente a ciò cui sono correlate, ad esempio note di paleografia, commentario testuale, problemi di traduzione, etc.

Glossari globali o selettivi con analisi grammaticale, indici di nomi propri o geografici, liste di occorrenze di segni, indici di fonti o rimandi bibliografici citati, possono essere creati istantaneamente attraverso appropriate trasformazioni XSLT. I singoli lemmi possono essere riordinati in ogni momento secondo l’ordine alfabetico, il numero del segno nei sillabari, la classe grammaticale etc. senza ricaricare la trasformazione. Allo stesso modo possono essere eseguite ricerche e analisi statistiche altamente dettagliate.

Bibliographic Resource Markup Language

Il Bibliographic Resource Markup Language è strutturato a partire dall’elemento REF.

Gli elementi REF sono riferimenti bibliografici a libri, articoli, oppure anche a testi e database disponibili on-line. Questo elemento è estremamente versatile, cosicché è possibile rimandare sia a una singola tavoletta che a un corpus di testi. Può contenere inoltre una descrizione fisica del libro o del manufatto iscritto, oltre a dati di localizzazione come, ad esempio, la reperibilità di un determinato libro in una particolare biblioteca o il luogo attuale di conservazione di una tavoletta. Inoltre può registrare informazioni dettagliate sugli autori: note biografiche, istituzione di appartenenza, indirizzo di posta ordinaria ed elettronica, homepage, eventualmente una o più fotografie.

Strumenti

JAVA Data Entry Helper (JDEH) e Cuneiform Parser (JCP)

L’applicazione JAVA Data Entry Helper (programma di aiuto in JAVA per l’input dei dati) dal lato utente è costituita da un’interfaccia user friendly che gestisce la creazione e la modifica di files TMML, CTML e BRML, risparmiando all’utente la noiosa compilazione del formato grezzo XML. Il JDEH è in effetti un potente analizzatore di testo cuneiforme e un sistema di generazione automatizzata di files XML.

Queste sono le linee che ne hanno guidato la realizzazione:

Lo spazio di lavoro dell’applicazione è stato suddiviso verticalmente in due parti.

Nell’area principale posta sulla destra, l’utente può digitare o incollare la traslitterazione di un testo cuneiforme utilizzando le più diverse convenzioni di scrittura (ad esempio sh per š, il punto che indica un determinativo altrimenti posto in apice, le parentesi quadre che racchiudono segni ricostruiti o poco leggibili, etc.). L’analizzatore interno, il JAVA Cuneiform Parser, “traduce” questo testo in elementi DIV, S e LOG conformemente allo schema CTML. L’analizzatore è collegato con il Cuneiform Syllabary Database che provvede una grande quantità di informazioni per ognuno dei segni riconosciuti.

L’area a sinistra riproduce in una struttura gerarchica ad albero gli elementi correlati secondo lo schema TMML. Selezionando con il mouse uno degli elementi, l’utente ne può modificare facilmente i valori e gli attributi. I nodi dell’albero possono essere espansi o compressi quando si ha a che fare con grandi quantità di dati. Nuovi elementi (come ad esempio un ulteriore riferimento bibliografico) possono essere aggiunti su richiesta dell’utente.

Selezionando il commando “salva” o “salva con nome” dal menù, il JAVA Data Entry Helper salva i dati in formato XML, mantenendo anche una copia di backup del testo grezzo cuneiforme. Files XML esistenti possono essere aperti per ulteriori modifiche.

Cuneiform Syllabary Database (CSDB)

Il Cuneiform Syllabary Database contiene informazioni dettagliate per ciascun valore attestato nella scrittura cuneiforme accadica ed elamica. Dando la lettura di un segno, il database fornisce informazioni quali le lingue e i periodi in cui era utilizzato e l’eventuale uso come logogramma o determinativo. Collegandosi a questo database il JAVA Cuneiform Parser può inoltre riconoscere la lingua che sta analizzando senza alcun bisogno di indicazioni esplicite da parte dell’utente.

Il database contiene anche una tabella estensibile con informazioni sulle convenzioni di scrittura dei segni diacritici e di caratteri speciali. I dati estratti dal database sono incorporati nel file CTML in modo da evitare ulteriori connessioni al database, rendendo agevole l’interscambio dei testi cuneiformi.

Alcuni esempi di trasformazione XSL dei dati

Gli esempi presentati sono stati creati automaticamente applicando diverse trasformazioni XSLT ad un unico file di dati, dsab.xml, ottenuto inserendo nel JAVA Data Entry Helper il testo grezzo dell’iscrizione trilingue della statua di Dario ritrovata a Susa (DSab). Prima di applicare le trasformazioni, e lavorando sempre nel JAVA Data Entry Helper, è stata effettuata l’analisi sintattica e grammaticale. Man mano che la base di dati aumenta, il JAVA Data Entry Helper potrà dedurre l’analisi grammaticale cercando riscontri nei testi già codificati.

Esempi di trasformazione XSL applicati ad un'iscrizione trilingue sassanide

L'iscrizione codificata è quella di Šapur I (241-272 d.C.) a Naqš-e Rustam. Il testo è stato tratto da:

Michael Back (1978) Die Sassanidischen Staatsinschriften: Studien zur Ortographie und Phonologie des Mittelpersischen der Inschriften zusammen mit einem etymologischen Index des mittelpersischen Wortgutes und einem Textcorpus der behandelten Inschriften (Acta Iranica. Encyclopédie permanente des études iraniennes, volume 18), Téhéran-Liège.

Il CD-rom

Il CD-rom contiene materiale liberamente scaricabile dalla rete. Tuttavia va inteso come destinato ad uso esclusivamente personale dei partecipanti al corso.
xml_course.pdfIl depliant del corso.
encoding.htmIniziative per la codifica digitale di testi antichi. Cliccando sui collegamenti [CDrom] viene visualizzato il materiale incluso nel CD-rom all'interno delle seguenti cartelle.
links.htmCollegamenti a siti riguardanti il Vicino Oriente antico con due ampie sezioni dedicate alle risorse bibliografiche e agli strumenti UNICODE. Cliccando sui collegamenti [CDrom] viene visualizzato il materiale già incluso nel CD-rom all'interno delle seguenti cartelle.
\articlesArticoli relativi alla codifica digitale dei testi cuneiformi. Contiene anche due cartelle sulla storia del World Wide Web e di HTML.
\coursesTre corsi XML e un manuale di riferimento HTML in formato elettronico.
\examplesGli esempi HTML, XML e XSLT presentati durante il corso. I files bibliography.htm, ctml.css, bibliography.xml e brml.xsl mostrano in azione le diverse caratteristiche dei rispettivi linguaggi e sono stati composti appositamente per essere studiati.
\fontsAlcuni fonts UNICODE fra cui Arial UNICODE MS (arialuni.ttf) e Titus Cyberbit Basic (tituscbz.ttf). Per installare i fonts, una volta scompattato l'eventuale archivio, selezionare "Tipi di carattere" nel "Pannello di controllo" di Windows.
\iso690Lo standard ISO-690 per i riferimenti bibliografici.
\micorsoft_internationalizationAlcune pagine dal sito Internet della Microsoft riguardanti l'internazionalizzazione del sistema operativo Windows.
\mirrorsReplica off-line di diversi siti fra cui UNICODE, le risorse UNICODE di Alan Wood, TEI, XStar e OSIS. Si possono consultare cliccando sul relativo file .tpp dopo aver installato il software Teleport (utilizzato per scaricarli dalla rete; il programma di installazione è nella cartella \software) oppure ricercando nelle varie cartelle il file index.htm(l). Per motivi di spazio, alcune sezioni dei suddetti siti ritenute meno rilevanti sono state rimosse.
\softwareIl materiale è suddiviso in quattro cartelle corrispondenti alle seguenti categorie: software bibliografico (End Note, Pro Cite, Biblio Express), editors UNICODE (EmEditor, UniPad, UniEdit e altri), editors XML (XMLspy, Peter XML Editor e molti altri), keyboard hookers (MultiKey, Keyman, Aksharamala per le scritture indiane, Microsoft Visual Keyboard, Microsoft Keyboard Layout Creator). UniPad e UniEdit utilizzano un font UNICODE standard interno e visualizzano quindi sempre correttamente il testo. Antioch (keyboard hooker per scrivere in greco ed ebraico) e Classical Text Editor (CTE, editor per edizioni critiche) si trovano nelle cartelle dei relativi siti Internet in \mirrors.
\w3c_specificationsLa documentazione ufficiale del World Wide Web Consortium relativa a HTML, CSS, DOM, XML, XML Schema, XSLT, XLink (incluso XPath).

©2000-2004 Copyright by Gian Pietro Basello, Stefano Buscherini & Gian Paolo Renello
ElamIT.net <www.elamit.net> (old URL: http://digilander.libero.it/elam)
Write to <elam@elamit.net>

Napoli, 11/V/2004; Persiceto, 14/V/2004; Napoli, 22/V/2004

Il materiale (testi e immagini) contenuto in questo sito può essere liberamente utilizzato per fini personali, didattici, non commerciali. Non può essere riprodotto senza indicarne correttamente l'autore e l'indirizzo internet (URL). Sarà gradita la segnalazione a <elam@elamit.net> di ogni uso o collegamento al materiale contenuto in questo sito. Grazie!

The contents of this site, including all images and text, are for personal, educational, non-commercial use only. The contents of this site may not be reproduced in any form without proper reference to Author and Internet Address (URL). Please report to <elam@elamit.net> every use or link to these contents. Thank you!