Foto del docente

Angelo Di Iorio

Ricercatore a tempo determinato tipo b) (senior)

Dipartimento di Informatica - Scienza e Ingegneria

Settore scientifico disciplinare: INF/01 INFORMATICA

Temi di ricerca

Parole chiave: Tecnologie Web Diff e versionamento Formattazione e paginazione Linguaggi di mark-up Document engineering Semantic Publishing

Le aree di ricerca principali sono: document engineering, digital publishing, linguaggi di mark-up e tecnologie web.

Alcuni temi di particolare interesse:

- confronto automatico tra documenti e versionamento

- modelli per descrivere e valutare modifiche su contenuti e struttura

- formattazione, paginazione e templating

- ambienti di authoring e pubblicazione di contenuti digitali

- analisi di documenti digitali e conversioni tra formati

- semantic publishing 

- metadati   - estrazione e generazione automatica di annotazioni

Gli ambiti principali della mia ricerca sono: document engineering, linguaggi di markup, digital-publishing,
applicazioni e tecnologie Web, content management e information systems.
Il mio percorso è iniziato con la tesi di Laurea dal titolo ‘Un ambiente di editing collaborativo basato
su versionamento'. L'obiettivo della tesi era lo sviluppo di un sistema di authoring distribuito per permettere
a qualunque utente di modificare qualunque pagina web, creando una propria versione personalizzata.
Lavorando alla tesi, ho sviluppato un modello di memorizzazione di frammenti multi-autore
(legato ai primi sistemi xanalogici e alle origini del World Wide Web) e un meccanismo di differenziazione
e ricostruzione di versioni multiple dello stesso documento. Un tema collegato è stato lo studio di tecniche/
strategie/ambienti per semplificare i processi di authoring e ridurre le differenze autore/lettore in
ambito Web.
Ho continuato a coltivare questo interesse negli anni successivi come coordinatore del progetto IsaWiki,
per la realizzazione di un ambiente di personalizzazione delle pagineWeb, e di pubblicazione multi-canale
dei contenuti estratti dalle stesse pagine. Parte del progetto è stata sviluppata durante il mio periodo di
visiting alla Brown University, in collaborazione con David Durand.
Sulla stessa linea di ricerca, ho poi organizzato il ‘1st ACM Workshop on New Forms of Xanalogical
Storage and Functions'. Ho continuato a studiare linguaggi e sistemi per l'inclusione di frammenti di
contenuto e per il controllo di versioni multiple all'interno del progetto TED, durante il mio periodo di
visiting ai laboratori di ricerca HPLabs di Bristol, UK.
Di recente ho lavorato ad un modello per la rappresentazione delle operazioni ‘naturali' eseguite dagli
autori sui documenti digitali e, conseguentemente, ad un algoritmo di grado di riconoscere queste operazioni
e ricostruire fedelmente documenti multi-versione. Continuo a lavorare a diff e versionamento sono
stabilmente il chair del workshop ‘DChanges: Detection, Storage and Visualization - ACM Symposium on
Document Engineering '.
Allo studio della rappresentazione del contenuto testuale, si affianca lo studio delle componenti strutturali
e semantiche nei documenti elettronici. Questo è stato il tema principale del mio dottorato che mi ha
portato alla definizione di un modello di segmentazione, chiamato Pentaformato, e descritto nella tesi ‘A
pattern-based segmentation of digital documents: model and implementation'.
Nella tesi ho studiato i ‘pattern strutturali' ed ho proposto un modello di semplificazione radicale dei
documenti elettronici secondo cui ogni documento può essere diviso in componenti indipendenti e rappresentato
seguendo pochi pattern combinati con precise regole di composizione. Il modello proposto nella
tesi è stato adottato con successo in diversi progetti nel campo dell'editing collaborativo su Web (IsaWiki),
dell'editoria digitale (IsaPress), dell'e-learning (IsaLearning) e della rappresentazione/condivisione della
conoscenza (WikiFactory). Particolarmente rilevanti sono stati gli studi su strategie e strumenti per la
conversione automatica di documenti e il ri-uso delle componenti atomiche.
Nel periodo post-tesi ho continuato a interessarmi di documenti elettronici cambiando leggermente il
focus. Mi sono interessato, infatti, soprattutto della presentazione di tali documenti e di meccanismi
avanzati di templating e formattazione. Ho studiato, ad esempio, meccanismi per la rappresentazione
astratta e topologica dei layout e la loro generazione automatica.
Mi sono occupato soprattutto di editoria digitale e di qualità dei layout per la stampa cartacea. Ho lavorato
ad un algoritmo per la produzione di PDF ad alta qualità tipografica, studiando strategie per il copyfitting,
per la rappresentazione di proprietà variabili (e relative variazioni) e la riorganizzazione dinamica
dei contenuti. Questi risultati sono confluiti nelle specifiche di XSL-FO, il linguaggio di formattazione
proposto dal W3C, poichè ho partecipato attivamente ai lavori del working group.
Di recente mi sto occupando di Semantic Publishing e sto investigando il rapporto tra struttura dei documenti
e semantica, con particolare attenzione al modo in cui l'organizzazione logica/strutturale veicola
informazioni semantiche. L'interesse per il Semantic Web, sviluppato negli ultimi anni, è collegato soprattutto
alla pubblicazione e generazione (automatica e semi-automatica) di annotazioni semantiche.