Temi di ricerca estesi
Iniziamo a descrivere in maniera estesa il primo e più recente
tema di ricerca: Metodi Entropici e Distanze di
Similarità
Negli ultimi anni si è resa disponibile una grande quantità di
dati sotto forma di sequenze simboliche e l'afflusso
mantiene un andamento crescente.
Per citare solo alcuni esempi: sequenze biologiche come
genomi e proteine, testi scritti, pagine web, immagini e files
musicali, sequenze temporali biomediche, fisiche, geologiche, dati
scientifici ottenuti da modellizzazioni numeriche.
Tutto ciò rende necessario e sempre più interessante lo sviluppo
di tecniche e metodologie utili al trattamento ed elaborazione di
dati di questa natura, spesso non strutturati.
L'elenco dei problemi più rilevanti a questo riguardo comprende:
quantificare il contenuto informativo, comprimere, catalogare e
comparare stringhe simboliche.
Ciò si traduce nei vari contesti applicativi nello sviluppo di
motori di ricerca efficienti, nel "data mining", nel riconoscimento
del soggetto e dell'autore di un testo, nella classificazione e
segmentazione di sequenze genomiche e proteiche a seconda della
loro funzionalità
La ricerca si propone di sviluppare tecniche matematiche e
algoritmi numerici innovativi adatti all'analisi del contenuto
informativo di sequenze simboliche.
Le idee fondamentali che stanno alla base dei metodi che
intendiamo sviluppare provengono da solide e tradizionali aree di
ricerca e si collocano in quell'area di intersezione tra la
Teoria dell'Informazione, la Teoria dei Sistemi Dinamici e la
Meccanica Statistica.
In particolare stiamo investigando essenzialmente tre classi di
metodi che ci permettono di quantificare il contenuto informativo
relativo e le eventuali similarità tra diverse sequenze simboliche:
metodi entropici basati sul cosiddetto algoritmo di Merhav and
Ziv per il calcolo dell' entropia relativa e sue
implementazioni attraverso opportuni algoritmi di compressione,
distanze di similarità fondate sul concetto di complessità di
Kolmogorov relativa opportunatamente approssimata con metodi
empirici e infine metodi basati sull'analisi dei cosiddetti
n-grammi.
Dal punto di vista metodologico, pur essendo le applicazioni ad
altre aree disciplinari un obiettivo di questa linea di ricerca, le
indicazioni sulle direzioni da prendere per affinare e sviluppare
nuovi metodi entropici o nuove distanze di similarità possono
provenire unicamente da risultati matematici rigorosi.
Tale considerazione necessariamente implica l'introduzione di
modelli matematici opportuni per la generazione di sequenze
simboliche con ben definite propriet\ah statistiche o
probabilistiche.
Questo viene fatto sfruttando le tecniche e i risultati offerti
in particolare dalla Teoria dei Sistemi Dinamici e dalla Meccanica
Statistica. I relativi modelli vengono poi studiati con le tecniche
di teoria ergodica, e con le tecniche sia analitiche che
combinatorie sviluppate attorno ai teoremi entropici.
Ulteriori strumenti matematici necessari provengono dalle
tecniche sviluppate intorno alla dimostrazioni di ottimalità degli
algoritmi di compressione e dalle tecniche di ottimizzazione
combinatoria.
Oltre all'investigazione delle proprietà matematiche dei metodi
proposti, obiettivo della ricerca è quella di sviluppare algoritmi
e relative implementazioni software per specifiche applicazioni
alle problematiche appena descritte, a grandi linee: - sviluppo di
metodi e relativi algoritmi per l'attribuzione d'autore di testi
letterari anonimi. - sviluppo di metodi quantitativi per la
classificazione e l'organizzazione di grandi database testuali o
musicali - sviluppo di algoritmi per l'analisi del contenuto
informativo dei segnali cardiaci, finalizzati alla realizzazione di
metodi semi-automatici per la refertazione e la classificazione di
patologie cardiache.
Teoria Ergodica, Quantum Chaos e Teoria dei
numeri:
Questedirezioni di ricerca, più consolidate nel tempo, si
avvalgono delle collaborazioni con A. Knauf, S.Isola, T. Prosen e
C. Bonanno.
Essenzialmente ci proponiamo di analizzare il comportamento
spettrale del Laplaciano magnetico su particolari superfici non
compatte a curvatura costante negativa, con cohomologia non banale.
In particolare, i nostri studi si focalizzano sul comprendere
alcune recenti definizioni di “trapping cusp” per la superficie
Gamma(2).
Recenti ed interessanti relazioni tra le funzioni L, stati di
scattering e proprieta' statistiche di sistemi dinamici
intermittanti (ad esempio la mappa di Farey) ci hanno convinto che
l'esplorazione matematica di opportuni laplaciani magnetici per
Gamma(2) sia una strada piuttosto promettente, non solo di per sè,
ma anche per possibili applicazioni alla teoria dei numeri e alla
comprensione delle cosiddette risonanze classiche e
quantistiche.