Tu sei qui:

AdVVent: Adversarial Venture, the Mixed Blessing of Adversarial Attacks

PRIN 2022 Lisanti

Abstract

Sebbene l’apprendimento automatico adversarial sia stato tradizionalmente considerato come una minaccia per la sicurezza dei sistemi di intelligenza artificiale, il progetto AdVVent – The Mixed Blessing of Adversarial Attacks ha indagato la possibilità di trasformare tali perturbazioni da attacchi dannosi a strumenti costruttivi per la protezione dei dati, la robustezza dei modelli e la trasparenza dei sistemi di AI. Il progetto si è sviluppato lungo due principali rami di ricerca. Da un lato, ha analizzato la robustezza delle reti neurali in contesti sia adversarial sia naturali, studiando meccanismi di difesa come l’adversarial training e quantificando i compromessi tra sicurezza e prestazioni predittive. Dall’altro, ha sviluppato perturbazioni “benigne” finalizzate alla tutela di dati multimediali contro manipolazioni non autorizzate da parte di sistemi generativi. Il progetto, realizzato dalle unità operative di Sapienza Università di Roma e Alma Mater Studiorum – Università di Bologna, ha coperto l’intero spettro dell’adversarial machine learning, dalle basi teoriche e interpretative fino alla definizione di sistemi proattivi di difesa. La sinergia tra le competenze dell’unità UNIROMA1 e quelle dell’unità UNIBO ha consentito di reinterpretare i classificatori robusti come modelli generativi di tipo Energy-Based Model, di sviluppare nuove tecniche per stabilizzare l’adversarial training e di progettare strumenti capaci di rilevare e localizzare manipolazioni prodotte da modelli generativi. L’obiettivo generale del progetto è stato pienamente raggiunto: le perturbazioni adversarial sono state trasformate da fattore di vulnerabilità ad una risorsa per il rispetto della privacy. I risultati ottenuti contribuiscono alla definizione di principi di “Safety-by-Design” per l’AI generativa, con ricadute rilevanti nei campi della protezione dei contenuti digitali, della rilevazione dei deepfake e della valutazione della robustezza dei modelli di nuova generazione.

Risultati raggiunti

Il progetto ha conseguito i principali obiettivi scientifici, producendo risultati di rilievo sia sul piano teorico sia su quello applicativo. Nell’ambito del rafforzamento delle difese dei sistemi di AI, è stato proposto un approccio che rilegge i classificatori discriminativi robusti come Energy-Based Models. Tale approccio ha permesso di comprendere diversi fenomeni dell’adversarial training, tra cui il robust overfitting, il catastrophic overfitting e la natura generativa dei modelli robusti. Sul versante della protezione proattiva dei dati multimediali, è stato sviluppato il framework PADL – Perturb, Attend, Detect, and Localize. Diversamente dai metodi passivi, PADL introduce un watermark specifico per ogni immagine, con l’obiettivo di migliorare la robustezza del rilevamento e distinguere se l’immagine sia autentica e non manipolata oppure potenzialmente alterata. Il framework utilizza un encoder per iniettare perturbazioni image-specific, e un decoder in grado di individuare non solo se l’immagine è stata modificata, ma anche le regioni dell’immagine che sono state oggetto di manipolazione. Il progetto ha inoltre ampliato il proprio ambito rispetto alla proposta iniziale per affrontare le nuove sfide poste dai Diffusion Models, dai Large Language Models e dai Vision-Language Models. È stato definito un modello teorico per l’adversarial training nei modelli di diffusione, dimostrando che l’imposizione di proprietà di equivarianza migliora la resilienza a corruzioni dei dati e ad attacchi iterativi. Nell’ambito degli LLM, è stato introdotto un modello per il rilevamento training-free delle allucinazioni, mentre un secondo approccio ha permesso di individuare prompt dannosi nei vision-language models (VLM) mediante geometria non euclidea. Questi risultati estendono la robustezza adversarial alle architetture di AI oggi più critiche e confermano la capacità del progetto di restare allineato allo stato dell’arte. Un ulteriore risultato riguarda il potenziale generativo e la scalabilità dei modelli robusti. È stato sviluppato Implicit Inversion, mostrando che i modelli discriminativi come CLIP possono agire come decoder senza addestramento aggiuntivo. Inoltre, il metodo MASS – MoErging through Adaptive Subspace Selection consente di fondere più modelli specializzati in un unico insieme di parametri, riducendo i costi computazionali e mantenendo elevate prestazioni. Sul piano della valutazione sperimentale, il progetto ha realizzato il PRISM Benchmark, un dataset progettato per la rilevazione di immagini generate artificialmente e per la valutazione dei detector in presenza di: i) diverse intensità di manipolazione, ii) bias nel processo generativo e iii) differenti architetture. Il benchmark risponde alla necessità di disporre di dati di valutazione più rigorosi e meno distorti rispetto ai dataset esistenti, offrendo alla comunità scientifica uno strumento utile per misurare la robustezza dei sistemi di rilevazione. I risultati ottenuti durante il progetto sono stati pubblicati e presentati presso le conferenze di massimo rilievo nell’ambito della computer vision e dell’intelligenza artificiale, come ad esempio la European Conference on Computer Vision (ECCV), l’International Conference on Learning Representation (ICLR) e la conferenza di Computer Vision and Pattern Recognition (CVPR). Inoltre, il progetto AdVVent ha prodotto pubblicazioni su riviste come IEEE Access ed Elsevier Computer Vision and Image Understanding (CVIU).

Dettagli del progetto

Responsabile scientifico: Giuseppe Lisanti

Strutture Unibo coinvolte:
Dipartimento di Informatica - Scienza e Ingegneria

Coordinatore:
"Sapienza" Universita' Di Roma(Italy)

Contributo totale Unibo: Euro (EUR) 91.800,00
Durata del progetto in mesi: 29
Data di inizio 28/09/2023
Data di fine: 28/02/2026