Solutore in loco resiliente ai guasti per sistemi lineari

L'invenzione si riferisce ad un solutore di sistemi lineari di equazioni, e inversione di matrici, di grandi dimensioni con elaboratori per il calcolo in parallelo o distribuito, dotati di tecniche per resistere al guasto di uno o più elaboratori durante la computazione.

Titolo brevetto Solutore in loco resiliente ai guasti per sistemi lineari
Area Industria, Digitale e Sicurezza
Titolarità ALMA MATER STUDIORUM - UNIVERSITA' DI BOLOGNA
Inventori Daniela Loreti, Marcello Artioli
Ambito territoriale di tutela Italia, con possibilità di estensione internazionale
Stato Disponibile per accordi di sviluppo, opzione, licenza e altri accordi di valorizzazione
Keywords Solutore esatto, Esecuzione in-loco, Resilienza ai guasti, Sistemi lineari, Architetture ad Alte Prestazioni, Calcolo parallelo
Depositato il 13 ottobre 2022

Negli ultimi anni, le tecnologie sviluppate nell’ambito High Performance Computing (HPC) hanno permesso di realizzare supercomputer ad alte prestazioni che raggiungono potenze di calcolo elevatissime. Tali architetture vengono utilizzate per portare a termine (in tempo utile) computazioni ad alta complessità sfruttando i benefici derivanti dall’esecuzione in parallelo su più nodi di calcolo. Una computazione particolarmente onerosa (e pervasiva di vari ambiti scientifici) è la soluzione di sistemi lineari. Tuttavia, proprio a causa dell’elevato numero di componenti presenti, i sistemi HPC si trovano oggi a fronteggiare il problema dell’affidabilità e della resilienza ai guasti durante la computazione. Infatti, quando questi sistemi si trovano ad eseguire computazioni onerose in termini di risorse e di tempo impiegato, non è infrequente che incorrano in malfunzionamenti. È pertanto necessario evitare che un guasto che coinvolge un numero limitato di nodi vada ad inficiare tutta la computazione.

L’invenzione in oggetto propone un meccanismo ABFT per dotare di resilienza ai guasti il processo di soluzione di sistemi lineari senza incorrere nella svantaggiosa necessità di fermare periodicamente la computazione e senza richiedere, in caso di guasto, il rollback all’ultimo stato salvato (come previsto dai meccanismi di checkpointing). Contemporaneamente, il metodo proposto minimizza l’occupazione di memoria consentendo un’esecuzione in-place.

Grazie alle sue caratteristiche di limitata occupazione di memoria e resilienza ai guasti, il metodo proposto risulta particolarmente adatto ad essere applicato in ambienti HPC, all’interno di librerie di sistema o di software per il calcolo scientifico.

Conferisce infatti fault tolerance alla risoluzione di grandi sistemi lineari (o fattorizzazione di matrici) senza aumentare l’occupazione di memoria e senza incorrere nei tradizionali svantaggi dei sistemi per la resilienza di tipo checkpoint/restart.

Inoltre, il metodo permette una facile pianificazione del grado di resilienza che si vuole ottenere. Mentre nel caso di checkpoint/restart la frequenza di checkpointing dovrebbe essere commisurata alla durata dell’operazione (dato difficilmente stimabile a priori), grazie all’invenzione proposta è possibile conferire resilienza da un determinato numero di guasti contemporanei semplicemente allocando un uguale numero di nodi di checksum aggiuntivi

Pagina pubblicata il: 17 ottobre 2022