91407 - LABORATORIO DI GENOMICA COMPARATA

Anno Accademico 2022/2023

  • Docente: Fabrizio Ghiselli
  • Crediti formativi: 6
  • SSD: BIO/05
  • Lingua di insegnamento: Italiano
  • Modalità didattica: Convenzionale - Lezioni in presenza
  • Campus: Bologna
  • Corso: Laurea Magistrale in Biodiversità ed evoluzione (cod. 5824)

Conoscenze e abilità da conseguire

Al termine del corso, lo studente avrà acquisito la padronanza dell'utilizzo di metodiche bioinformatiche per il trattamento e l'analisi di dati genomici e trascrittomici. Verranno quindi fornite le basi teoriche e pratiche per l'analisi di dati derivanti da High Throughput Sequencing tramite software specifici. Sarà eseguita una pipeline di analisi dei dati che comprenderà quality check e filtraggio delle raw reads (single/paired ends), assemblaggio de novo di trascrittomi/genomi, mapping ed analisi della variabilità (variant calling), quantificazione dei livelli di trascrizione ed identificazione di geni differenzialmente trascritti, annotazione e data mining di regioni geniche e ripetute (elementi trasponibili, DNA satellie, etc), ricerca di geni ortologhi. Tali acquisizioni saranno trattate eminentemente in contesti comparativi (confronto tra due o più taxa) per identificare le componenti evolutive che hanno contribuito a plasmare gli organismi attuali.

Contenuti

1. Tecnologie, metodi ed applicazioni

Tecnologie: Sanger sequencing vs massive parallel sequencing; Reversible Terminator Sequencing (Illumina); Single-Molecule Real-Time (SMRT) Sequencing (PacBio); Nanopore Sequencing; Comparazione delle piattaforme di sequenziamento.

Metodi di sequenziamento: directed sequencing, hierarchical shotgun sequencing, whole-genome shotgun sequencing; mappe genetiche; short reads, paired-end sequencing, mate-pair sequencing, long reads, chromosome conformation technologies (es. Hi-C).

Strategie di assemblaggio: greedy approach; Overlap-Layout-Consensus (OLC) approach; de Bruijn Graph approach; comparazione delle strategie di assemblaggio.

Applicazioni: RAD-Seq; RNA-Seq; bisulfite sequencing; ChIP-Seq; Iso-Seq; Single-Cell genomics and transcriptomics.

Genomica, big data, biologia computazionale e bioinformatica.


2. Database, algoritmi per allineamento di sequenze e ricerca di similarità

Overview sui database pubblici (GenBank, EMBL, RefSeq, EggNOG, Ensembl, UniProtKB, InterPro, Pfam, PROSITE, Swiss-Prot, Gene Ontology); identificazione dei geni in una sequenza genomica: predizione di geni codificanti, ORFs; identità/similarità di sequenza; matrici di sostituzione; statistiche relative alla comparazione di sequenze; compositional bias; allineamenti globali/locali; algoritmi di ricerca: BLAST+, Diamond; motifs, domini e profili: sequence motifs, sequence logo, domini proteici e domain architectures; profili HMM, HMMER.


3. Genomica Comparata

Il metodo comparativo; organismi modello; il metodo induttivo e il problema della generalizzazione in biologia; l’importanza della ricerca di base. Esempi di genomica comparata.


4. Introduzione alla Shell di Unix

Biologia e “Big Data”, ricerca robusta e riproducibile, disegno sperimentale, gestione dei dati e della documentazione, risorse online.

Utilizzo di Bash: connessione alla workstation tramite Guacamole, path, files, directories, permessi; editor di testo (vim, nanos); download e trasferimento dati: wget, curl, scp; controllo integrità dei dati, md5sum; compressione e decompressione dei dati: zip, gzip, tar; unire, ordinare e comparare files: cat, join, sort, diff, comm; manipolazione di files di testo: grep, AWK, sed.

Bash scripting: processi in background, screen; concatenazione di comandi, pipe, semicolon, &&; standard output e standard error; variabili; sostituzione di comandi; loops: for, until, while.

Conda environments.


5. Progetto di Genomica Comparata

  • K-mer-based genome characterization: formati FASTQ e FASTA; controllo qualità; calcolo della frequenza dei k-mers; stima della dimensione del genoma, del contenuto ripetitivo e dell’eterozigosità.
  • Assemblaggio de novo: draft assembly; genome polishing; valutazione della qualità dell’assemblaggio; ricerca ed eliminazione dei contaminanti; reference-based scaffolding; valutazione e comparazione tramite whole-genome alignment.
  • Annotazione: annotazione dei trasposoni ed altri elementi ripetuti; evidence-based gene prediction; ab initio gene prediction; introduzione al training di gene predictors (machine learning); GO annotation e GO enrichment.
  • Ricerca dei geni ortologhi: concetto di ortologia molecolare; Orthofinder.
  • Evoluzione molecolare: calcolo di dN/dS.
  • RNA-Seq e trascrittomica comparata: mappaggio delle reads; filtraggio e conteggio delle reads mappate; normalizzazione; trascrizione differenziale.

Testi/Bibliografia

  • Vince Buffalo “Bioinformatics Data Skills”, O’Reilly.

  • Arthur M. Lesk “Introduction to Bioinformatics” (Fifth Edition), Oxford University Press

  • Arthur M. Lesk “Introduction to Genomics” (Third Edition), Oxford University Press

  • Articoli scientifici e materiale online su GitHub e Teams.

Metodi didattici

Il corso alternerà lezioni frontali durante le quali verranno fornite nozioni teoriche, a lezioni pratiche durante le quali gli studenti avranno modo di eseguire analisi hands-on.

Durante lo svolgimento del corso gli studenti saranno invitati a scegliere un dataset (fra quelli presenti nei database pubblici) sul quale poi sviluppare un progetto che sarà oggetto di esame.

Per affrontare al meglio questo insegnamento è fortemente consigliato l’aver seguito i seguenti corsi ed averne assimilato i contenuti:

  • 91400 - Biometria Evoluzionistica ed Ecologica
  • 91360 - Genetica di Popolazione ed Evoluzione Molecolare
  • 91789 - Evoluzione e Filogenesi (C.I.)
  • 91399 - Evoluzione del Genoma.

In considerazione della tipologia di attività e dei metodi didattici adottati, la frequenza di questa attività formativa richiede la preventiva partecipazione di tutti gli studenti ai moduli 1 e 2 di formazione sulla sicurezza nei luoghi di studio, in modalità e-learning.

Modalità di verifica e valutazione dell'apprendimento

Valutazione del progetto presentato dallo studente e breve discussione orale (sempre focalizzata sul progetto).

Le caratteristiche richieste e la modalità di presentazione dei progetti verranno illustrate in dettaglio durante l’introduzione del corso.

Strumenti a supporto della didattica

Slides, articoli scientifici, materiale online (incluso GitHub dedicato), esercitazioni individuali al computer, utilizzo di una high performance workstation.

Orario di ricevimento

Consulta il sito web di Fabrizio Ghiselli