91407 - LABORATORIO DI GENOMICA COMPARATA

Anno Accademico 2020/2021

  • Docente: Fabrizio Ghiselli
  • Crediti formativi: 6
  • SSD: BIO/05
  • Lingua di insegnamento: Italiano
  • Modalità didattica: Convenzionale - Lezioni in presenza
  • Campus: Bologna
  • Corso: Laurea Magistrale in Biodiversità ed evoluzione (cod. 9075)

Conoscenze e abilità da conseguire

Al termine del corso, lo studente avrà acquisito la padronanza dell'utilizzo di metodiche bioinformatiche per il trattamento e l'analisi di dati genomici e trascrittomici. Verranno quindi fornite le basi teoriche e pratiche per l'analisi di dati derivanti da High Throughput Sequencing tramite software specifici. Sarà eseguita una pipeline di analisi dei dati che comprenderà quality check e filtraggio delle raw reads (single/paired ends), assemblaggio de novo di trascrittomi/genomi, mapping ed analisi della variabilità (variant calling), quantificazione dei livelli di trascrizione ed identificazione di geni differenzialmente trascritti, annotazione e data mining di regioni geniche e ripetute (elementi trasponibili, DNA satellie, etc), ricerca di geni ortologhi. Tali acquisizioni saranno trattate eminentemente in contesti comparativi (confronto tra due o più taxa) per identificare le componenti evolutive che hanno contribuito a plasmare gli organismi attuali.

Contenuti

1. Introduzione del corso

2. Tecnologie ed applicazioni

Tecnologie: 454 Pyrosequencing; Reversible Terminator Sequencing (Illumina); Ion Semiconductor Sequencing (Ion Torrent); Single-Molecule Real-Time (SMRT) Sequencing (PacBio); Nanopore Sequencing; Comparazione delle piattaforme di sequenziamento.
Applicazioni: Shotgun Sequencing; RAD-Seq; Hybrid Enrichment; RNA-Seq; Single-Cell genomics and transcriptomics.

3. Practical computing skills

Biologia e “Big Data”, ricerca robusta e riproducibile, disegno sperimentale, gestione dei dati e della documentazione.
La Shell Unix: streams, redirections, Unix pipe, gestione ed interazioni coi processi, connessione a macchine remote con SSH, mantenere processi di lunga durata (nohup, screen), download di dati (wget, curl, scp), integrità dei dati (md5), trovare differenze tra i dati, compressione dei dati.
Manipolazione di files di testo: head, tail, less, wc, ls, cut, grep, sort, uniq, join, sed; Awk e Bioawk.
Sequence data: formato FASTA, formato FASTQ, qualità delle basi, trimming, parsing.
Alignment data: SAM, BAM, samtools, sort and index, variant calling.
Cenni di Shell scripting.

4. Database e risorse bioinformatiche

 Overview sui database pubblici.

5. Assemblaggio di genomi e trascrittomi

Qualità dei dati e filtraggio.
Strategie di assemblaggio: Greedy Assemblies; Overlap-Layout-Consensus (OLC) Assemblies; K-mer Assemblies Using de Bruijn Graphs; comparazione delle strategie di assemblaggio.
Assemblaggio de novo; scaffolding; hybrid assembly; RNA-Seq; metagenomi.

6. Trascrittomica

Analisi della trascrizione differenziale, tipi di normalizzazione dei dati e metodi di comparazione; mapping e quantificazione dei trascritti; DEGs, fold change, Gene Set Enrichment Analysis (GSEA).

7. Annotazione

Databases: Gene Ontology; UniProt; Pfam; Ensembl; KEGG.
Tools: BLAST; HMMER; InterProScan; Multiple Sequence Alignment; Alignment Masking; Mapping Sequence Reads; Whole-Genome Alignments.
Finding genes: geni omologhi, ortologhi e paraloghi; Hidden Markov Profiles; gene ontology e “the Ortholog Conjecture”.

8. Variant discovery and genotyping

Variant calling; VCF, GATK, FreeBayes.

9. Filogenomica e Genomica Comparativa

L’approccio comparativo: punti di forza, punti di attenzione, difficoltà metodologiche. Fonti di errore ed incongruenze nelle analisi filogenomiche: errori sistematici; missing data; taxon sampling; gene sampling; incongruenze fra species trees e gene trees.
Markers filogenetici e prospettive future.

Testi/Bibliografia

  • Vince Buffalo “Bioinformatics Data Skills”, O’Reilly.

  • Christoph Bleidorn “Phylogenomics”, Springer.

  • Articoli scientifici e materiale online.

Metodi didattici

Il corso alternerà lezioni frontali durante le quali verranno fornite nozioni teoriche, a lezioni pratiche durante le quali gli studenti avranno modo di eseguire le analisi su dataset a scelta.

Durante lo svolgimento del corso (ed indicativamente immediatamente dopo la parte 3) gli studenti saranno invitati a scegliere una problematica biologica ed un dataset (fra quelli presenti nei database pubblici) sul quale poi sviluppare un progetto che sarà oggetto di esame.

Per affrontare al meglio questo insegnamento è fortemente consigliato l’aver seguito i seguenti corsi ed averne assimilato i contenuti:
91400 - Biometria Evoluzionistica ed Ecologica,
91360 - Genetica di Popolazione ed Evoluzione Molecolare,
91789 - Evoluzione e Filogenesi (C.I.),
91399 - Evoluzione del Genoma.

Modalità di verifica e valutazione dell'apprendimento

Valutazione del progetto presentato dallo studente e breve discussione orale (sempre focalizzata sul progetto).

Le caratteristiche richieste dei progetti e la modalità di presentazione verranno illustrate in dettaglio durante l’introduzione del corso.

Strumenti a supporto della didattica

Slides, articoli scientifici, materiale online, esercitazioni individuali al computer, utilizzo di una high performance workstation.

Orario di ricevimento

Consulta il sito web di Fabrizio Ghiselli