- Docente: Fabrizio Ghiselli
- Crediti formativi: 6
- SSD: BIO/05
- Lingua di insegnamento: Italiano
- Modalità didattica: Convenzionale - Lezioni in presenza
- Campus: Bologna
- Corso: Laurea Magistrale in Biodiversità ed evoluzione (cod. 9075)
Conoscenze e abilità da conseguire
Al termine del corso, lo studente avrà acquisito la padronanza dell'utilizzo di metodiche bioinformatiche per il trattamento e l'analisi di dati genomici e trascrittomici. Verranno quindi fornite le basi teoriche e pratiche per l'analisi di dati derivanti da High Throughput Sequencing tramite software specifici. Sarà eseguita una pipeline di analisi dei dati che comprenderà quality check e filtraggio delle raw reads (single/paired ends), assemblaggio de novo di trascrittomi/genomi, mapping ed analisi della variabilità (variant calling), quantificazione dei livelli di trascrizione ed identificazione di geni differenzialmente trascritti, annotazione e data mining di regioni geniche e ripetute (elementi trasponibili, DNA satellie, etc), ricerca di geni ortologhi. Tali acquisizioni saranno trattate eminentemente in contesti comparativi (confronto tra due o più taxa) per identificare le componenti evolutive che hanno contribuito a plasmare gli organismi attuali.
Contenuti
1. Introduzione del corso
2. Tecnologie ed applicazioni
Tecnologie: 454 Pyrosequencing; Reversible Terminator Sequencing (Illumina); Ion Semiconductor Sequencing (Ion Torrent); Single-Molecule Real-Time (SMRT) Sequencing (PacBio); Nanopore Sequencing; Comparazione delle piattaforme di sequenziamento.
Applicazioni: Shotgun Sequencing; RAD-Seq; Hybrid Enrichment; RNA-Seq; Single-Cell genomics and transcriptomics.
3. Practical computing skills
Biologia e “Big Data”, ricerca robusta e riproducibile, disegno sperimentale, gestione dei dati e della documentazione.
La Shell Unix: streams, redirections, Unix pipe, gestione ed interazioni coi processi, connessione a macchine remote con SSH, mantenere processi di lunga durata (nohup, screen), download di dati (wget, curl, scp), integrità dei dati (md5), trovare differenze tra i dati, compressione dei dati.
Manipolazione di files di testo: head, tail, less, wc, ls, cut, grep, sort, uniq, join, sed; Awk e Bioawk.
Sequence data: formato FASTA, formato FASTQ, qualità delle basi, trimming, parsing.
Alignment data: SAM, BAM, samtools, sort and index, variant calling.
Cenni di Shell scripting.
4. Database e risorse bioinformatiche
Overview sui database pubblici.
5. Assemblaggio di genomi e trascrittomi
Qualità dei dati e filtraggio.
Strategie di assemblaggio: Greedy Assemblies; Overlap-Layout-Consensus (OLC) Assemblies; K-mer Assemblies Using de Bruijn Graphs; comparazione delle strategie di assemblaggio.
Assemblaggio de novo; scaffolding; hybrid assembly; RNA-Seq; metagenomi.
6. Trascrittomica
Analisi della trascrizione differenziale, tipi di normalizzazione dei dati e metodi di comparazione; mapping e quantificazione dei trascritti; DEGs, fold change, Gene Set Enrichment Analysis (GSEA).
7. Annotazione
Databases: Gene Ontology; UniProt; Pfam; Ensembl; KEGG.
Tools: BLAST; HMMER; InterProScan; Multiple Sequence Alignment; Alignment Masking; Mapping Sequence Reads; Whole-Genome Alignments.
Finding genes: geni omologhi, ortologhi e paraloghi; Hidden Markov Profiles; gene ontology e “the Ortholog Conjecture”.
8. Variant discovery and genotyping
Variant calling; VCF, GATK, FreeBayes.
9. Filogenomica e Genomica Comparativa
L’approccio comparativo: punti di forza, punti di attenzione, difficoltà metodologiche. Fonti di errore ed incongruenze nelle analisi filogenomiche: errori sistematici; missing data; taxon sampling; gene sampling; incongruenze fra species trees e gene trees.
Markers filogenetici e prospettive future.
Testi/Bibliografia
-
Vince Buffalo “Bioinformatics Data Skills”, O’Reilly.
-
Christoph Bleidorn “Phylogenomics”, Springer.
-
Articoli scientifici e materiale online.
Metodi didattici
Il corso alternerà lezioni frontali durante le quali verranno fornite nozioni teoriche, a lezioni pratiche durante le quali gli studenti avranno modo di eseguire le analisi su dataset a scelta.
Durante lo svolgimento del corso (ed indicativamente immediatamente dopo la parte 3) gli studenti saranno invitati a scegliere una problematica biologica ed un dataset (fra quelli presenti nei database pubblici) sul quale poi sviluppare un progetto che sarà oggetto di esame.
Per affrontare al meglio questo insegnamento è fortemente consigliato l’aver seguito i seguenti corsi ed averne assimilato i contenuti:91400 - Biometria Evoluzionistica ed Ecologica,
91360 - Genetica di Popolazione ed Evoluzione Molecolare,
91789 - Evoluzione e Filogenesi (C.I.),
91399 - Evoluzione del Genoma.
Modalità di verifica e valutazione dell'apprendimento
Valutazione del progetto presentato dallo studente e breve discussione orale (sempre focalizzata sul progetto).
Le caratteristiche richieste dei progetti e la modalità di presentazione verranno illustrate in dettaglio durante l’introduzione del corso.
Strumenti a supporto della didattica
Slides, articoli scientifici, materiale online, esercitazioni individuali al computer, utilizzo di una high performance workstation.
Orario di ricevimento
Consulta il sito web di Fabrizio Ghiselli