- Docente: Paolo Verme
- Crediti formativi: 8
- SSD: SECS-S/03
- Lingua di insegnamento: Italiano
- Modalità didattica: Convenzionale - Lezioni in presenza
- Campus: Bologna
- Corso: Laurea in Scienze statistiche (cod. 8873)
Conoscenze e abilità da conseguire
Il corso si propone di introdurre alla complessità della moderna organizzazione dei dati statistici, in particolare di quelli disponibili in Internet, sia in forma strutturata che destrutturata. Lobiettivo principale del corso consiste nella formazione di competenze statistiche in grado di coniugare i fondamenti irrinunciabili della misura e della metodologia statistica nel passaggio che porta alle sogle della analisi statistica dei fenomeni, che consiste nella valutazione, selezione e sintesi dei giacimenti di dati oggi disponibili con relativa facilità. Più in dettaglio, alla fine del corso lo studente avrà le competenze per: 1. Orientarsi, mediante ricerche finalizzate, nelle principali molteplici e disomogenee fonti di dati oggi disponibili. Sia per quanto riguarda le fonti ufficiali (Istat, Eurostat, OCSE, Banca Mondiale, ); sia per quanto attiene alle fonti non convenzionali (le statistiche di Google, FaceBook, Twitter, E-bay, trip-advisor, .) 2. Avere una conoscenza di base del principale linguaggio di interrogazione delle grandi banche dati cioè della logica e della sintassi del linguaggio SQL, con particolare attenzione alla capacità di affrontare i problemi connessi alla integrazione dei dati, con riferimento specifico ai problemi del matching, sia esatto che statistico mediante lutilizzo del linguaggio SQL 3. Definire un efficace strategia di estrazione e sintesi di dati da grandi banche dati (i cosiddetti Big-data), mediante lutilizzo delle più appropriate tecniche statistiche finalizzate a definire le basi di dati più appropriate per lanalisi statistica dei fenomeni.
Contenuti
Il corso e' strutturato in tre parti di circa 20 ore ciascuna.
La prima parte si propone di introdurre gli studenti a metodi contemporanei di informatica per la statistica propedeutici all'utilizzo di banche dati on-line e la riproducibilita' della ricerca. Questa parte copre l'utilizzo di softwares essenziali per la produzione e riproduzione scientifica come LaTex, Rstudio, e Quarto, e metodi per l'utilizzo di dati on-line come API, SDMX, and Web Scraping.
La seconda parte mira a coprire i contenuti delle banche dati on-line piu' importanti a livello globale e Italiano come i siti della World Bank, International Monetary Fund, OCSE, Eurostat, Banca D'Italia e ISTAT. I contenuti di queste banche dati verranno esplorati utilizzando gli strumenti informatici coperti dalla prima parte del programma come API e SDMX.
La terza parte copre strumenti statistici standard come la costruzione di indici e la regressione lineare applicata ai dati esaminati nella seconda parte. Particolare attenzione e' dedicata alla distinzione tra l'analisi di serie di tempo macroeconomiche dove l'unita' di osservazione e' una statistica anno/paese disponibile nelle banche dati e i dati microeconomici dove le unita' di osservazione sono informazioni sugli individui o le famiglie generate da indagini a campione.
Testi/Bibliografia
Class slides prodotte dal docente e disponibili sul sito del corso dopo ogni lezione.
Metodi didattici
Tutte le lezioni includono una parte teorica discussa dal docente per mezzo di slides in classe e una parte applicata con dimostrazioni pratiche di come utilizzare gli strumenti teorici con dati reali prelevati da banche dati on-line.
Modalità di verifica e valutazione dell'apprendimento
L' esame consiste in un test unico che include domande teoriche e domande applicate.
Gli studenti possono rifiutare il voto una volta.
Orario di ricevimento
Consulta il sito web di Paolo Verme