- Docente: Ignazio Drudi
- Crediti formativi: 8
- SSD: SECS-S/03
- Lingua di insegnamento: Italiano
- Modalità didattica: Convenzionale - Lezioni in presenza
- Campus: Bologna
- Corso: Laurea in Scienze statistiche (cod. 8873)
Conoscenze e abilità da conseguire
Il corso si propone di introdurre alla complessità della moderna organizzazione dei dati statistici, in particolare di quelli disponibili in Internet, sia in forma strutturata che destrutturata. Lobiettivo principale del corso consiste nella formazione di competenze statistiche in grado di coniugare i fondamenti irrinunciabili della misura e della metodologia statistica nel passaggio che porta alle sogle della analisi statistica dei fenomeni, che consiste nella valutazione, selezione e sintesi dei giacimenti di dati oggi disponibili con relativa facilità. Più in dettaglio, alla fine del corso lo studente avrà le competenze per: 1. Orientarsi, mediante ricerche finalizzate, nelle principali molteplici e disomogenee fonti di dati oggi disponibili. Sia per quanto riguarda le fonti ufficiali (Istat, Eurostat, OCSE, Banca Mondiale, ); sia per quanto attiene alle fonti non convenzionali (le statistiche di Google, FaceBook, Twitter, E-bay, trip-advisor, .) 2. Avere una conoscenza di base del principale linguaggio di interrogazione delle grandi banche dati cioè della logica e della sintassi del linguaggio SQL, con particolare attenzione alla capacità di affrontare i problemi connessi alla integrazione dei dati, con riferimento specifico ai problemi del matching, sia esatto che statistico mediante lutilizzo del linguaggio SQL 3. Definire un efficace strategia di estrazione e sintesi di dati da grandi banche dati (i cosiddetti Big-data), mediante lutilizzo delle più appropriate tecniche statistiche finalizzate a definire le basi di dati più appropriate per lanalisi statistica dei fenomeni.
Contenuti
Introduzione al mondo dei Big-Data, distinzione tra data base strutturati e non strutturati
Introduzione al linguaggio SQL
Concetti e strumenti di base del Web-mining: API, scraping, etc.
Librerie di interazione col web disponibili in Cran R
Introduzione alla elaborazione di dati testuali, alle reactions e alle reti sociali sui social network
Sentiment analisys, polarità e valenza di giudizio dei lemmi e della forme del linguaggio
Introduzione ai fondamenti del machine learning e alla analisi di significato contestuale
Testi/Bibliografia
Dispense distribuite durante il corso e depositate in almadl
Metodi didattici
Lezioni frontali (circa 30%)
Esercitazioni con Software R (circa 20%)
Esercitazioni di WEB scraping (circa 50%)
Modalità di verifica e valutazione dell'apprendimento
Esercizio di web scraping, analisi della polarità dei post, analisi delle reactions ai post, cluster analisys testuale
Strumenti a supporto della didattica
aule dotate di wi-fi e cablate elettricamente
laboratorio informatico
Orario di ricevimento
Consulta il sito web di Ignazio Drudi