79201 - UTILIZZO STATISTICO DI BANCHE DATI ECONOMICHE ONLINE

Scheda insegnamento

Anno Accademico 2018/2019

Conoscenze e abilità da conseguire

Il corso si propone di introdurre alla complessità della moderna organizzazione dei dati statistici, in particolare di quelli disponibili in Internet, sia in forma “strutturata” che “destrutturata”. L’obiettivo principale del corso consiste nella formazione di competenze statistiche in grado di coniugare i fondamenti irrinunciabili della misura e della metodologia statistica nel passaggio che porta alle sogle della analisi statistica dei fenomeni, che consiste nella valutazione, selezione e sintesi dei giacimenti di dati oggi disponibili con relativa facilità. Più in dettaglio, alla fine del corso lo studente avrà le competenze per: 1. Orientarsi, mediante ricerche finalizzate, nelle principali molteplici e disomogenee fonti di dati oggi disponibili. Sia per quanto riguarda le fonti “ufficiali” (Istat, Eurostat, OCSE, Banca Mondiale, …); sia per quanto attiene alle fonti “non convenzionali” (le statistiche di Google, FaceBook, Twitter, E-bay, trip-advisor, ….) 2. Avere una conoscenza di base del principale linguaggio di interrogazione delle grandi banche dati cioè della logica e della sintassi del linguaggio SQL, con particolare attenzione alla capacità di affrontare i problemi connessi alla integrazione dei dati, con riferimento specifico ai problemi del matching, sia “esatto” che “statistico” mediante l’utilizzo del linguaggio SQL 3. Definire un efficace strategia di estrazione e sintesi di dati da grandi banche dati (i cosiddetti “Big-data”), mediante l’utilizzo delle più appropriate tecniche statistiche finalizzate a definire le basi di dati più appropriate per l’analisi statistica dei fenomeni.

Programma/Contenuti

Introduzione al mondo dei Big-Data, distinzione tra data base strutturati e non strutturati

Introduzione al linguaggio SQL

Concetti e strumenti di base del Web-mining: API, scraping, etc.

Librerie di interazione col web disponibili in Cran R

Introduzione alla elaborazione di dati testuali, alle reactions e alle reti sociali sui social network

Sentiment analisys, polarità e valenza di giudizio dei lemmi e della forme del linguaggio

Introduzione ai fondamenti del machine learning e alla analisi di significato contestuale

Testi/Bibliografia

Dispense distribuite durante il corso e depositate in almadl

Metodi didattici

Lezioni frontali (circa 30%)

Esercitazioni con Software R (circa 20%)

Esercitazioni di WEB scraping (circa 50%)

 

 

Modalità di verifica dell'apprendimento

Esercizio di web scraping, analisi della polarità dei post, analisi delle reactions ai post, cluster analisys testuale

Strumenti a supporto della didattica

aule dotate di wi-fi e cablate elettricamente

laboratorio informatico

 

Orario di ricevimento

Consulta il sito web di Ignazio Drudi