B5176 - BIG DATA ANALYTICS

Anno Accademico 2024/2025

  • Docente: Anna Gloria Billè
  • Crediti formativi: 6
  • SSD: SECS-S/03
  • Lingua di insegnamento: Inglese
  • Modalità didattica: Convenzionale - Lezioni in presenza
  • Campus: Bologna
  • Corso: Laurea Magistrale in Direzione aziendale (cod. 0897)

Conoscenze e abilità da conseguire

Al termine del corso, lo studente conosce i modelli statistici che sono alla base dell'attività di estrazione di conoscenza da grandi quantità di dati (Big Data). In particolare, lo studente è in grado di: - strutturare un processo di data mining; - scegliere, tra gli strumenti metodologici, quelli più adeguati a raggiungere l'obiettivo in esame; - interpretare criticamente i risultati.

Contenuti

  1. Modelli lineari: definizione e algebra dell'OLS, ipotesi di Gauss-Markov ed inferenza, definizione di effetti marginali, variabili dummy e categoriali come regressori e interpretazione, previsione, modus operandi nella scelta del modello, distorsione da variabile omessa e inefficienza da variabile irrilevante. Modelli annidati e non. Violazione delle ipotesi: analisi dei residui e test di specificazione (eteroschedasticità, endogeneità, normalità), OLS robusto, stimatori alternativi, esempio di endogeneità su dati reali. Trasformazioni di potenze (logaritmiche, Box-Cox, etc.).
  2. Serie storiche: definizione, analisi dei residui e test di specificazione (cambiamento strutturale e autocorrelazione), OLS robusto, accenno alle componenti delle serie storiche, previsione semplice e statistiche di confronto delle performance dei metodi di previsione.

Testi/Bibliografia

Testi di riferimento:

William Greene (2019), Econometric Analysis, Pearson. Eighth
Edition (Global Edition).

Bradley Efron, Trevor Hastie (2016), Computer Age Statistical Inference: Algorithms, Evidence, and Data Science, Cambridge University Press.

Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009), The Elements of Statistical Learning: Data Mining, Inference, and Prediction (Second Edition).

Gareth James, Daniela Witten, Trevor Hastie, Robert
Tibshirani (2021), An Introduction to Statistical Learning with
Applications in R, Springer.

Marno Verbeek (2005), Econometria, I edizione, Zanichelli
Editore.

Materiale didattico predisposto dal docente sotto forma di
presentazioni pdf in virtuale.

Testo di riferimento per una conoscenza di base in R:

Giuseppe Espa, Rocco Micciolo (2014), Problemi ed Esperimenti di Statistica con R, Apogeo.

Letture di approfondimento:

Tsai Chun-Wei et al. (2015), Big Data Analytics: a survey, Journal of Big Data, 2:21.

Nota: Qualsiasi libro di testo già in possesso dallo studente che comprenda gli argomenti su elencati può essere preso in considerazione come alternativa ai testi di riferimento e alle letture/libri di approfondimento. Non c'è alcun obbligo nell'acquistare tali libri di testo, ma si suggerisce caldamente la loro consultazione.

 

 

 

Metodi didattici

Le lezioni vengono svolte trattando sia aspetti teorici/metodologici che pratici con l'ausilio del software statistico R.

I dati utilizzati sono disponibili nei pacchetti di R o forniti dal docente e sono per lo più di natura economica.

Modalità di verifica e valutazione dell'apprendimento

Scritto

L'esame prevederà una prova scritta di due ore circa su tutti gli argomenti del corso. 

Potenziale esame orale aggiuntivo.

 

 

 

Strumenti a supporto della didattica

PC; videoproiettore.

Orario di ricevimento

Consulta il sito web di Anna Gloria Billè