- Docente: Daniela Giovanna Calò
- Crediti formativi: 10
- SSD: SECS-S/01
- Lingua di insegnamento: Italiano
- Modalità didattica: Convenzionale - Lezioni in presenza
- Campus: Bologna
- Corso: Laurea Magistrale in Statistica, economia e impresa (cod. 8056)
Conoscenze e abilità da conseguire
Al termine del corso lo studente conosce le problematiche e le metodologie statistiche che sono alla base dell'attività di estrazione di conoscenza da grandi moli di dati. In particolare, lo studente è in grado di: - strutturare correttamente un processo di data mining - scegliere tra gli strumenti metodologici quelli più adeguati a perseguire l'obiettivo in esame - interpretare criticamente i risultati.
Contenuti
Prerequisiti:
Fondamenti di statistica descrittiva e inferenziale. Elementi di calcolo delle probabilità. Modello di regressione lineare multipla.
Programma/Contenuti
- Introduzione: il Data Mining e la Statistica
- Data preparation: identificazione delle fonti, valutazione della qualità dei dati, studio delle caratteristiche delle variabili.
- Data cleaning: identificazione trattamento degli outliers in ambito uni- e multi-variato; trattamento dei dati mancanti.
- Trasformazioni di variabili. Tecniche di riduzione del volume dei dati.
- Introduzione ai modelli predittivi: regressione e classificazione. L'impostazione parametrica e quella non parametrica. Stima dell'errore di previsione atteso: per risostituzione, metodo hold-out, cross-validation.
- Modelli parametrici: modelli lineari di regressione; modello di regressione logistica.
- Criteri di performance di un modello predittivo, in problemi di regressione e in problemi di classificazione (curva ROC, curva LIFT)
- Modelli non parametrici per la stima della funzione di regressione: smoothers, modelli additivi di regressione non parametrica.
- Metodi di partizione ricorsiva: la metodologia CART.
- Modelli predittivi a rete neurale: reti Multi-Layer_Perceptron; tecniche di regolarizzazione.
- Confronto e scelta tra modelli statistici
- Metodi di analisi dei gruppi; mappe di Kohonen.
- Analisi delle associazioni.
Per ogni argomento trattato nelle lezioni frontali è programmata una esercitazione in laboratorio informatico mediante il software R, basata su dati da casi di studio che propongono problemi decisionali comunemente affrontati in attività di Data Mining (credit scoring, target marketing, market basket analysis,..).
Sono previste attività di laboratorio integrative sull'uso del software SAS Enterprise Miner.
Testi/Bibliografia
Oltre al materiale didattico depositato on-line dal docente (e disponibile all'indirizzo http://campus.unibo.it/ ), si consigliano:
Azzalini A., Scarpa B. (2004). Analisi dei dati e data mining. Springer-Verlag Italia, MilanoGiudici P. (2005). Data mining : metodi informatici, statistici e applicazioni . McGraw-Hill, Milano
Hastie T. Tibshirani R., Friedman J. (2008) The Elements of Statistical Learning. Data Mining, Inference and Prediction, Springer-Verlag, New York, 2008
Metodi didattici
Il corso è strutturato in lezioni frontali in aula, alle quali si alternano attività di esercitazione nel laboratorio informatico: nelle lezioni frontali vengono approfonditi gli aspetti metodologici degli strumenti statistici presentati; nelle esercitazioni, i metodi presentati a lezione vengono applicati su data set relativi a specifici casi di studio.
Poiché ogni settimana è prevista una esercitazione di laboratorio, le esercitazioni occupano complessivamente un terzo del corso (corrispondente a 20 ore, su 60 ore totali). L'obiettivo dell'attività di laboratorio è di consolidare le conoscenze acquisite durante le lezioni frontali, e di sviluppare capacità critiche nella scelta degli strumenti metodologici più adeguati al problema in esame e nell'interpretazione dei risultati.
Modalità di verifica e valutazione dell'apprendimento
La verifica dell'apprendimento avviene mediante il solo esame finale, che mira a verificare l'apprendimento dei metodi statistici presentati durante il corso, nonchè le capacità critiche maturate dallo studente nella progettazione di un'attività di mining.
L'esame consiste in una prova scritta, della durata di 1 ora, composta da 16 quesiti a risposta aperta sugli argomenti trattati: 8 quesiti riguardano aspetti teorici e i restanti 8 sono relativi all'interpretazione e alla lettura critica dei risultati di una specifica analisi di data mining condotta tramite il software R. La valutazione della prova scritta è espressa in trentesimi e corrisponde alla somma dei punteggi conseguiti dallo studente rispondendo a ciascuna delle 16 domande (il punteggio massimo ottenibile nella prova è 32).
Durante la prova scritta non è possibile consultare appunti,
libri o supporti informatici.
Un esempio di domande-tipo presenti nella prova d'esame è reperibile, all'indirizzo http://campus.unibo.it/, fra il materiale didattico depositato per il corso nell'a.a. 2012/13.
Strumenti a supporto della didattica
Pc; videoproiettore; aula di laboratorio informatico.
Il materiale didattico presentato dal docente a lezione e durante le esercitazioni è reso disponibile dal docente al link http://campus.unibo.it/ (il download è riservato agli studenti iscritti all'Università di Bologna).
Orario di ricevimento
Consulta il sito web di Daniela Giovanna Calò