23741 - METODI STATISTICI PER IL DATA MINING

Anno Accademico 2022/2023

  • Docente: Matteo Farnè
  • Crediti formativi: 10
  • SSD: SECS-S/01
  • Lingua di insegnamento: Italiano
  • Modalità didattica: Convenzionale - Lezioni in presenza
  • Campus: Bologna
  • Corso: Laurea Magistrale in Statistica, economia e impresa (cod. 8876)

Conoscenze e abilità da conseguire

Al termine del corso lo studente conosce le problematiche e le metodologie statistiche che sono alla base dell'attività di estrazione di conoscenza da grandi moli di dati. In particolare, lo studente è in grado di: - strutturare correttamente un processo di data mining - scegliere tra gli strumenti metodologici quelli più adeguati a perseguire l'obiettivo in esame - interpretare criticamente i risultati.

Contenuti

Prerequisiti:

Fondamenti di statistica descrittiva e inferenziale. Elementi di calcolo delle probabilità. Modello di regressione lineare multipla.

Programma/Contenuti

Modulo I

- Introduzione: il Data Mining e la Statistica.

- Preparazione dei dati: identificazione delle fonti, valutazione della qualità dei dati, studio delle caratteristiche delle variabili.

- Pulizia dei dati: identificazione e trattamento degli outlier in ambito uni- e multi-variato; trattamento dei dati mancanti.

- Trasformazioni di variabili. Tecniche di riduzione del volume dei dati.

- Analisi delle associazioni.

- Metodi di cluster analysis. Metodi gerarchici e partitivi.

- Introduzione ai modelli predittivi: regressione e classificazione.

- Modelli parametrici: modelli lineari di regressione; modello di regressione logistica.

Modulo II

- Criteri di valutazione della performance di un modello predittivo, in problemi di regressione e in problemi di classificazione (curva ROC, curva LIFT).

- Modelli non parametrici per la stima della funzione di regressione: smoothers, modelli additivi di regressione non parametrica. Classificatori non parametrici: classificatore knn, classificatore Naive Bayes.

- Metodi di partizione ricorsiva e alberi decisionali.

- Modelli predittivi a rete neurale: reti Multi-Layer Perceptron; tecniche di regolarizzazione.

Sono previste attività di laboratorio sull'uso del software R.

Testi/Bibliografia

Oltre al materiale didattico depositato on-line dal docente su IOL, si consiglia:

Hastie T. Tibshirani R., Friedman J. The Elements of Statistical Learning. Data Mining, Inference and Prediction , Springer-Verlag, New York, 2008

Andrea Cerioli, Mauro Zani, Analisi dei dati e data mining per le decisioni aziendali. Giuffrè Editore, 2007

Giudici P. Data Mining: Modelli informatici, statistici e applicazioni, McGraw Hill, 2005

Azzalini A., Scarpa B. Data analysis and data mining. An introduction, Oxford University Press, 2012

Metodi didattici

Il corso è strutturato in lezioni frontali in aula, alle quali si alternano attività di esercitazione utilizzando il software R. Nelle lezioni frontali vengono approfonditi gli aspetti metodologici degli strumenti statistici presentati; nelle esercitazioni, i metodi presentati a lezione vengono applicati su data set relativi a specifici casi di studio.

L'obiettivo dell'attività di laboratorio è di consolidare le conoscenze acquisite durante le lezioni frontali, e di sviluppare capacità critiche nella scelta degli strumenti metodologici più adeguati al problema in esame e nell'interpretazione dei risultati.

Modalità di verifica e valutazione dell'apprendimento

La verifica dell'apprendimento avviene mediante il solo esame finale, che mira a verificare l'apprendimento dei metodi statistici presentati durante il corso, nonché le capacità critiche maturate dallo studente nella progettazione di un'attività di mining.

L'esame consiste in una prova scritta, composta da quesiti riguardanti sia aspetti teorici sia relativi all'interpretazione e alla lettura critica dei risultati di una specifica analisi di data mining condotta con il software R.

La prova orale è facoltativa e può avvenire previo superamento dello scritto all'interno del medesimo appello d'esame. La votazione complessiva è espressa in trentesimi e tiene conto dell'esito della prova scritta e di quella orale: la valutazione ottenuta nella prova scritta può aumentare o diminuire al più di 3 trentesimi.

Strumenti a supporto della didattica

Lavagna; PC; videoproiettore; aula di laboratorio informatico.

Orario di ricevimento

Consulta il sito web di Matteo Farnè