23741 - METODI STATISTICI PER IL DATA MINING

Scheda insegnamento

  • Docente Stefania Mignani

  • Moduli Stefania Mignani (Modulo 1)
    Stefania Mignani (Modulo 2)

  • Crediti formativi 10

  • SSD SECS-S/01

  • Modalità didattica Convenzionale - Lezioni in presenza (Modulo 1)
    Convenzionale - Lezioni in presenza (Modulo 2)

  • Lingua di insegnamento Italiano

SDGs

L'insegnamento contribuisce al perseguimento degli Obiettivi di Sviluppo Sostenibile dell'Agenda 2030 dell'ONU.

Istruzione di qualità Industria, innovazione e infrastrutture Ridurre le disuguaglianze

Anno Accademico 2019/2020

Conoscenze e abilità da conseguire

Al termine del corso lo studente conosce le problematiche e le metodologie statistiche che sono alla base dell'attività di estrazione di conoscenza da grandi moli di dati. In particolare, lo studente è in grado di: - strutturare correttamente un processo di data mining - scegliere tra gli strumenti metodologici quelli più adeguati a perseguire l'obiettivo in esame - interpretare criticamente i risultati.

Programma/Contenuti

Prerequisiti:

Fondamenti di statistica descrittiva e inferenziale. Elementi di calcolo delle probabilità . Modello di regressione lineare multipla.

Programma/Contenuti

Modulo I

- Introduzione: il Data Mining e la Statistica

- Preparazione dei dati: identificazione delle fonti, valutazione della qualità dei dati, studio delle caratteristiche delle variabili.

- Pulizia dei dati: identificazione trattamento degli outliers in ambito uni- e multi-variato; trattamento dei dati mancanti.

- Trasformazioni di variabili. Tecniche di riduzione del volume dei dati.

- Analisi delle associazioni

- Introduzione ai modelli predittivi: regressione e classificazione.

- Modelli parametrici: modelli lineari di regressione; modello di regressione logistica.

- Metodi di partizione ricorsiva e alberi decisionali.

Modulo II

- Criteri di valutazione della performance di un modello predittivo, in problemi di regressione e in problemi di classificazione (curva ROC, curva LIFT)

- Modelli non parametrici per la stima della funzione di regressione: smoothers, modelli additivi di regressione non parametrica. Classificatori non parametrici: classificatore knn, classificatore Naive Bayes.

- Modelli predittivi a rete neurale: reti Multi-Layer Perceptron; tecniche di regolarizzazione.

- Metodi di cluster analysis. Metodi gerarchici e partitivi.

Sono previste attività di laboratorio sull'uso del software SAS Enterprise Miner ed R.

Testi/Bibliografia

Oltre al materiale didattico depositato on-line dal docente su IOL, si consiglia:

Hastie T. Tibshirani R., Friedman J. The Elements of Statistical Learning. Data Mining, Inference and Prediction , Springer-Verlag, New York, 2008

Andrea Cerioli, Mauro Zani, Analisi dei dati e data mining per le decisioni aziendali. Giuffrè Editore, 2007

Giudici P. Data Mining: Modelli informatici, statistici e applicazioni, McGraw Hill, 2005 •

Azzalini A., Scarpa B. Data analysis and data mining. An introduction, Oxford University Press, 2012 •

Metodi didattici

Il corso è strutturato in lezioni frontali in aula, alle quali si alternano attività di esercitazione utilizzando il software R e SAS: nelle lezioni frontali vengono approfonditi gli aspetti metodologici degli strumenti statistici presentati; nelle esercitazioni, i metodi presentati a lezione vengono applicati su data set relativi a specifici casi di studio.

L'obiettivo dell'attività di laboratorio è di consolidare le conoscenze acquisite durante le lezioni frontali, e di sviluppare capacità critiche nella scelta degli strumenti metodologici più adeguati al problema in esame e nell'interpretazione dei risultati.

Modalità di verifica dell'apprendimento

La verifica dell'apprendimento avviene mediante il solo esame finale, che mira a verificare l'apprendimento dei metodi statistici presentati durante il corso, nonchè le capacità critiche maturate dallo studente nella progettazione di un'attività di mining.

L'esame consiste in una prova scritta, composta da quesiti riguardanti sia aspetti teorici sia relativi all'interpretazione e alla lettura critica dei risultati di una specifica analisi di data mining condotta con un software dedicato.

La prova orale è facoltativa e può avvenire previo superamento dello scritto all'interno del medesimo appello d'esame. La votazione complessiva è espressa in trentesimi e tiene conto dell'esito della prova scritta e di quella orale: la valutazione ottenuta nella prova scritta può aumentare o diminuire al più di 3 trentesimi.

Strumenti a supporto della didattica

Lavagna; PC; videoproiettore; aula di laboratorio informatico.

Orario di ricevimento

Consulta il sito web di Stefania Mignani