11396 - ANALISI STATISTICA MULTIVARIATA

Scheda insegnamento

Anno Accademico 2019/2020

Conoscenze e abilità da conseguire

Al termine del corso, lo studente possiede una conoscenza dell'Analisi Statistica Multivariata per il trattamento dei dati. E' in grado di utilizzare gli strumenti delle Distribuzioni normali multivariate, l'Analisi Multipla della Varianza, l'Analisi delle Componenti Principali e Fattoriale.

Programma/Contenuti

Prerequisiti

 La conoscenza degli strumenti della statistica di base (con particolare riferimento alle teorie della probabilità e dell’inferenza statistica) e delle funzionalità principali dei fogli di calcolo, costituiscono un prerequisito per seguire il corso con profitto.

Coloro che ritenessero di dover colmare delle lacune in tale ambito sono invitati a segnalarlo tempestivamente ai docenti in modo da poter individuare un percorso didattico atto a colmare tali lacune.

Modulo 1 - Teoria

• Applicazione di Tecniche Multivariate: concetti generali. Organizzazione dei dati: Matrici, Statistica descrittiva multivariata, Tecniche grafiche, Distanza statistica.

• Vettori e Matrici Casuali: Vettore media e Matrice di Varianza/Covarianza, Valore di Attesa, Media Marginale e Vettore Media di popolazione, Varianza e Covarizanza Marginali e Matrice di Varianza-Covarianza di popolazione.

• Campioni casuali e valori attesi per il vettore media e la Matrice di Covarianza campionarie. Varianza Generalizzata e Varianza totale campionarie.

• Distribuzione Normale multivariata: dal caso univariato al multivariato, proprietà fondamentali, curve di livello. Verosimiglianza Normale Multivariata. Comportamento per grandi campioni. Test sull'ipotesi di normalita': Plot Q-Q. Trasformazioni per quasi-normalita'.

• La Statistica T² di Hotelling: ipotesi statistiche e test di significatività, dal test t-student al test T². Regioni di confidenza e intervalli di confidenza simultanei per il vettore media di una distribuzione normale multivariata. Il caso di grandi campioni. Grafici di controllo qualità multivariato.

• Confronto di coppie di trattamenti: Statistica accoppiata. Confronto di vettori di media tra due popolazioni: Caso di uguale matrice di covarianza, Caso di matrici di covarianza diverse. Confronto di medie di varie popolazioni multivariate: dal caso univariato (test di Fisher) al caos multivariato (MANOVA: test sul Λ di Wilks).

• Modello classico di Regressione lineare multivariata. La Stima col metodo dei minimi quadrati. Regione di confidenza per i parametri di regressione. Valutazione del modello mediante i valori stimati. Stime del valore atteso e previsione di una nuova osservazione.

• Componenti Principali: definizione ed interpretazione. Componenti Principali da Variabili standardizzate. Analisi della variabilita' dei dati mediante l'uso delle componenti principali. Studio grafico dei componenti principali.

• Misure di dissimilarità (distanze). Misure di similarità e associazione. Analisi di Clusters con metodi di aggregazione.

• Introduzione ai metodi di apprendimento automatico: reti neurali e algoritmi evoluzionistici.

Modulo 2 - Laboratorio

Regressione lineare. metodo MLR. Leverages. Coefficienti di regressione. Parametri di valutazione di un modello di regressione. Coefficiente di correlazione.

Struttura multivariata dei dati. Principali operazioni matriciali trasposizione, centratura, covarianza, correlazione. Pretrattamento dei dati. Trasformazione delle variabili. Gestione dei dati mancanti.

Analisi delle componenti principali. Grafici dei loadings. Grafici degli scores. Scelta delle componenti principali (scree plot).

Analisi dei clusters. Matrice delle distanze, matrice di similarità. Dendrogrammi. Custer analisi su PCA.

Modelli e Classificazione. Metodi di classificazione. Validazione di un modello.

Metodi di regressione: modelli quantitativi. Metodo di Regressione in Componenti Principali (PCR). Metodo Partial Least Squares (PLS).

 

Testi/Bibliografia

Applied Multivariate Statistical Analysis, R. A. Johnson e D. W. Wichern, Prentice Hall, V edizione, 2002

Introduzione alla chemiometria, Tedeschi Roberto, Edises, 1998

Metodi Statistici per la Sperimentazione Biologica, A. Camussi, F. Möller, E. Ottaviano, M. Sari Gorla, Zanichelli, II edizione, 1995.

Il materiale didattico presentato a lezione non è sostitutivo dei testi di riferimento ma integrativo di questi, e costituisce una guida per la selezione e la comprensione degli argomenti da trattare. Sarà reso disponibile dall’inizio delle lezioni. Si segnala inoltre che potrebbe subire modifiche durante il corso.

Metodi didattici

L’insegnamento si compone di 6 CFU suddivisi in 2 moduli.

Il primo modulo (4 CFU, 32 ore, docente Assimo Maris) è prevalentemente teorico e si svolge tramite lezioni frontali ed esercizi numerici svolti in aula.

Il secondo modulo (2 CFU, 24 ore, docente Giovanni Valenti) concerne esercitazioni pratiche in laboratorio adeguatamente supportate da una specifica introduzione teorica.

 Le esercitazioni pratiche vengono svolte sia nel Laboratorio Informatico dotato di computers che in aula utilizzando i computer portatili degli studenti, in modo che gli studenti acquisiscano dimestichezza con i più comuni metodi utilizzati per la analisi statistica dei dati.

Modalità di verifica dell'apprendimento

La verifica dell'apprendimento avviene attraverso il solo esame finale, che accerta l'acquisizione delle conoscenze e delle abilità attese.

L'esame finale è costituito da 2 prove distinte per i 2 moduli.

Modulo 1: risoluzione di un esercizio numerico (ammesso l'uso di materiale di supporto cartaceo quale libri di testo e appunti, mentre non sono ammessi supporti informatici) e interrogazione orale della durata di circa 30 minuti.

Modulo 2: prova pratica in laboratorio informatico della durata di 120 minuti.

L'esame si ritiene superato quando risultano sufficienti entrambe le prove.

Il voto finale, espresso in trentesimi, viene calcolato come media pesata sui crediti corrispondenti delle votazioni acquisite nelle due prove.

Strumenti a supporto della didattica

1) Lezioni (ed esercizi) tenute alla lavagna e con supporto del video-proiettore. Dispense.

2) Esercitazioni al calcolatore.

3) Il materiale didattico presentato a lezione verrà messo a disposizione dello studente in formato elettronico tramite Insegnamenti On Line.

Orario di ricevimento

Consulta il sito web di Assimo Maris

Consulta il sito web di Giovanni Valenti