11396 - ANALISI STATISTICA MULTIVARIATA

Scheda insegnamento

Anno Accademico 2018/2019

Conoscenze e abilità da conseguire

Al termine del corso, lo studente possiede una conoscenza dell'Analisi Statistica Multivariata per il trattamento dei dati. E' in grado di utilizzare gli strumenti delle Distribuzioni normali multivariate, l'Analisi Multipla della Varianza, l'Analisi delle Componenti Principali e Fattoriale.

Programma/Contenuti

L’impostazione dell’insegnamento è di tipo "problem-solving": ciascun argomento viene introdotto mediante la descrizione di un problema per la cui soluzione è opportuno impiegare strumenti statistici. Si propongono vari esempi ed applicazioni in cui gli strumenti di analisi saranno illustrati in relazione alla loro capacità di fornire evidenze empiriche utili per guidare processi di decisione aziendale. Al fine di porre lo studente in condizioni di poter utilizzare autonomamente gli strumenti statistici presentati a lezione, il corso sarà corredato di un laboratorio informatico.

Prerequisiti

La conoscenza degli strumenti della statistica di base, con particolare riferimento alle teorie della probabilità e dell’inferenza statistica, costituisce un importante prerequisito per seguire il corso con profitto. Coloro che ritenessero di dover colmare delle lacune in tale ambito sono invitati a segnalarlo tempestivamente ai docenti in modo da poter individuare un percorso didattico atto a colmare tali lacune.

Modulo 1 - Teoria

• Applicazione di Tecniche Multivariate: concetti generali. Organizzazione dei dati: Matrici, Statistica descrittiva multivariata, Tecniche grafiche, Distanza statistica.

• Vettori e Matrici Casuali: Vettore media e Matrice di Varianza/Covarianza, Valore di Attesa, Media Marginale e Vettore Media di popolazione, Varianza e Covarizanza Marginali e Matrice di Varianza-Covarianza di popolazione.

• Campioni casuali e valori attesi per il vettore media e la Matrice di Covarianza campionarie. Varianza Generalizzata e Varianza totale campionarie.

• Distribuzione Normale multivariata: dal caso univariato al multivariato, proprieta' fondamentali, curve di livello. Verosimiglianza Normale Multivariata. Comportamento per grandi campioni. Test sull'ipotesi di normalita': Plot Q-Q. Trasformazioni per quasi-normalita'.

• La Statistica T2 di Hotelling: ipotesi statistiche e test di significativita', dal test t-student al test T2. Regioni di confidenza e intervalli di confidenza simultanei per il vettore media di una distribuzione normale multivariata. Il caso di grandi campioni. Grafici di controllo qualitá multivariato.

• Confronto di coppie di trattamenti: Statistica accoppiata. Confronto di vettori di media tra due popolazioni: Caso di uguale matrice di covarianza, Caso di matrici di covarianza diverse. Confronto di medie di varie popolazioni multivariate: dal caso univariato (test di Fisher) al caos multivariato (MANOVA: test sul Λ di Wilks).

• Modello classico di Regressione lineare multivariata. La Stima col metodo dei minimi quadrati. Regione di confidenza per i parametri di regressione. Valutazione del modello mediante i valori stimati. Stime del valore atteso e previsione di una nuova osservazione.

• Componenti Principali: definizione ed interpretazione. Componenti Principali da Variabili standardizzate. Analisi della variabilita' dei dati mediante l'uso delle componenti principali. Studio grafico dei componenti principali.

• Misure di dissimilarita' (distanze). Misure di similarita' e associazione. Analisi di Clusters con metodi di aggregazione.

Modulo 2 - Laboratorio

Analisi statistica univariata. Errori casuali e sistematici. Statistica descrittiva. Intervallo di confidenza. Test di significatività

Regressione lineare. metodo MLR. Leverages. Coefficienti di regressione. Parametri di valutazione di un modello di regressione. Coefficiente di correlazione.

Struttura multivariata dei dati. Principali operazioni matriciali trasposizione, centratura, covarianza, correlazione. Pretrattamento dei dati. Trasformazione delle variabili. Gestione dei dati mancanti.

Analisi delle componenti principali. Grafici dei loadings. Grafici degli scores. Scelta delle componenti principali (scree plot).

Analisi dei clusters. Matrice delle distanze, matrice di similarità. Dendrogrammi. Custer analisi su PCA.

Modelli e Classificazione. Metodi di classificazione. Validazione di un modello.

Metodi di regressione: modelli quantitativi. Metodo di Regressione in Componenti Principali (PCR). Metodo Partial Least Squares (PLS).

Testi/Bibliografia

Applied Multivariate Statistical Analysis, R. A. Johnson e D. W. Wichern, Prentice Hall, V edizione, 2002

Introduzione alla chemiometria, Tedeschi Roberto, Edises, 1998

Metodi Statistici per la Sperimentazione Biologica, A. Camussi, F. Möller, E. Ottaviano, M. Sari Gorla, Zanichelli, II edizione, 1995.

Il materiale didattico presentato a lezione non è sostitutivo dei testi di riferimento ma integrativo di questi, e costituisce una guida per la selezione e la comprensione degli argomenti da trattare. Sarà reso disponibile dall’inizio delle lezioni. Si consiglia di non stampare il materiale con molto anticipo rispetto alla lezione di riferimento: il docente potrebbe apportarvi delle modifiche.

Metodi didattici

L’insegnamento si compone di 6 CFU suddivisi in 2 moduli. Il primo modulo (4 CFU, 32 ore, docente Assimo Maris) è prevalentemente teorico e si svolge tramite lezioni frontali ed esercizi numerici svolti in aula. Il secondo modulo (2 CFU, 30 ore, docente Giovanni Valenti) concerne esercitazioni pratiche in laboratorio adeguatamente supportate da una specifica introduzione teorica. Le esercitazioni pratiche vengono svolte sia nel Laboratorio Informatico dotato di computers che in aula utilizzando i computer portatili degli studenti, in modo che gli studenti acquisiscano dimestichezza con i più comuni metodi utilizzati per la analisi statistica dei dati.

Modalità di verifica dell'apprendimento

La verifica dell'apprendimento avviene attraverso il solo esame finale, che accerta l'acquisizione delle conoscenze e delle abilità attese.

L'esame finale è costituito da 3 prove:

1) prova scritta della durata di 90 minuti con risoluzione di un esercizio numerico (modulo 1); durante la prova scritta è ammesso l'uso di materiale di supporto cartaceo quale libri di testo e appunti, mentre non sono ammessi supporti informatici

2) prova orale della durata di circa 30 minuti (modulo 1), cui si accede superando la prova (1)

3) prova pratica in laboratorio informatico della durata di 120 minuti (modulo 2)

L'esame si ritiene superato quando risultano sufficienti tutte e tre le prove.

Il voto finale, espresso in trentesimi, viene calcolato come media delle votazioni acquisite nelle 3 prove.

Strumenti a supporto della didattica

1) Lezioni (ed esercizi) tenute alla lavagna e con supporto del video-proiettore. Dispense.

2) Esercitazioni al calcolatore

3) Il materiale didattico presentato a lezione verrà messo a disposizione dello studente in formato elettronico tramite internet.

Orario di ricevimento

Consulta il sito web di Assimo Maris

Consulta il sito web di Giovanni Valenti