33400 - CAMPIONAMENTO E ANALISI DEI DATI

Scheda insegnamento

SDGs

L'insegnamento contribuisce al perseguimento degli Obiettivi di Sviluppo Sostenibile dell'Agenda 2030 dell'ONU.

Istruzione di qualità

Anno Accademico 2019/2020

Conoscenze e abilità da conseguire

Al termine del corso lo studente conosce i fondamenti teorici e pratici di alcune tecniche statistiche per l'analisi di matrici di dati e gli aspetti fondamentali dell'inferenza statistica in popolazioni finite e dei metodi di campionamento statistico. In particolare lo studente è in grado di: - utilizzare le principali metodologie statistiche per l'analisi multidimensionale dei dati in modo coerente con le proprietà teoriche che le contraddistinguono - avvalersi di funzioni e procedure di R per l'analisi di matrici di dati - proporre i principali piani di campionamento alternativi al campionamento casuale semplice e valutarne le proprietà - interpretare criticamente i risultati ottenuti tramite l'impiego di metodi di campionamento e di tecniche statistiche per l'analisi multidimensionale dei dati

Programma/Contenuti

Modulo 1: Metodi di Campionamento
Docente: Michele Scagliarini

1. Introduzione, Popolazione e Campione (4 ore).
-Presentazione del corso
-Aspetti generali sul campionamento da popolazioni finite
-Definizione di popolazione e sua descrizione
-Definizione di campione e universo dei campioni
-Descrizione del campione

2. Aleatorietà del campionamento e stimatori (4 ore).
-Definizione di piano di campionamento: probabilità di estrazione, probabilità di inclusione del primo e del secondo ordine con esempi.
-Stimatore lineare e omogeneo e sue proprietà

3. Il campionamento casuale semplice (4 ore).
-campionamento casuale semplice con reintroduzione
-campionamento casuale semplice senza reintroduzione
-esercitazioni

4. Il campionamento a probabilità variabile (6 ore).
-Lo stimatore di Horvitz Thompson
-Lo stimatore di Hansen Hurwitz.
-Esercitazioni

5. L'impiego di variabili ausiliarie nel campionamento casuale semplice (4 ore)
-Lo stimatore per quoziente
-Lo stimatore per regressione
-Esercitazioni

6. Il campionamento stratificato (5 ore)
-Allocazione ottimale
-Allocazione proporzionale

7. Esercitazioni finali (3 ore)

Modulo 2: Analisi dei dati
Docente: Gabriele Soffritti

  • Matrici di dati e matrici derivate per l’analisi statistica multivariata (2 ore)

  • Analisi dei gruppi (6 ore)
    Metodi gerarchici aggregativi
    Metodi partitivi

  • Analisi delle componenti principali (6 ore)
    Interpretazione geometrica
    Sviluppi formali

  • Analisi fattoriale (6 ore)
    Il modello fattoriale classico: specificazione, identificazione e stima
    Rotazione degli assi fattoriali
    Determinazione dei punteggi fattoriali

  • Analisi discriminante (6 ore)
    Regole di classificazione basate su modelli probabilistici: criterio della minimizzazione della probabilità totale di una errata classificazione, criterio del rapporto di verosimiglianze
    Regola di classificazione lineare di Fisher
    Metodi per la stima del tasso di errata classificazione

  • Funzioni disponibili nel software statistico R per l’analisi delle componenti principali, l’analisi fattoriale, l’analisi dei gruppi, l’analisi discriminante (4 ore)
    Descrizione della sintassi, delle funzionalità e dell’output
    Esempi illustrativi di analisi eseguite in R e commento dei risultati

Testi/Bibliografia

Modulo 1: Metodi di Campionamento

Materiale indispensabile per la preparazione dell'esame

Dispensa scaricabile dal web: Daniela Cocchi "Teoria dei Campioni (corso base)".

Ulteriore materiale didattico sarà fornito dal docente durante le lezioni.

Testi integrativi consigliati

  • P.L. Conti,  D. Marella, Campionamento da popolazioni finite. Il disegno campionario. Springer-Verlag Italia 2012.
  • Cicchitelli, G., Herzel, A., Montanari, G.E.: Il campionamento statistico. Il Mulino, Bologna (1992).

 

Modulo 2: Analisi dei dati

Materiale indispensabile per la preparazione dell'esame

  • S. Mignani, A. Montanari, Appunti di analisi statistica multivariata. Esculapio, Bologna, 1994. Capitoli 3, 4, 5, 7.

  • Ulteriore materiale didattico sarà fornito dal docente durante le lezioni.

Testi integrativi consigliati

  • B. Everitt, T. Hothorn, An introduction to applied multivariate analysis with R. Springer, 2011. Capitoli 1, 3, 5, 6.

  • W. K. Hardle, Z. Hlavka, Multivariate statistics, exercises and solutions. Second edition. Springer, 2015, Capitoli 11, 12, 13, 14.

  • R. Johnson, D. Wichern, Applied multivariate statistical analysis. Sixth edition. Pearson, 2014. Capitoli 8, 9, 11, 12.

Metodi didattici

Modulo 1: Metodi di Campionamento

Lezioni frontali ed esercitazioni

La frequenza delle lezioni, pur non essendo obbligatoria, è fortemente raccomandata.

L'aver frequentato o meno le lezioni non sarà tenuto in nessuna considerazione nella valutazione della preparazione in sede d'esame.

Modulo 2: Analisi dei dati

Lezioni in aula.

Nel corso delle lezioni, per ciascuna tecnica di analisi statistica multivariata presente nel programma del modulo vengono innanzitutto illustrati gli aspetti metodologici. Sono poi descritte le funzioni e gli script di R utili per eseguire analisi di dati. Vengono infine presentati e discussi esempi di analisi di dati reali realizzate in R.

La frequenza delle lezioni, pur non essendo obbligatoria, è fortemente raccomandata.

L'aver frequentato o meno le lezioni non sarà tenuto in nessuna considerazione nella valutazione della preparazione in sede d'esame.

Modalità di verifica dell'apprendimento

L'esame mira a verificare il raggiungimento dei seguenti obiettivi didattici:

  • conoscenza degli aspetti fondamentali del campionamento da popolazioni finite;

  • capacità di utilizzare le conoscenze acquisite per progettare piani di campionamento;

  • conoscenza dei metodi statistici di analisi multivariata trattati nel corso;

  • capacità di applicare i metodi di analisi multivariata all'analisi di matrici di dati.

L'esame è scritto. La valutazione complessiva è espressa in trentesimi ed è data dalla media aritmetica delle valutazioni conseguite nei due moduli.

La prova scritta del modulo di Metodi di campionamento consiste in esercizi e da domande teoriche aperte. La prova va svolta in un ora. Durante la prova scritta è consentito l’uso di un formulario (massimo un foglio protocollo) mentre non è consentita la consultazione di appunti nè di libri; per lo svolgimento dei calcoli è necessario portare con sè una calcolatrice.

La prova scritta del modulo di Analisi dei dati si svolge in aula, ha durata un’ora e si compone complessivamente di quattro esercizi con domande aperte, alcune teoriche e altre pratiche. Le domande teoriche riguardano i metodi statistici di analisi multivariata trattati a lezione. Le domande pratiche richiedono lo svolgimento di esercizi. Gli esercizi possono avere, come punto di partenza, l'output di analisi condotte mediante le funzioni di R illustrate a lezione. Durante la prova scritta non è consentita la consultazione di appunti nè di libri; per lo svolgimento dei calcoli è necessario portare con sè una calcolatrice. Ai fini della determinazione della valutazione complessiva della preparazione sugli argomenti del programma di analisi dei dati, ad ogni domanda viene attribuito il medesimo punteggio massimo, pari a 8 punti. La valutazione complessiva, espressa in trentesimi, viene poi calcolata tramite la somma dei punteggi ottenuti nei quattro esercizi.

Ulteriori informazioni utili per l'esame

  • Per poter sostenere l'esame è obbligatoria l'iscrizione nelle liste ufficiali disponibili su Almaesami. Inoltre è indispensabile presentarsi all’esame con un documento di identità.

  • Non è possibile sostenere l'esame al di fuori delle date d'esame ufficiali pubblicate su Almaesami.

  • E’ possibile sostenere l’esame dei due moduli in date d’esame differenti. A questo scopo occorre iscriversi alla lista specifica disponibile su Almaesami relativa al modulo per il quale si desidera sostenere l’esame.

  • E' consentito ritirarsi durante l'esame.

  • Come previsto dall'articolo 13, comma 1, del Regolamento di Ateneo sulle contribuzioni studentesche (http://www.normateneo.unibo.it/regolamento-di-ateneo-sulle-contribuzioni-studentesche-1 ), lo studente con posizioni debitorie aperte, di qualsiasi natura (a titolo meramente esemplificativo: contribuzione studentesca, indennità di mora, restituzione della borsa per la mobilità internazionale, prestiti d’onore, etc.), con l’Ateneo e/o con l’Azienda Regionale per il Diritto agli Studi Superiori (ER.GO) non può effettuare alcun atto di carriera, ivi compreso il sostenimento di esami.

Strumenti a supporto della didattica

Lucidi delle lezioni.

Le spiegazioni fornite a lezione devono essere opportunamente integrate con quelle presenti nei testi di riferimento (non sono sostitutive di queste ultime).

Link ad altre eventuali informazioni

https://corsi.unibo.it/laurea/ScienzeStatistiche

Orario di ricevimento

Consulta il sito web di Michele Scagliarini

Consulta il sito web di Gabriele Soffritti