33400 - CAMPIONAMENTO E ANALISI DEI DATI

Anno Accademico 2018/2019

  • Docente: Michele Scagliarini
  • Crediti formativi: 8
  • SSD: SECS-S/01
  • Lingua di insegnamento: Italiano
  • Moduli: Michele Scagliarini (Modulo 1) Gabriele Soffritti (Modulo 2)
  • Modalità didattica: Convenzionale - Lezioni in presenza (Modulo 1) Convenzionale - Lezioni in presenza (Modulo 2)
  • Campus: Bologna
  • Corso: Laurea in Scienze statistiche (cod. 8873)

Conoscenze e abilità da conseguire

Al termine del corso lo studente conosce i fondamenti metodologici di alcune delle principali tecniche statistiche per l'analisi di matrici di dati e gli aspetti fondamentali dell'inferenza statistica in popolazioni finite e dei metodi di campionamento statistico. In particolare lo studente è in grado di: - utilizzare i metodi classici di riduzione delle dimensioni - riconoscere gruppi di unità non noti a priori - affrontare il problema della classificazione - interpretare criticamente l'output di alcune procedure di R per l'analisi multidimensionale dei dati - proporre i principali piani di campionamento alternativi al campionamento casuale semplice e valutarne le proprietà

Contenuti

Modulo 1: Metodi di Campionamento
Docente: Michele Scagliarini

1. Introduzione, Popolazione e Campione (4 ore).
-Presentazione del corso
-Aspetti generali sul campionamento da popolazioni finite
-Definizione di popolazione e sua descrizione
-Definizione di campione e universo dei campioni
-Descrizione del campione

2. Aleatorietà del campionamento e stimatori (4 ore).
-Definizione di piano di campionamento: probabilità di estrazione, probabilità di inclusione del primo e del secondo ordine con esempi.
-Stimatore lineare e omogeneo e sue proprietà

3. Il campionamento casuale semplice (4 ore).
-campionamento casuale semplice con reintroduzione
-campionamento casuale semplice senza reintroduzione
-esercitazioni

4. Il campionamento a probabilità variabile (6 ore).
-Lo stimatore di Horvitz Thompson
-Lo stimatore di Hansen Hurwitz.
-Esercitazioni

5. L'impiego di variabili ausiliarie nel campionamento casuale semplice (4 ore)
-Lo stimatore per quoziente
-Lo stimatore per regressione
-Esercitazioni

6. Il campionamento stratificato (5 ore)
-Allocazione ottimale
-Allocazione proporzionale

7. Esercitazioni finali (3 ore)

Modulo 2: Analisi dei dati
Docente: Gabriele Soffritti

  • Matrici di dati e matrici derivate per l’analisi statistica multivariata (2 ore)

  • Analisi dei gruppi (6 ore)
    Metodi gerarchici aggregativi
    Metodi partitivi

  • Analisi delle componenti principali (6 ore)
    Interpretazione geometrica
    Sviluppi formali

  • Analisi fattoriale (6 ore)
    Il modello fattoriale classico: specificazione, identificazione e stima
    Rotazione degli assi fattoriali
    Determinazione dei punteggi fattoriali

  • Analisi discriminante (6 ore)
    Regole di classificazione basate su modelli probabilistici: criterio della minimizzazione della probabilità totale di una errata classificazione, criterio del rapporto di verosimiglianze
    Regola di classificazione lineare di Fisher
    Metodi per la stima del tasso di errata classificazione

  • Funzioni disponibili nel software statistico R per l’analisi delle componenti principali, l’analisi fattoriale, l’analisi dei gruppi, l’analisi discriminante (4 ore)
    Descrizione della sintassi, delle funzionalità e dell’output
    Esempi illustrativi di analisi eseguite in R e commento dei risultati

Testi/Bibliografia

Modulo 1: Metodi di Campionamento

Dispensa scaricabile dal web: Daniela Cocchi "Teoria dei Campioni (corso base)".

Ulteriore materiale didattico sarà fornito dal docente durante le lezioni.

Testi integrativi consigliati

  • P.L. Conti,  D. Marella, Campionamento da popolazioni finite. Il disegno campionario. Springer-Verlag Italia 2012.
  • Cicchitelli, G., Herzel, A., Montanari, G.E.: Il campionamento statistico. Il Mulino, Bologna (1992).

 

Modulo 2: Analisi dei dati

Materiale indispensabile per la preparazione dell'esame

  • S. Mignani, A. Montanari, Appunti di analisi statistica multivariata. Esculapio, Bologna, 1994. Capitoli 3, 4, 5, 7.

  • Dispensa del docente contenente le slide utilizzate durante le lezioni.

La dispensa del docente è disponibile nella piattaforma e-Learning "Insegnamenti online - Supporto online alla didattica" dell'Alma Mater Studiorum - Università di Bologna (https://iol.unibo.it/). L'accesso è riservato agli studenti iscritti all'Ateneo di Bologna e avviene tramite le credenziali unibo ottenute al momento dell'immatricolazione. La dispensa sarà a disposizione degli studenti nella piattaforma all'inizio delle lezione relative al Modulo di Analisi dei Dati.

Poiché la dispensa contiene unicamente le slide utilizzate a lezione, essa è priva dei commenti e delle spiegazioni fornite oralmente dal docente e, pertanto non è completamente autoesplicativa.

Ai fini della preparazione dell’esame è indispensabile avvalersi anche del libro di testo.

Testi integrativi consigliati

  • B. Everitt, T. Hothorn, An introduction to applied multivariate analysis with R. Springer, 2011. Capitoli 1, 3, 5, 6.

  • W. K. Hardle, Z. Hlavka, Multivariate statistics, exercises and solutions. Second edition. Springer, 2015, Capitoli 11, 12, 13, 14.

Metodi didattici

Modulo 1: Metodi di Campionamento

Lezioni frontali ed esercitazioni

La frequenza delle lezioni, pur non essendo obbligatoria, è fortemente raccomandata.

L'aver frequentato o meno le lezioni non sarà tenuto in nessuna considerazione nella valutazione della preparazione in sede d'esame.

Modulo 2: Analisi dei dati

Lezioni in aula.

Nel corso delle lezioni, per ciascuna tecnica di analisi statistica multivariata presente nel programma del modulo vengono innanzitutto illustrati gli aspetti metodologici. Sono poi descritte le funzioni e gli script di R utili per eseguire analisi di dati. Vengono infine presentati e discussi esempi di analisi di dati reali realizzate in R.

La frequenza delle lezioni, pur non essendo obbligatoria, è fortemente raccomandata.

L'aver frequentato o meno le lezioni non sarà tenuto in nessuna considerazione nella valutazione della preparazione in sede d'esame.

Modalità di verifica e valutazione dell'apprendimento

L'esame mira a verificare il raggiungimento dei seguenti obiettivi didattici:

  • conoscenza degli aspetti fondamentali del campionamento da popolazioni finite;

  • capacità di utilizzare le conoscenze acquisite per progettare piani di campionamento;

  • conoscenza dei metodi statistici di analisi multivariata trattati nel corso;

  • capacità di applicare i metodi di analisi multivariata all'analisi di matrici di dati.

L'esame è scritto. La valutazione complessiva è espressa in trentesimi ed è data dalla media aritmetica delle valutazioni conseguite nei due moduli.

La prova scritta del modulo di Metodi di campionamento consiste in 4 o 5 esercizi da svolgere in un ora. Durante la prova scritta è consentito l’uso di un formulario (massimo un foglio protocollo) mentre non è consentita la consultazione di appunti nè di libri; per lo svolgimento dei calcoli è necessario portare con sè una calcolatrice.

La prova scritta del modulo di Analisi dei dati si svolge in aula, ha durata un’ora e si compone complessivamente di quattro esercizi con domande aperte, alcune teoriche e altre pratiche. Le domande teoriche riguardano i metodi statistici di analisi multivariata trattati a lezione. Le domande pratiche richiedono lo svolgimento di esercizi. Gli esercizi possono avere, come punto di partenza, l'output di analisi condotte mediante le funzioni di R illustrate a lezione. Durante la prova scritta non è consentita la consultazione di appunti nè di libri; per lo svolgimento dei calcoli è necessario portare con sè una calcolatrice. Ai fini della determinazione della valutazione complessiva della preparazione sugli argomenti del programma di analisi dei dati, ad ogni domanda viene attribuito il medesimo punteggio massimo, pari a 8 punti. La valutazione complessiva, espressa in trentesimi, viene poi calcolata tramite la somma dei punteggi ottenuti nei quattro esercizi.

Ulteriori informazioni utili per l'esame

  • Per poter sostenere l'esame è obbligatoria l'iscrizione nelle liste ufficiali disponibili su Almaesami. Inoltre è indispensabile presentarsi all’esame con un documento di identità.

  • Non è possibile sostenere l'esame al di fuori delle date d'esame ufficiali pubblicate su Almaesami.

  • E’ possibile sostenere l’esame dei due moduli in date d’esame differenti. A questo scopo occorre iscriversi alla lista specifica disponibile su Almaesami relativa al modulo per il quale si desidera sostenere l’esame.

  • E' consentito ritirarsi durante l'esame.

  • Come previsto dall'articolo 10, comma 6, del Regolamento studenti ai sensi della L. 240/2010 e dello Statuto dell'Ateneo di Bologna, lo studente non in regola con il pagamento della quota annuale di contribuzione – anche solo con le singole rate – non può compiere alcun atto di carriera universitaria, ivi compreso il sostenimento di esami o valutazioni finali di profitto di cui al regolamento didattico di Ateneo né sostenere la prova finale.

Strumenti a supporto della didattica

Lucidi delle lezioni.

Le spiegazioni fornite a lezione devono essere opportunamente integrate con quelle presenti nei testi di riferimento (non sono sostitutive di queste ultime).

Orario di ricevimento

Consulta il sito web di Michele Scagliarini

Consulta il sito web di Gabriele Soffritti