33400 - CAMPIONAMENTO E ANALISI DEI DATI

Anno Accademico 2023/2024

  • Docente: Michele Scagliarini
  • Crediti formativi:: 8
  • SSD: SECS-S/01
  • Lingua di insegnamento: Italiano
  • Moduli: Michele Scagliarini (Modulo 1) Gabriele Soffritti (Modulo 2)
  • Modalità didattica: Convenzionale - Lezioni in presenza (Modulo 1) Convenzionale - Lezioni in presenza (Modulo 2)
  • Campus: Bologna
  • Corso: Laurea in Scienze statistiche (cod. 8873)

Conoscenze e abilità da conseguire

Al termine del corso lo studente conosce i fondamenti teorici e pratici di alcune tecniche statistiche per l'analisi di matrici di dati e gli aspetti fondamentali dell'inferenza statistica in popolazioni finite e dei metodi di campionamento statistico. In particolare lo studente è in grado di: - utilizzare le principali metodologie statistiche per l'analisi multidimensionale dei dati in modo coerente con le proprietà teoriche che le contraddistinguono - avvalersi di funzioni e procedure di R per l'analisi di matrici di dati - proporre i principali piani di campionamento alternativi al campionamento casuale semplice e valutarne le proprietà - interpretare criticamente i risultati ottenuti tramite l'impiego di metodi di campionamento e di tecniche statistiche per l'analisi multidimensionale dei dati

Contenuti

Modulo 1: Metodi di Campionamento
Docente: Michele Scagliarini

1. Introduzione, Popolazione e Campione (4 ore).
-Presentazione del corso
-Aspetti generali sul campionamento da popolazioni finite
-Definizione di popolazione e sua descrizione
-Definizione di campione e universo dei campioni
-Descrizione del campione

2. Aleatorietà del campionamento e stimatori (4 ore).
-Definizione di piano di campionamento: probabilità di estrazione, probabilità di inclusione del primo e del secondo ordine con esempi.
-Stimatore lineare e omogeneo e sue proprietà

3. Il campionamento casuale semplice (4 ore).
-campionamento casuale semplice con reintroduzione
-campionamento casuale semplice senza reintroduzione
-esercitazioni

4. Il campionamento a probabilità variabile (6 ore).
-Lo stimatore di Horvitz Thompson
-Lo stimatore di Hansen Hurwitz.
-Esercitazioni

5. L'impiego di variabili ausiliarie nel campionamento casuale semplice (4 ore)
-Lo stimatore per quoziente
-Lo stimatore per regressione
-Esercitazioni

6. Il campionamento stratificato (5 ore)
-Allocazione ottimale
-Allocazione proporzionale

7. Esercitazioni finali (3 ore)

Modulo 2: Analisi dei dati
Docente: Gabriele Soffritti

  • Matrici di dati e matrici derivate per l’analisi statistica multivariata (6 ore)

  • Analisi dei gruppi (6 ore)
    Metodi gerarchici aggregativi
    Metodi partitivi

  • Analisi delle componenti principali (6 ore)
    Interpretazione geometrica
    Sviluppi formali

  • Analisi fattoriale (6 ore)
    Il modello fattoriale classico: specificazione, identificazione e stima
    Rotazione degli assi fattoriali
    Determinazione dei punteggi fattoriali

  • Analisi discriminante (6 ore)
    Regole di classificazione basate su modelli probabilistici: criterio della minimizzazione della probabilità totale di una errata classificazione, criterio del rapporto di verosimiglianze
    Regola di classificazione lineare di Fisher
    Metodi per la stima del tasso di errata classificazione

  • Funzioni disponibili nel software statistico R per l’analisi delle componenti principali, l’analisi fattoriale, l’analisi dei gruppi, l’analisi discriminante e svolgimento di esercizi utili per la preparazione dell'esame (10 ore).
    Descrizione della sintassi, delle funzionalità e dell’output
    Esempi illustrativi di analisi eseguite in R e commento dei risultati

La stima del tempo dedicato ai vari argomenti del programma include 5 esercitazioni aggiuntive che verranno svolte in aula cablata/elettrificata con cadenza settimanale a partire dalla prima settimana di lezione.

Testi/Bibliografia

Modulo 1: Metodi di Campionamento

Materiale indispensabile per la preparazione dell'esame

Dispensa completa per il corso: Daniela Cocchi "Teoria dei Campioni (corso base)".  

Dispense del docente contenenti slide  utilizzate durante le lezioni.

Tutto il materiale didattico è a disposizione all'interno della piattaforma "Virtual learning environment" (https://virtuale.unibo.it/).

 

Testi integrativi consigliati

  • Yves TILLé, Maria Michela Dickson, Giuseppe Espa, ELEMENTI DI CAMPIONAMENTO E STIMA DA POPOLAZIONI FINITE, Pearson Italia, 2020.

  • P.L. Conti,  D. Marella, Campionamento da popolazioni finite. Il disegno campionario. Springer-Verlag Italia 2012.
  • Cicchitelli, G., Herzel, A., Montanari, G.E.: Il campionamento statistico. Il Mulino, Bologna (1992).

 

Modulo 2: Analisi dei dati

Materiale indispensabile per la preparazione dell'esame

  •  R. Johnson, D. Wichern, Applied multivariate statistical analysis. Sixth edition. Pearson, 2014. Capitoli 8, 9, 11, 12.
  • Dispensa del docente contenente una serie di domande d'esame.

  • Dispense del docente contenenti alcune slide utilizzate durante le lezioni.

Le dispense del docente saranno messe a disposizione degli studenti all'inizio delle lezioni all'interno della piattaforma "Virtual learning environment" (https://virtuale.unibo.it/). L'accesso è riservato agli studenti iscritti all'Ateneo di Bologna e avviene tramite le credenziali unibo ottenute al momento dell'immatricolazione. 

Testi integrativi consigliati

  • S. Mignani, A. Montanari, Appunti di analisi statistica multivariata. Esculapio, Bologna, 1994. Capitoli 3, 4, 5, 7.
  • B. Everitt, T. Hothorn, An introduction to applied multivariate analysis with R. Springer, 2011. Capitoli 1, 3, 5, 6.

  • W. K. Hardle, Z. Hlavka, Multivariate statistics, exercises and solutions. Second edition. Springer, 2015, Capitoli 11, 12, 13, 14.

Metodi didattici

Modulo 1: Metodi di Campionamento

Lezioni frontali ed esercitazioni

La frequenza delle lezioni e delle esercitazioni, pur non essendo obbligatoria, è fortemente raccomandata. Per favorire una partecipazione alle lezioni che sia attiva da parte degli studenti frequentanti e interattiva tra gli studenti e il docente, le lezioni non verranno registrate.

Modulo 2: Analisi dei dati

Lezioni tenute in aula ed esercitazioni svolte in aula cablata/elettrificata tramite l'impiego del software R.

Nel corso delle lezioni, per ciascuna tecnica di analisi statistica multivariata presente nel programma del modulo vengono innanzitutto illustrati gli aspetti metodologici. Durante le esercitazioni sono descritte le funzioni e gli script di R utili per eseguire analisi di dati; sono inoltre presentati e discussi esempi di analisi di dati reali realizzate in R; infine, sono discussi e risolti alcuni esercizi tratti da prove d'esame. 

La frequenza delle lezioni e delle esercitazioni, pur non essendo obbligatoria, è fortemente raccomandata. Per favorire una partecipazione alle lezioni che sia attiva da parte degli studenti frequentanti e interattiva tra gli studenti e il docente, le lezioni non verranno registrate.

Modalità di verifica e valutazione dell'apprendimento

L'esame mira a verificare il raggiungimento dei seguenti obiettivi didattici:

  • conoscenza degli aspetti fondamentali del campionamento da popolazioni finite;

  • capacità di utilizzare le conoscenze acquisite per progettare piani di campionamento;

  • conoscenza dei metodi statistici di analisi multivariata trattati nel corso;

  • capacità di applicare i metodi di analisi multivariata all'analisi di matrici di dati.

L'esame è scritto. L'esame s'intende superato se la valutazione in ognuno dei due moduli è positiva. La valutazione complessiva è espressa in trentesimi ed è data dalla media aritmetica delle valutazioni conseguite nei due moduli. E’ possibile sostenere l’esame dei due moduli in appelli differenti e in qualsiasi ordine.

La prova scritta del modulo di Metodi di campionamento consiste in esercizi e da domande teoriche aperte. La prova va svolta in un ora. Durante la prova scritta è consentito l’uso di un formulario (massimo un foglio protocollo) mentre non è consentita la consultazione di appunti nè di libri; per lo svolgimento dei calcoli è necessario portare con sè una calcolatrice. Ai fini della determinazione della valutazione il punteggio attribuito agli esercizi risolti dallo studente è stabilito tenendo conto simultaneamente della completezza, dell'adeguatezza e della coerenza dello svolgimento rispetto a quanto richiesto nelle domande che compongono ogni esercizio. La somma dei punteggi massimi attribuiti agli esercizi presenti in una prova è pari a 32. Valutazioni complessive così determinate pari a 31 e 32 corrispondono ad un voto finale di 30 e lode. La prova si intende superata se la valutazione conseguita è almeno pari a 18.
La prova e il sistema di valutazione sono uguali per tutti gli studenti (frequentanti e non frequentanti). L'aver frequentato o meno le lezioni non è tenuto in nessuna considerazione nella valutazione della preparazione in sede d'esame.

La prova scritta del modulo di Analisi dei dati si svolge in aula, ha durata un’ora e si compone complessivamente di quattro esercizi con domande aperte di natura teorica e/o pratica. Le domande teoriche riguardano i metodi statistici di analisi multivariata trattati a lezione. Le domande pratiche richiedono lo svolgimento di esercizi. Gli esercizi possono avere, come punto di partenza, l'output di analisi condotte mediante le funzioni di R illustrate a lezione. Durante la prova scritta non è consentita la consultazione di appunti nè di libri; per lo svolgimento dei calcoli è necessario portare con sè una calcolatrice.
Ai fini della determinazione della valutazione complessiva della preparazione sugli argomenti del programma di analisi dei dati, ad ogni esercizio viene attribuito il medesimo punteggio massimo, pari a 8 punti. La somma dei punteggi massimi attribuiti agli esercizi presenti in una prova è quindi pari a 32. La valutazione complessiva della preparazione di uno studente, espressa in trentesimi, viene calcolata tramite la somma dei punteggi attribuiti ai singoli esercizi risolti dallo studente. Valutazioni complessive così determinate pari a 31 e 32 corrispondono ad un voto finale di 30 e lode.
La prova si intende superata se la valutazione conseguita è almeno pari a 18. Il punteggio attribuito agli esercizi risolti dallo studente è stabilito tenendo conto simultaneamente della completezza, dell'adeguatezza e della coerenza dello svolgimento rispetto a quanto richiesto nelle domande che compongono ogni esercizio.
La prova e il sistema di valutazione sono uguali per tutti gli studenti (frequentanti e non frequentanti). L'aver frequentato o meno le lezioni non è tenuto in nessuna considerazione nella valutazione della preparazione in sede d'esame.

Ulteriori informazioni utili per l'esame

  • Per poter sostenere l'esame è obbligatoria l'iscrizione nelle liste ufficiali disponibili su Almaesami. Inoltre è indispensabile presentarsi all’esame con un documento di identità.

  • Non è possibile sostenere l'esame al di fuori delle date d'esame ufficiali pubblicate su Almaesami.

  • E’ possibile sostenere l’esame dei due moduli in date d’esame differenti. A questo scopo occorre iscriversi alla lista specifica disponibile su Almaesami relativa al modulo per il quale si desidera sostenere l’esame.

  • E' consentito ritirarsi durante l'esame.

  • Come previsto dall'articolo 13, comma 1, del Regolamento di Ateneo sulle contribuzioni studentesche (http://www.normateneo.unibo.it/regolamento-di-ateneo-sulle-contribuzioni-studentesche-1 ), lo studente con posizioni debitorie aperte, di qualsiasi natura (a titolo meramente esemplificativo: contribuzione studentesca, indennità di mora, restituzione della borsa per la mobilità internazionale, prestiti d’onore, etc.), con l’Ateneo e/o con l’Azienda Regionale per il Diritto agli Studi Superiori (ER.GO) non può effettuare alcun atto di carriera, ivi compreso il sostenimento di esami.

Strumenti a supporto della didattica

Lucidi delle lezioni.

Le slide delle lezioni e le spiegazioni fornite a lezione devono essere opportunamente integrate con le spiegazioni presenti nei testi di riferimento.

Gli studenti con disabilità che hanno diritto e necessità di adattamenti nell'apprendimento e/o nella verifica dell'apprendimento sono invitati a segnalarlo tempestivamente ai docenti in modo da individuare le modalità di studio e/o d'esame più adeguate alla specifica situazione.

Link ad altre eventuali informazioni

https://corsi.unibo.it/laurea/ScienzeStatistiche

Orario di ricevimento

Consulta il sito web di Michele Scagliarini

Consulta il sito web di Gabriele Soffritti

SDGs

Istruzione di qualità

L'insegnamento contribuisce al perseguimento degli Obiettivi di Sviluppo Sostenibile dell'Agenda 2030 dell'ONU.