33400 - CAMPIONAMENTO E ANALISI DEI DATI

Scheda insegnamento

SDGs

L'insegnamento contribuisce al perseguimento degli Obiettivi di Sviluppo Sostenibile dell'Agenda 2030 dell'ONU.

Istruzione di qualità

Anno Accademico 2020/2021

Conoscenze e abilità da conseguire

Al termine del corso lo studente conosce i fondamenti teorici e pratici di alcune tecniche statistiche per l'analisi di matrici di dati e gli aspetti fondamentali dell'inferenza statistica in popolazioni finite e dei metodi di campionamento statistico. In particolare lo studente è in grado di: - utilizzare le principali metodologie statistiche per l'analisi multidimensionale dei dati in modo coerente con le proprietà teoriche che le contraddistinguono - avvalersi di funzioni e procedure di R per l'analisi di matrici di dati - proporre i principali piani di campionamento alternativi al campionamento casuale semplice e valutarne le proprietà - interpretare criticamente i risultati ottenuti tramite l'impiego di metodi di campionamento e di tecniche statistiche per l'analisi multidimensionale dei dati

Contenuti

Modulo 1: Metodi di Campionamento
Docente: Michele Scagliarini

1. Introduzione, Popolazione e Campione (4 ore).
-Presentazione del corso
-Aspetti generali sul campionamento da popolazioni finite
-Definizione di popolazione e sua descrizione
-Definizione di campione e universo dei campioni
-Descrizione del campione

2. Aleatorietà del campionamento e stimatori (4 ore).
-Definizione di piano di campionamento: probabilità di estrazione, probabilità di inclusione del primo e del secondo ordine con esempi.
-Stimatore lineare e omogeneo e sue proprietà

3. Il campionamento casuale semplice (4 ore).
-campionamento casuale semplice con reintroduzione
-campionamento casuale semplice senza reintroduzione
-esercitazioni

4. Il campionamento a probabilità variabile (6 ore).
-Lo stimatore di Horvitz Thompson
-Lo stimatore di Hansen Hurwitz.
-Esercitazioni

5. L'impiego di variabili ausiliarie nel campionamento casuale semplice (4 ore)
-Lo stimatore per quoziente
-Lo stimatore per regressione
-Esercitazioni

6. Il campionamento stratificato (5 ore)
-Allocazione ottimale
-Allocazione proporzionale

7. Esercitazioni finali (3 ore)

Modulo 2: Analisi dei dati
Docente: Gabriele Soffritti

  • Matrici di dati e matrici derivate per l’analisi statistica multivariata (6 ore)

  • Analisi dei gruppi (6 ore)
    Metodi gerarchici aggregativi
    Metodi partitivi

  • Analisi delle componenti principali (6 ore)
    Interpretazione geometrica
    Sviluppi formali

  • Analisi fattoriale (6 ore)
    Il modello fattoriale classico: specificazione, identificazione e stima
    Rotazione degli assi fattoriali
    Determinazione dei punteggi fattoriali

  • Analisi discriminante (6 ore)
    Regole di classificazione basate su modelli probabilistici: criterio della minimizzazione della probabilità totale di una errata classificazione, criterio del rapporto di verosimiglianze
    Regola di classificazione lineare di Fisher
    Metodi per la stima del tasso di errata classificazione

  • Funzioni disponibili nel software statistico R per l’analisi delle componenti principali, l’analisi fattoriale, l’analisi dei gruppi, l’analisi discriminante (8 ore)
    Descrizione della sintassi, delle funzionalità e dell’output
    Esempi illustrativi di analisi eseguite in R e commento dei risultati

La stima del tempo dedicato ai vari argomenti del programma tiene conto anche delle esercitazioni aggiuntive che verranno svolte con cadenza settimanale a partire dalla seconda settimana di lezione.

Testi/Bibliografia

Modulo 1: Metodi di Campionamento

Materiale indispensabile per la preparazione dell'esame

Dispensa completa per il corso: Daniela Cocchi "Teoria dei Campioni (corso base)".  

Dispense del docente contenenti slide  utilizzate durante le lezioni.

Tutto il materiale didattico è a disposizione all'interno della piattaforma "Virtual learning environment" (https://virtuale.unibo.it/).

 

Testi integrativi consigliati

  • Yves TILLé, Maria Michela Dickson, Giuseppe Espa, ELEMENTI DI CAMPIONAMENTO E STIMA DA POPOLAZIONI FINITE, Pearson Italia, 2020.

  • P.L. Conti,  D. Marella, Campionamento da popolazioni finite. Il disegno campionario. Springer-Verlag Italia 2012.
  • Cicchitelli, G., Herzel, A., Montanari, G.E.: Il campionamento statistico. Il Mulino, Bologna (1992).

 

Modulo 2: Analisi dei dati

Materiale indispensabile per la preparazione dell'esame

  • S. Mignani, A. Montanari, Appunti di analisi statistica multivariata. Esculapio, Bologna, 1994. Capitoli 3, 4, 5, 7.

  • Dispensa del docente contenente una serie di domande d'esame.

  • Dispense del docente contenenti alcune slide utilizzate durante le lezioni.

Le dispense del docente saranno messe a disposizione degli studenti all'inizio delle lezioni all'interno della piattaforma "Virtual learning environment" (https://virtuale.unibo.it/). L'accesso è riservato agli studenti iscritti all'Ateneo di Bologna e avviene tramite le credenziali unibo ottenute al momento dell'immatricolazione. 

Testi integrativi consigliati

  • B. Everitt, T. Hothorn, An introduction to applied multivariate analysis with R. Springer, 2011. Capitoli 1, 3, 5, 6.

  • W. K. Hardle, Z. Hlavka, Multivariate statistics, exercises and solutions. Second edition. Springer, 2015, Capitoli 11, 12, 13, 14.

  • R. Johnson, D. Wichern, Applied multivariate statistical analysis. Sixth edition. Pearson, 2014. Capitoli 8, 9, 11, 12.

Metodi didattici

Modulo 1: Metodi di Campionamento

Lezioni frontali ed esercitazioni

La frequenza delle lezioni, pur non essendo obbligatoria, è fortemente raccomandata.

L'aver frequentato o meno le lezioni non sarà tenuto in nessuna considerazione nella valutazione della preparazione in sede d'esame.

Modulo 2: Analisi dei dati

Lezioni ed esercitazioni svolte tramite l'impiego del software R.

Nel corso delle lezioni, per ciascuna tecnica di analisi statistica multivariata presente nel programma del modulo vengono innanzitutto illustrati gli aspetti metodologici. Durante le esercitazioni sono descritte le funzioni e gli script di R utili per eseguire analisi di dati; sono inoltre presentati e discussi esempi di analisi di dati reali realizzate in R.

La frequenza delle lezioni e delle esercitazioni, pur non essendo obbligatoria, è fortemente raccomandata. 

L'aver frequentato o meno le lezioni non sarà tenuto in nessuna considerazione nella valutazione della preparazione in sede d'esame.

Modalità di verifica e valutazione dell'apprendimento

Modalità straordinarie di verifica dell’apprendimento per il modulo 1 (Metodi di campionamento) per l’appello del 3 Novembre 2020

  • Una prova obbligatoria da sostenersi in presenza oppure online tramite le piattaforme EOL e ZOOM. Le prove per gli studenti in presenza e per quelli online saranno equivalenti.
  • Per poter sostenere l'esame con queste modalità straordinarie è comunque obbligatoria l'iscrizione nelle liste ufficiali disponibili su Almaesami. Gli studenti che intendono sostenere l'esame con modalità online dovranno iscriversi nella lista dove è indicata l'Aula Virtuale. Gli studenti che intendono sostenere l'esame in presenza dovranno iscriversi nella lista dove è indicata un'aula fisica oppure aula da definire
  • Per poter sostenere la prova online ogni studente dovrà utilizzare un PC in grado di collegarsi contemporaneamente a tali piattaforme. Durante l’intero svolgimento della prova ogni studente dovrà rimanere collegato ad entrambe le piattaforme, mantenere attivo sia il microfono sia la videocamera del proprio PC; per tutta la durata della prova dovrà inoltre mantenere attiva la condivisione del proprio desktop con il docente. Durante la prova non sarà ammesso l’uso di internet, smartphone o tablet.
  • Sia per gli studenti in presenza sia per quelli online è consentito la consultazione del formulario e per lo svolgimento dei calcoli sarà possibile utilizzare una calcolatrice.
  • La prova d’esame si comporrà di un compito con esercizi ed eventualmente alcune domande teoriche. La durata complessiva della prova sarà di 60 minuti (più 10 minuti per la consegna online). Per gli studenti online la prova sarà erogata da EoL con la modalità compito.
  • Gli studenti in presenza svolgeranno la prova scritta su un foglio protocollo e al termine dell’esame consegneranno il loro elaborato al docente.
  • Gli studenti online svolgeranno la prova scritta utilizzando dei fogli bianchi. Su ogni foglio dovranno riportare Nome, Cognome e Matricola. Terminata la prova gli studenti dovranno fotografare con lo smartphone i fogli con il loro elaborato e salvarlo, preferibilmente in .pdf (al limite anche in .jpg), in un file unico, nominato CognomeNome.pdf. (Nel caso di difficoltà nel creare un file unico potranno andare bene più file, uno per foglio, opportunamente nominati CognomeNome1.jpg, CognomeNome2.jpg….).
  • Ogni studente dovrà obbligatoriamente consegnare il file (o i file) creato tramite la modalità di consegna, o upload, presente su EoL. Lo studente dovrà assicurarsi di eseguire la procedura di consegna completando tutti i passaggi indicati dal sistema. La consegna va effettuata entro 70 minuti dall’erogazione della prova. Dopo tale tempo non sarà più possibile consegnare il compito svolto.
  • Prima della partecipazione alla prova online tramite PC verrà verificata l’identità di ogni studente tramite un valido documento di riconoscimento. Gli studenti per i quali non sia possibile procedere con tale verifica non potranno partecipare all’esame. Durante la prova online tramite PC e i colloqui saranno adottati opportuni provvedimenti atti a prevenire e reprimere comportamenti che possano turbare il regolare svolgimento dell’esame.
  • Alcune istruzioni per sostenere un esame con Teams e Zoom sono disponibili sul portale dell'Ateneo: https://www.unibo.it/it/servizi-e-opportunita/servizi-online/servizi-online-per-studenti-1/lezioni-ed-esami-online

L'esame mira a verificare il raggiungimento dei seguenti obiettivi didattici:

  • conoscenza degli aspetti fondamentali del campionamento da popolazioni finite;

  • capacità di utilizzare le conoscenze acquisite per progettare piani di campionamento;

  • conoscenza dei metodi statistici di analisi multivariata trattati nel corso;

  • capacità di applicare i metodi di analisi multivariata all'analisi di matrici di dati.

L'esame è scritto. L'esame s'intende superato se la valutazione in ognuno dei due moduli è positiva. La valutazione complessiva è espressa in trentesimi ed è data dalla media aritmetica delle valutazioni conseguite nei due moduli.

La prova scritta del modulo di Metodi di campionamento consiste in esercizi e da domande teoriche aperte. La prova va svolta in un ora. Durante la prova scritta è consentito l’uso di un formulario (massimo un foglio protocollo) mentre non è consentita la consultazione di appunti nè di libri; per lo svolgimento dei calcoli è necessario portare con sè una calcolatrice.

La prova scritta del modulo di Analisi dei dati si svolge in aula, ha durata un’ora e si compone complessivamente di quattro esercizi con domande aperte, alcune teoriche e altre pratiche. Le domande teoriche riguardano i metodi statistici di analisi multivariata trattati a lezione. Le domande pratiche richiedono lo svolgimento di esercizi. Gli esercizi possono avere, come punto di partenza, l'output di analisi condotte mediante le funzioni di R illustrate a lezione. Durante la prova scritta non è consentita la consultazione di appunti nè di libri; per lo svolgimento dei calcoli è necessario portare con sè una calcolatrice. Ai fini della determinazione della valutazione complessiva della preparazione sugli argomenti del programma di analisi dei dati, ad ogni domanda viene attribuito il medesimo punteggio massimo, pari a 8 punti. La valutazione complessiva, espressa in trentesimi, viene poi calcolata tramite la somma dei punteggi ottenuti nei quattro esercizi.

Ulteriori informazioni utili per l'esame

  • Per poter sostenere l'esame è obbligatoria l'iscrizione nelle liste ufficiali disponibili su Almaesami. Inoltre è indispensabile presentarsi all’esame con un documento di identità.

  • Non è possibile sostenere l'esame al di fuori delle date d'esame ufficiali pubblicate su Almaesami.

  • E’ possibile sostenere l’esame dei due moduli in date d’esame differenti. A questo scopo occorre iscriversi alla lista specifica disponibile su Almaesami relativa al modulo per il quale si desidera sostenere l’esame.

  • E' consentito ritirarsi durante l'esame.

  • Come previsto dall'articolo 13, comma 1, del Regolamento di Ateneo sulle contribuzioni studentesche (http://www.normateneo.unibo.it/regolamento-di-ateneo-sulle-contribuzioni-studentesche-1 ), lo studente con posizioni debitorie aperte, di qualsiasi natura (a titolo meramente esemplificativo: contribuzione studentesca, indennità di mora, restituzione della borsa per la mobilità internazionale, prestiti d’onore, etc.), con l’Ateneo e/o con l’Azienda Regionale per il Diritto agli Studi Superiori (ER.GO) non può effettuare alcun atto di carriera, ivi compreso il sostenimento di esami.

Eventuali modalità straordinarie di verifica dell'apprendimento dovute all'epidemia di COVID-19

Negli appelli tra Ottobre 2020 e Febbraio 2021, su indicazioni dell'Ateneo, potranno essere attivati gli esami a distanza. In questo caso le prove scritte si svolgeranno online tramite le piattaforme EOL, TEAMS e ZOOM.

Maggiori dettagli verranno comunicati se arriveranno disposizioni in merito.

Strumenti a supporto della didattica

Lucidi delle lezioni.

Le spiegazioni fornite a lezione devono essere opportunamente integrate con quelle presenti nei testi di riferimento (non sono sostitutive di queste ultime).

Link ad altre eventuali informazioni

https://corsi.unibo.it/laurea/ScienzeStatistiche

Orario di ricevimento

Consulta il sito web di Michele Scagliarini

Consulta il sito web di Gabriele Soffritti