87947 - STATISTICAL DATA ANALYSIS FOR APPLIED PHYSICS

Anno Accademico 2022/2023

  • Docente: Maximiliano Sioli
  • Crediti formativi: 6
  • SSD: FIS/07
  • Lingua di insegnamento: Inglese

Conoscenze e abilità da conseguire

At the end of the course the student will be acquainted with the main statistical concepts used in Physics. After a review of the fundamentals of probability theory, parametric inferential statistics will be introduced, from point estimates and confidence intervals to hypothesis testing and goodness-of-fit. Each item will be addressed both in the Bayesian and frequentist approaches. Dedicated practical sessions will allow the student to become familiar with these conceptual tools by studying applications in Applied Physics.

Contenuti

La struttura del corso è la seguente.

Per tutti gli studenti:

  • Modulo 1, teoria (docente M. Sioli)

Solo per gli studenti di Fisica Applicata:

  • Modulo 2a, esercizi e complementi (docente C. Sala)

Solo per gli studenti di Fisica Nucleare e Subnucleare:

  • Modulo 2b, esercizi e complementi (docente M. Negrini)
  • Modulo 3b, laboratorio (docente G. Sirri)

Programma del Modulo 1:

Concetto di probabilità: definizione assiomatica, combinatoriale, frequentista e soggettivista. Probabilità condizionata. Indipendenza statistica. Teorema di Bayes.

Variabili aleatorie e densità di probabilità. Distribuzioni multivariate. Densità marginali e condizionali. Funzioni di variabili aleatorie. Caratteristiche numeriche: valore d'aspettazione, varianza, covarianza. Propagazione degli errori nel caso di variabili correlate. Esempi di distributioni: binomiale, multinomiale, poisson, esponenziale, normale, normale multivariata, chi-quadrato, Breit-Wigner, Landau.

Funzioni caratteristiche e loro utilizzo. Teorema del limite centrale.

Inferenza statistica. Informazione in ambito statistico. Informazione di Fisher. Statistiche test sufficienti.

Metodo Monte Carlo: criteri di convergenza, legge dei grandi numeri, stima di integrali e loro incertezze. Riduzione della varianza. Generatori di numeri random, uniformi e con distribuzione generica.

Caratteristiche generali degli estimatori statistici. Statistiche test ed estimatori. Estimatori per il valore di aspettazione, varianza e correlazione. Varianza degli estimatori. Metodo della massima verosimiglianza. Informazione di Fisher. Tecniche per la stima delle incertezze degli estimatori con un parametro. Tecniche per la stima delle incertezze degli estimatori nel caso multiparametrico in presenza di correlazioni. Extended Maximul Likelihood. Estimatori bayesiani, Jeffrey's priors. Metodo dei minimi quadrati, stima dei parametri e incertezze.

Test di ipotesi. Ipotesi semplici. Efficienza e potenza del test. Lemma di Neyman-Pearson. Test lineare, discriminante di Fisher. Metodi multivariati: reti neurali, Boosted Decision Tree, k-Nearest Neighbor. Significanza statistica. P-values. Look-Elsewhere Effect. Metodo chi-quadrato per i test di ipotesi.

Metodi esatti per la costruzione degli intervalli di confidenza. Caso gaussiano e poissoniano. Approccio unificato. Metodo bayesiano. Metodo CLs.

Errori sistematici e parametri di nuisance nel calcolo degli intervalli di confidenza. Metodo frequentista e bayesiano.
Proprietà asintotiche.

 

Programma del Modulo 2a:

Introduzione a R e RStudio.

Generazione di variabili casuali e distribuzioni di probabilità. Legge dei grandi numeri. Teorema del limite centrale.

Test d'ipotesi. Test t (di Student). Test F (di Fisher). P-values: significatività statistica e potenza.

Stima della massima verosimiglianza. Regressione lineare. Correlazione. Analisi della varianza. Modelli lineari generalizzati.

Regressione lineare multivariata. Multicollinearità. Metodi Lasso e Ridge.

 

Programma del Modulo 2b:

Esercizi e complementi.

 

Programma del Modulo 3b:

Parte di laboratorio: Richiami di C++ e ROOT. RooFit Workspace, Factory, modelli composti, modelli multi-dimensionali. Uso di RooStats per il calcolo di intervalli di confidenza, Profile Likelihood, Feldman-Cousins, intervalli bayesiani, con e senza parametri di nuisance. Utilizzo di TMVA come classificatore, descrizione di TMVAGui.

Testi/Bibliografia

Testi per il Modulo 1:
  • Frederick James, Statistical Methods in Experimental Physics, World Scientific, 2007

Testi per il Modulo 2a:

  • Data Analysis and Graphics using R -an Example-based approach." by John Maindonald and W. John Braun (Cambridge University Press, 2003)
  • An Introduction to Statistical Learning with Applications in R." by Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani (Springer, 2013)

 Testi per il Modulo 2b e il Modulo 3b:

  • Glen Cowan, Statistical Data Analysis, Oxford Univ. Press, 1998
  • O. Behnke et al., Data Analysis in High Energy Physics: A Practical Guide to Statistical Methods, Wiley, 2013
  •  A. G. Frodesen, O. Skjeggestad, H. Toft, Probability and Statistics in Particle Physics, Universitetforlaget, 1979
  •  G. D'Agostini, Bayesian reasoning in data analysis - A critical introduction, World Scientific Publishing, 2003

Metodi didattici

Lezioni frontali e sessioni di laboratorio con utilizzo di applicativi per la risoluzione di problemi pratici.

In considerazione della tipologia di attività e dei metodi didattici adottati, la frequenza di questa attività formativa richiede a tutti gli studenti che frequenteranno il moduli 2a e 3b la preventiva partecipazione ai moduli 1 e 2 di formazione sulla sicurezza nei luoghi di studio, [https://elearning-sicurezza.unibo.it/] in modalità e-learning.

Modalità di verifica e valutazione dell'apprendimento

Per gli studenti del corso "SDA for Applied Physics":

Esame orale per entrambi i moduli, da sostenere nello stesso appello (la commissione è formata dai docenti dei Moduli 1 e 2a). In alternativa, solo per il Modulo 2a, è possibile sostituire l'orale con la presentazione di un progetto descritto durante le lezioni.

 

Per gli studenti del corso "SDA for NSN Physics":

Esame orale per tutti e tre i moduli, da sostenere nello stesso appello (la commissione è formata dai docenti dei Moduli 1, 2b e 3b). Per poter sostenere l'orale è necessario aver completato e consegnato al docente le prove pratiche di laboratorio, che non influiscono comunque sul voto finale. Durante l'esame vengono poste domande sui tre moduli: una domanda di teoria, una verifica sulla capacità di impostazione di un esercizio pratico, una verifica sulla capacità di utilizzo degli strumenti software.

Strumenti a supporto della didattica

Le slides presentate a lezione sono disponibili su Virtuale. In alternativa scrivere un email al docente di riferimento.

Orario di ricevimento

Consulta il sito web di Maximiliano Sioli

Consulta il sito web di Claudia Sala