Scheda insegnamento
-
Docente Matteo Golfarelli
-
Moduli Matteo Golfarelli (Modulo 1)
Gianluca Moro (Modulo 2)
-
Crediti formativi 6
-
SSD ING-INF/05
-
Modalità didattica Convenzionale - Lezioni in presenza (Modulo 1)
Convenzionale - Lezioni in presenza (Modulo 2)
-
Lingua di insegnamento Italiano
-
Campus di Cesena
-
Corso Laurea Magistrale in Ingegneria e scienze informatiche (cod. 8614)
Anno Accademico 2020/2021
Conoscenze e abilità da conseguire
Al termine del corso lo studente: -conosce le principali tecniche di data mining e text mining - conosce le metodologie di gestione e sviluppo di progetto - sviluppa competenze pratiche nella generazione, nell'analisi e interpretazione dei risultati mediante esercitazioni pratiche svolte con tool commerciali e/o open source.
Contenuti
1. Introduzione al Data Mining: i possibili ambiti applicativi
2. Il processo di scoperta della conoscenza
o Progettare un processo di data mining
o La metodologia CRISP-DM
3. Comprendere e preparare i dati
o Caratteristiche dei diversi tipi di dato
o Esplorazione statistica dei dati
o Qualità dei dati
o Preprocessing: selezione e creazione degli attributi
o Misurare la Similarità e dissimilarità tra i dati
4. Le tecniche di data mining
o Classificazione con alberi di decisione e reti bayesiane
o Regole associative e sequeze
o Clustering
o Individuazione di anomalie (Outlier).
5. Le tecniche di Text Mining
o Information Retrieval per il Text Mining
o Categorizzazione di testo
o Opinion Mining
6. Interpretazione e validazione dei risultati
7. Il software Weka [http://www.cs.waikato.ac.nz/ml/weka/]
8. Analisi di casi di studio
Testi/Bibliografia
Pang-Ning Tan, Michael Steinbach, Vipin Kumar Introduction to Data Mining. Pearson International, 2006.
Christopher Manning, Hinrich Schutze, Prabhakar Raghavan. Introduction to Information Retrieval. Cambridge University Press, 2008.
Metodi didattici
Lezioni in aula ed esercitazioni in laboratorio
Modalità di verifica e valutazione dell'apprendimento
Interrogazione orale e discussione di un elaborato. L'elaborato, da concordarsi con il docente, consiste nell'implementazione di un algoritmo di data mining tra quelli disponibili in letteratura oppure nell'analisi di una banca dati con le tecniche studiate a lezione.
L'obiettivo della verifica è quello di capire se le tecniche studiate sono state comprese e se lo studente ha sviluppato capacità pratiche di operare sui dati, di comprenderne il contenuto e di scoprire informazioni nascoste.
Strumenti a supporto della didattica
Le esercitazioni in laboratorio saranno svolte principalmente utilizzando i software R e Weka
Link ad altre eventuali informazioni
http://bias.csr.unibo.it/golfarelli/DataMining/
Orario di ricevimento
Consulta il sito web di Matteo Golfarelli
Consulta il sito web di Gianluca Moro