75194 - DATA MINING M

Anno Accademico 2018/2019

  • Docente: Claudio Sartori
  • Crediti formativi: 8
  • SSD: ING-INF/05
  • Lingua di insegnamento: Inglese
  • Moduli: Claudio Sartori (Modulo 1) Federico Ravaldi (Modulo 2)
  • Modalità didattica: Convenzionale - Lezioni in presenza (Modulo 1) Convenzionale - Lezioni in presenza (Modulo 2)
  • Campus: Bologna
  • Corso: Laurea Magistrale in Ingegneria informatica (cod. 0937)

Conoscenze e abilità da conseguire

At the end of the course the students know the principles and the main use cases of the data mining algorithms. The students are able to understand and apply a wide set of analysis algorithms to extract from large datasets useful relationships. The students can also design a process of data selection, transformation, analysis and interpretation to support strategic decisions.

Contenuti

MODULO 1 (Data Mining) - Prof. Claudio Sartori

Processo di scoperta della conoscenza

  • Definizione degli obiettivi
  • Selezione delle sorgenti dati
  • Filtraggio, riconciliazione e trasformazione dei dati
  • Data mining
  • Validazione e visualizzazione dei risultati

Tecniche di data mining

  • classificazione con alberi di decisione e reti neurali
  • regole associative
  • clustering/segmentazione

Processi e sistemi

  • Analisi di casi di studio
  • Esempi di utilizzo di sistemi open-source di data mining
  • Architetture di sistemi con componenti di data mining
  • Standardizzazione di informazioni del data mining: PMML.

 

MODULO 2 (Big Data Techniques) - Prof. Federico Ravaldi

At the end of the course the students know the principles, concepts and the main use cases of Big Data. The students are able to understand and apply new types of methodologies, technologies and architectures, in particular the Hadoop ecosystem. This is also thanks to the presentation of several real case studies.

(Big) Data Revolution

  • Aumento di dati e "Big Data hype"
  • Technological enablers
  • Fondamenti e definizioni di Big Data
  • Tipi di (Big) Data
  • Concetti principali alla base dei Big Data

Big Data: un cambio di paradigma

  • Nuovi ruoli e opportunità
  • Modelli e approcci organizzativi
  • Proliferazione tecnologica
  • Metodologie

Architetture per Big Data

  • NoSQL
  • Hadoop
  • Hadoop Ecosystem
  • L'evoluzione di ruolo del Data Warehouse aziendale
  • Data Lake
  • Sistemi Geospaziali e di "Location Intelligence"

Case Studies

Testi/Bibliografia

Modulo 1

Tan, Steinbach, Kumar, "Introduction to Data Mining", Addison-Wesley, 2005. ISBN : 0321321367

oppure

Witten, Frank, Hall, "Data Mining: Practical Machine Learning Tools and Techniques", Morgan-Kaufmann, ISBN: 0123748569 (3rd edition), 2016 ISBN: 0128042915 (4th edition)

L'indice delle parti di testo trattate nel corso sarà fornito all'inizio delle lezioni.

Le copie delle slides usate a lezione saranno disponibili, come ulteriore riferimento.

Modulo 2

Materiale didattico fornito dal docent (copie delle slides utilizzate a lezione, letteratura scientifica).

Letture integrative:

Rizzi, Golfarelli, "Data Warehouse Design: Modern Principles and Methodologies", 2009. ISBN-10: 0071610391

Metodi didattici

Il corso si svolge prevalentemente con attività didattica in aula. Vengono anche proposti casi di studio e indicati strumenti gratuitamente disponibili da utilizzare individualmente.

Lo studente può concordare l'Attività Progettuale di Data Mining (4CFU, registrata a parte) direttamente con i singoli docenti in base agli argomenti individuati di maggior interesse.

Modalità di verifica e valutazione dell'apprendimento

La valutazione d'esame consiste in un colloquio orale.

Lo studente deve rispondere a quattro domande complessive, due per gli argomenti di ciascun modulo. Per ciascuna domanda la valutazione è la seguente: idee base sull'argomento: 3 punti, capacità di approfondire i dettagli tecnici fino al livello trattato nelle lezioni 0-3 punti, capacità di applicare i concetti a esempi 0-2 punti. 

Per sostenere la prova d'esame è necessario iscriversi mediante liste AlmaEsami.

Strumenti a supporto della didattica

Durante le lezioni si usano principalmente slides. 

Per le esercitazioni in aula gli studenti possono portare il proprio computer portatile, saranno fornite le indicazioni per l'installazione del software necessario, costituito da strumenti open-source o comunque di libero utilizzo per scopi didattici.

Orario di ricevimento

Consulta il sito web di Claudio Sartori

Consulta il sito web di Federico Ravaldi