Programme détaillé

Le certificat comporte 7 modules de formation en présentiel (22 jours / 154h).
Des activités pédagogiques en ligne correspondant à 26h d’enseignements auront lieu entre chaque cours présentiel.

Un projet Fil Rouge sert à valider les compétences acquises. Il vise à mettre en oeuvre un projet Data depuis la phase de compréhension du problème jusqu’au déploiement en passant par la préparation des données et leur traitement tout au long de la formation.

MODULE 1 : INTRODUCTION AU BIG DATA (2 jours) 

1. L’écosystème Big Data : technologie, solutions, entreprises
2. Méthodologies et process de mise en œuvre : dimensions, scalabilité
3. Le Big data en entreprise : interactions entre défis technologiques, dimensions et métiers [EN DISTANCIEL]
4. Enjeux et gouvernance de la donnée en entreprise : acteurs, sécurité, éthique

MODULE 2 : BASES DES DONNEES AVANCEES NOSQL (3 jours) 

1. Les différents formats de données : comparatif des différents types de bases de données (structurées, semi-structurées, et non structurées)
2. Architecture des différentes bases NoSQL et technologies de données distribuées [EN DISTANCIEL]
3. Identification et déploiement des formats de bases de données les plus pertinents pour son projet et ses traitements (NoSQL, graphes, etc)

MODULE 3 : ECOSYSTEME HADOOP (4 jours) 

1. L’écosystème Hadoop (langage, stockage, modèle de calcul, administration, streaming)
2. Architecture de projets Big Data
3. Conception de projets Big Data hautement parallélisés [EN DISTANCIEL]
4. Manipulation des données avec Hive & Flume

MODULE 4 : INTELLIGENCE ARTIFICIELLE ET MACHINE LEARNING (3 jours) 

1. Introduction au Data Mining
2. Mise en forme des données : Feature Engineering
3. Mise en oeuvre des principaux algorithmes de machine learning dans un contexte de projet Big Data
4. Industrialisation des modèles et passage à l’échelle (scalabilité)

MODULE 5 : APPLICATION BIG DATA EN MODE BATCH (4 jours) 

1. Développement et optimisation d’applications avec Apache Spark
2. Création d’applications distribuées avec Java en se basant sur le paradigme MapReduce [EN DISTANCIEL]
3. Automatisation et orchestration des traitements avec Oozie

MODULE 6 : APPLICATIONS BIG DATA EN STREAMING (4 jours) 

1. Déploiement et gestion d’un cluster pour traiter les données en streaming
2. Gestion des applications en temps réel avec Kafka [EN DISTANCIEL]
3. Développement d’applications avec Apache Spark Streaming

MODULE 7 : CONCEPTION ET GESTION D’UN PROJET BIG DATA (2 jours) 

1. Projet Big Data : comprendre les spécificités technologiques, organisationnelles et juridiques
2. Mise en place et pilotage d’une équipe projet Big Data [EN DISTANCIEL]
3. Problématiques de protection et de sécurité des projets Big Data 

MODULE 8 : SOUTENANCES (1 – 2 jours) 

En fonction du nombre de participants, les soutenances de projets se tiennent sur une ou deux journées.

« transformer les donnees brutes en connaissances »