Big Data Analytics

Spark Avancé

Objectifs de la formation

  • Apprendre l’analyse avancée des données avec Spark
  • Effectuer des traitements de machine learning (ML) avec Spark
  • Comprendre Docker et son utilité dans le cadre de l'industrialisation des flux analytiques
  • Détailler et mettre en œuvre les étapes du cycle analytique avec Spark
  • Apprendre l’industrialisation du flux d’analyse
  • Découvrir le MLOps


Programme de la formation

Introduction

  • Rappels sur l'API Spark.
  • Concepts de Docker et son utilité dans les analyses de données.
  • Les conteneurs Docker.

Travaux pratiques

Prise en main de l'environnement de travail, création des conteneurs Docker.

Le cycle analytique avec Spark

  • Ingestion de données.
  • Exploration.
  • Préparation des données.
  • Apprentissage.
  • Industrialisation.

Echanges

Présentation de cas concrets et échanges autour des différentes étapes du cycle.

Ingestion des données.

  • Le chargement de données.
  • Traitements batch.
  • Traitements en streaming.
  • Les formats de données : images, binaires, structurés, Graph…

Travaux pratiques

Chargement de données à partir de diverses sources.

Exploration des données

  • Statistiques descriptives.
  • Identifier les cas aberrants, les données vides.
  • Identifier les valeurs invalides et autres anomalies.

Travaux pratiques

Identifier les anomalies dans un jeu de données.

Préparation et feature engineering (processus de transformation de données)

  • Nettoyage des données.
  • Pipelines.
  • Transformer les valeurs numériques, catégoriques, binaires et texte.
  • Création de nouvelles features.
  • Réduction de dimensions.
  • Vectorisation.

Travaux pratiques

Préparer les données pour effectuer des analyses.

Cycle de vie du ML avec MLflow

  • Cycle de vie d'un projet de machine learning.
  • Présentation de la plateforme open source MLflow.
  • Les composants principaux de MLflow : Tracking, Models et Projects.
  • Paramètres, métriques, balises et artefacts.

Travaux pratiques

Création et utilisation d’un projet de machine learning.

Machine learning

  • MLlib la bibliothèque d'apprentissage automatique de Spark et les algorithmes disponibles.
  • Diviser un jeu de données.
  • Configurer un modèle et l’exécuter.
  • Interprétation et validation de résultats d’apprentissage.
  • Introduction à Spark Streaming.

Travaux pratiques

Mise en œuvre du machine learning.

Études de cas

  • Effectuer des recommandations.
  • Faire des prévisions de vente.
  • Analyse sémantique.
  • Computer vision avec Spark et PyTorch.
  • Analyse temps réel avec Spark et Kafka.

Travaux pratiques

Les paramètres d'encodage.

Please login to get access to the quiz
Environnement R, traitement de données et analyse statistique (Prev Lesson)
Back to Big Data Analytics
Public

Professionnels qui souhaitent utiliser Spark pour faire de l’analytique en mode batch ainsi qu'en temps réel.

Pré-requis

Connaissances des API Spark, notamment RDD et DataFrame. Connaissances des algorithmes d’apprentissage supervisés et non supervisés. Maîtrise d’un des langages suivants : Scala, Python.