Objectifs de la formation
- Apprendre l’analyse avancée des données avec Spark
- Effectuer des traitements de machine learning (ML) avec Spark
- Comprendre Docker et son utilité dans le cadre de l'industrialisation des flux analytiques
- Détailler et mettre en œuvre les étapes du cycle analytique avec Spark
- Apprendre l’industrialisation du flux d’analyse
- Découvrir le MLOps
Programme de la formation
Introduction
- Rappels sur l'API Spark.
- Concepts de Docker et son utilité dans les analyses de données.
- Les conteneurs Docker.
Travaux pratiques
Prise en main de l'environnement de travail, création des conteneurs Docker.
Le cycle analytique avec Spark
- Ingestion de données.
- Exploration.
- Préparation des données.
- Apprentissage.
- Industrialisation.
Echanges
Présentation de cas concrets et échanges autour des différentes étapes du cycle.
Ingestion des données.
- Le chargement de données.
- Traitements batch.
- Traitements en streaming.
- Les formats de données : images, binaires, structurés, Graph…
Travaux pratiques
Chargement de données à partir de diverses sources.
Exploration des données
- Statistiques descriptives.
- Identifier les cas aberrants, les données vides.
- Identifier les valeurs invalides et autres anomalies.
Travaux pratiques
Identifier les anomalies dans un jeu de données.
Préparation et feature engineering (processus de transformation de données)
- Nettoyage des données.
- Pipelines.
- Transformer les valeurs numériques, catégoriques, binaires et texte.
- Création de nouvelles features.
- Réduction de dimensions.
- Vectorisation.
Travaux pratiques
Préparer les données pour effectuer des analyses.
Cycle de vie du ML avec MLflow
- Cycle de vie d'un projet de machine learning.
- Présentation de la plateforme open source MLflow.
- Les composants principaux de MLflow : Tracking, Models et Projects.
- Paramètres, métriques, balises et artefacts.
Travaux pratiques
Création et utilisation d’un projet de machine learning.
Machine learning
- MLlib la bibliothèque d'apprentissage automatique de Spark et les algorithmes disponibles.
- Diviser un jeu de données.
- Configurer un modèle et l’exécuter.
- Interprétation et validation de résultats d’apprentissage.
- Introduction à Spark Streaming.
Travaux pratiques
Mise en œuvre du machine learning.
Études de cas
- Effectuer des recommandations.
- Faire des prévisions de vente.
- Analyse sémantique.
- Computer vision avec Spark et PyTorch.
- Analyse temps réel avec Spark et Kafka.
Travaux pratiques
Les paramètres d'encodage.