Spark Avancé

1 - Débutant

21 heures 0 mins

Big Data Analytics

Objectifs de la formation

Apprendre l’analyse avancée des données avec Spark
Effectuer des traitements de machine learning (ML) avec Spark
Comprendre Docker et son utilité dans le cadre de l'industrialisation des flux analytiques
Détailler et mettre en œuvre les étapes du cycle analytique avec Spark
Apprendre l’industrialisation du flux d’analyse
Découvrir le MLOps

Programme de la formation

Introduction

Rappels sur l'API Spark.
Concepts de Docker et son utilité dans les analyses de données.
Les conteneurs Docker.

Travaux pratiques

Prise en main de l'environnement de travail, création des conteneurs Docker.

Le cycle analytique avec Spark

Ingestion de données.
Exploration.
Préparation des données.
Apprentissage.
Industrialisation.

Echanges

Présentation de cas concrets et échanges autour des différentes étapes du cycle.

Ingestion des données.

Le chargement de données.
Traitements batch.
Traitements en streaming.
Les formats de données : images, binaires, structurés, Graph…

Travaux pratiques

Chargement de données à partir de diverses sources.

Exploration des données

Statistiques descriptives.
Identifier les cas aberrants, les données vides.
Identifier les valeurs invalides et autres anomalies.

Travaux pratiques

Identifier les anomalies dans un jeu de données.

Préparation et feature engineering (processus de transformation de données)

Nettoyage des données.
Pipelines.
Transformer les valeurs numériques, catégoriques, binaires et texte.
Création de nouvelles features.
Réduction de dimensions.
Vectorisation.

Travaux pratiques

Préparer les données pour effectuer des analyses.

Cycle de vie du ML avec MLflow

Cycle de vie d'un projet de machine learning.
Présentation de la plateforme open source MLflow.
Les composants principaux de MLflow : Tracking, Models et Projects.
Paramètres, métriques, balises et artefacts.

Travaux pratiques

Création et utilisation d’un projet de machine learning.

Machine learning

MLlib la bibliothèque d'apprentissage automatique de Spark et les algorithmes disponibles.
Diviser un jeu de données.
Configurer un modèle et l’exécuter.
Interprétation et validation de résultats d’apprentissage.
Introduction à Spark Streaming.

Travaux pratiques

Mise en œuvre du machine learning.

Études de cas

Effectuer des recommandations.
Faire des prévisions de vente.
Analyse sémantique.
Computer vision avec Spark et PyTorch.
Analyse temps réel avec Spark et Kafka.

Travaux pratiques

Les paramètres d'encodage.

Please login to get access to the quiz

Back to Big Data Analytics

Big Data Analytics

Spark Avancé

Objectifs de la formation

Programme de la formation

Introduction

Le cycle analytique avec Spark

Ingestion des données.

Exploration des données

Préparation et feature engineering (processus de transformation de données)

Cycle de vie du ML avec MLflow

Machine learning

Études de cas

Public

Pré-requis

Sur le même thème