Spark

Spark Avancé

Objectifs de la formation

  • Apprendre l’analyse avancée des données avec Spark
  • Effectuer des traitements de machine learning (ML) avec Spark
  • Comprendre Docker et son utilité dans le cadre de l’industrialisation des flux analytiques
  • Détailler et mettre en œuvre les étapes du cycle analytique avec Spark
  • Apprendre l’industrialisation du flux d’analyse
  • Découvrir le MLOps


Programme de la formation

Introduction

  • Rappels sur l’API Spark.
  • Concepts de Docker et son utilité dans les analyses de données.
  • Les conteneurs Docker.

Travaux pratiques

Prise en main de l’environnement de travail, création des conteneurs Docker.

Le cycle analytique avec Spark

  • Ingestion de données.
  • Exploration.
  • Préparation des données.
  • Apprentissage.
  • Industrialisation.

Echanges

Présentation de cas concrets et échanges autour des différentes étapes du cycle.

Ingestion des données.

  • Le chargement de données.
  • Traitements batch.
  • Traitements en streaming.
  • Les formats de données : images, binaires, structurés, Graph…

Travaux pratiques

Chargement de données à partir de diverses sources.

Exploration des données

  • Statistiques descriptives.
  • Identifier les cas aberrants, les données vides.
  • Identifier les valeurs invalides et autres anomalies.

Travaux pratiques

Identifier les anomalies dans un jeu de données.

Préparation et feature engineering (processus de transformation de données)

  • Nettoyage des données.
  • Pipelines.
  • Transformer les valeurs numériques, catégoriques, binaires et texte.
  • Création de nouvelles features.
  • Réduction de dimensions.
  • Vectorisation.

Travaux pratiques

Préparer les données pour effectuer des analyses.

Cycle de vie du ML avec MLflow

  • Cycle de vie d’un projet de machine learning.
  • Présentation de la plateforme open source MLflow.
  • Les composants principaux de MLflow : Tracking, Models et Projects.
  • Paramètres, métriques, balises et artefacts.

Travaux pratiques

Création et utilisation d’un projet de machine learning.

Machine learning

  • MLlib la bibliothèque d’apprentissage automatique de Spark et les algorithmes disponibles.
  • Diviser un jeu de données.
  • Configurer un modèle et l’exécuter.
  • Interprétation et validation de résultats d’apprentissage.
  • Introduction à Spark Streaming.

Travaux pratiques

Mise en œuvre du machine learning.

Études de cas

  • Effectuer des recommandations.
  • Faire des prévisions de vente.
  • Analyse sémantique.
  • Computer vision avec Spark et PyTorch.
  • Analyse temps réel avec Spark et Kafka.

Travaux pratiques

Les paramètres d’encodage.

MOYENS PÉDAGOGIQUES ET TECHNIQUES D’ENCADREMENT DES FORMATIONS

Modalités pédagogiques :

  • Évaluation des besoins et du profil des participants.
  • Apport théorique et méthodologique : séquences pédagogiques regroupées en différents modules.
  • Contenus des programmes adaptés en fonction des besoins identifiés pendant la formation.
  • Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de travaux pratiques, étude de cas et mise en situation.
  • Méthodes expositive, active et participative.
  • Réflexion et échanges sur cas pratiques.
  • Retours d'expériences.
  • Corrections appropriées et contrôles des connaissances à chaque étape, fonction du rythme de l’apprenant mais également des exigences requises au titre de la formation souscrite.

Éléments matériels :

  • Mise à disposition des outils nécessaires au bon déroulement des travaux pratiques.
  • Support de cours au format numérique projeté sur écran et transmis au participant en fin de la formation.

Référent pédagogique et formateur :

  • Chaque formation est sous la responsabilité du directeur pédagogique de l’organisme de formation.
  • Le bon déroulement est assuré par le formateur désigné par l’organisme de formation.
MOYENS PERMETTANT LE SUIVI ET L’APPRÉCIATION DES RÉSULTATS
  • Feuilles de présences signées des participants et du formateur par demi-journée.
  • Attestation de fin de formation mentionnant les objectifs, la nature et la durée de l’action et les résultats de l’évaluation des acquis de la formation.
Please login to get access to the quiz
(Next Lesson) Spark avec Databricks, acquérir une maîtrise avancée
Back to Spark
Public

Professionnels qui souhaitent utiliser Spark pour faire de l’analytique en mode batch ainsi qu'en temps réel.

Pré-requis

Connaissances des API Spark, notamment RDD et DataFrame. Connaissances des algorithmes d’apprentissage supervisés et non supervisés. Maîtrise d’un des langages suivants : Scala, Python.

Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en effectuant le test disponible en bas de cette page.

Lieu de formation

Intra-entreprise/à distance

Dates ou période

À définir. Nous consulter

Tarif

Sur devis. Merci de nous contacter

Modalités

Pour s’inscrire à notre formation, veuillez nous contacter par mail ou téléphone.

Démarrage de la formation sous deux semaines (délai indicatif).

Nous contacer
Informations complémentaires

Pour toute réclamation, aléas ou difficultés rencontrés pendant la formation, veuillez prendre contact avec notre organisme par téléphone ou par e-mail. Nous mettrons tout en œuvre pour trouver une solution adapter.

Formation synchrone, réalisée à distance en visioconférence via l’application Microsoft Teams ou en présentiel dans les locaux du client.

Sur le même thème