Data Science

Mise en oeuvre des traitements Big Data avec Spark

Objectifs

  • Savoir mettre en oeuvre Spark pour optimiser des calculs
  • Apprendre à développer en Java et Python
  • Comprendre comment manipuler des données sur les RDD (Resilient Distributed Dataset)
  • Être en mesure de créer et exploiter un cluster Spark/YARN

Programme

Introduction
  • Présentation de Spark, origine du projet
  • Apports et principes de fonctionnement
  • Langages supportés
Premiers pas
  • Utilisation du shell Spark avec Scala ou Python
  • Gestion du cache
Règles de développement
  • Mise en pratique en Java et Python
  • Notion de contexte Spark
  • Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
  • Manipulations sur les RDD (Resilient Distributed Dataset)
  • Fonctions, gestion de la persistance
Streaming
  • Objectifs, principe de fonctionnement
  • Notion de StreamingContexte, DStreams, démonstrations
Cluster
  • Différents cluster managers : Spark en autonome, Mesos, Yarn, Amazon EC2
  • Architecture : SparkContext,Cluster Manager, Executor sur chaque noeud
  • Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
  • Mise en oeuvre avec Spark et Amazon EC2
  • Soumission de jobs, supervision depuis l'interface web
Intégration Hadoop
  • Travaux pratiques avec YARN
  • Création et exploitation d'un cluster Spark/YARN
Python Niveau 1, les bases (Prev Lesson)
(Formation suivante) Les fondamentaux des statistiques appliquées
Retour à Data Science

Pas de commentaires

Donner un commentaire