Mise en oeuvre des traitements Big Data avec Spark
Objectifs
- Savoir mettre en oeuvre Spark pour optimiser des calculs
- Apprendre à développer en Java et Python
- Comprendre comment manipuler des données sur les RDD (Resilient Distributed Dataset)
- Être en mesure de créer et exploiter un cluster Spark/YARN
Programme
Introduction
- Présentation de Spark, origine du projet
- Apports et principes de fonctionnement
- Langages supportés
Premiers pas
- Utilisation du shell Spark avec Scala ou Python
- Gestion du cache
Règles de développement
- Mise en pratique en Java et Python
- Notion de contexte Spark
- Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
- Manipulations sur les RDD (Resilient Distributed Dataset)
- Fonctions, gestion de la persistance
Streaming
- Objectifs, principe de fonctionnement
- Notion de StreamingContexte, DStreams, démonstrations
Cluster
- Différents cluster managers : Spark en autonome, Mesos, Yarn, Amazon EC2
- Architecture : SparkContext,Cluster Manager, Executor sur chaque noeud
- Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
- Mise en oeuvre avec Spark et Amazon EC2
- Soumission de jobs, supervision depuis l'interface web
Intégration Hadoop
- Travaux pratiques avec YARN
- Création et exploitation d'un cluster Spark/YARN
Please login to get access to the quiz
Back to Data Science