Data Science

Mise en oeuvre des traitements Big Data avec Spark

Objectifs

Savoir mettre en oeuvre Spark pour optimiser des calculs
Apprendre à développer en Java et Python
Comprendre comment manipuler des données sur les RDD (Resilient Distributed Dataset)
Être en mesure de créer et exploiter un cluster Spark/YARN

Programme

Introduction

Présentation de Spark, origine du projet
Apports et principes de fonctionnement
Langages supportés

Premiers pas

Utilisation du shell Spark avec Scala ou Python
Gestion du cache

Règles de développement

Mise en pratique en Java et Python
Notion de contexte Spark
Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
Manipulations sur les RDD (Resilient Distributed Dataset)
Fonctions, gestion de la persistance

Streaming

Objectifs, principe de fonctionnement
Notion de StreamingContexte, DStreams, démonstrations

Cluster

Différents cluster managers : Spark en autonome, Mesos, Yarn, Amazon EC2
Architecture : SparkContext,Cluster Manager, Executor sur chaque noeud
Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
Mise en oeuvre avec Spark et Amazon EC2
Soumission de jobs, supervision depuis l'interface web

Intégration Hadoop

Travaux pratiques avec YARN
Création et exploitation d'un cluster Spark/YARN

Please login to get access to the quiz

Back to Data Science