Spark – Traitement de données
Objectifs
Cette formation permet de :
- Mettre en œuvre Spark pour optimiser des calculs.
- Envisager l'intégration Hadoop
- Traiter de données structurés avec Spark SQL
- Identifier le principe de fonctionnement de stream processing ..
Programme
Introduction
- Présentation Spark, origine du projt
- Apports, principe de fonctionnement
- Langages supportés
Premiers pas
- Utilisation du shell Spark avec Scala ou Python
- Gestion du cache
Règles de développement
- Mise en pratique en Java et Python
- Notion de contexte Spark
- Différentes méthodes de création des RDD: depuis un fichier texte, un stockage externe.
- Manipulations sur les RDD (Resilient Distributed Dataset)
- Fonctions, gestion de la persistence
Cluster
- Différents cluster managers : Spark en autonome, avec Mesos, avec Yarn, avec Amazon EC2
- Architecture : SparkContext,Cluster Manager, Executor sur chaque noeud.
- Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
- Mise en oeuvre avec Spark et Amazon EC2
- Soumission de jobs, supervision depuis l'interface web
Intégration hadoop
- Travaux pratiques avec YARN
- Création et exploitation d'un cluster Spark/YARN.
Support Cassandra
- Description rapide de l'architecture Cassandr
- Mise en œuvre depuis Spark.
- Exécution de travaux Spark s'appuyant sur une grappe Cassandra.
Spark SQL
- Optimisation des requêtes.
- Mise en œuvre de Spark SQL.
- Comptabilité Hive
- Travaux pratiques : en ligne de commande avec Spark SQL, avec un pilote JDBC.
- L'API Dataset : disponible avec Scala ou Java.
- Collections de données distribuées.
Streaming
- Source de données : HDFS, Flume, Kafka, …
- Notion de Streaming
- Contexte, Dstreams, démonstrations
- Travaux pratiques : traitement de flux Dstreams en Java.
Mlib
- Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistence, statistiques.
- Support de RDD.
- Mise en oeuvre avec les DataFrames.
GraphX
- Fourniture d'algorithmes, d'opérateurs simplepour des calcul statistiques sur les graphes
- Travaux pratiques : exemples d'opérations sur les graphes.
Please login to get access to the quiz
Back to Data Analyse