Data Analyse

Spark – Traitement de données

Objectifs

Cette formation permet de :

  • Mettre en œuvre Spark pour optimiser des calculs.
  • Envisager l'intégration Hadoop
  • Traiter de données structurés avec Spark SQL
  • Identifier le principe de fonctionnement de stream processing ..

Programme

Introduction
  • Présentation Spark, origine du projt
  • Apports, principe de fonctionnement
  • Langages supportés
Premiers pas
  • Utilisation du shell Spark avec Scala ou Python
  • Gestion du cache
Règles de développement
  • Mise en pratique en Java et Python
  • Notion de contexte Spark
  • Différentes méthodes de création des RDD: depuis un fichier texte, un stockage externe.
  • Manipulations sur les RDD (Resilient Distributed Dataset)
  • Fonctions, gestion de la persistence
Cluster
  • Différents cluster managers : Spark en autonome, avec Mesos, avec Yarn, avec Amazon EC2
  • Architecture : SparkContext,Cluster Manager, Executor sur chaque noeud.
  • Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
  • Mise en oeuvre avec Spark et Amazon EC2
  • Soumission de jobs, supervision depuis l'interface web
Intégration hadoop
  • Travaux pratiques avec YARN
  • Création et exploitation d'un cluster Spark/YARN.
Support Cassandra
  • Description rapide de l'architecture Cassandr
  • Mise en œuvre depuis Spark.
  • Exécution de travaux Spark s'appuyant sur une grappe Cassandra.
Spark SQL
  • Optimisation des requêtes.
  • Mise en œuvre de Spark SQL.
  • Comptabilité Hive
  • Travaux pratiques : en ligne de commande avec Spark SQL, avec un pilote JDBC.
  • L'API Dataset : disponible avec Scala ou Java.
  • Collections de données distribuées.
Streaming
  • Source de données : HDFS, Flume, Kafka, …
  • Notion de Streaming
  • Contexte, Dstreams, démonstrations
  • Travaux pratiques : traitement de flux Dstreams en Java.
Mlib
  • Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistence, statistiques.
  • Support de RDD.
  • Mise en oeuvre avec les DataFrames.
GraphX
  • Fourniture d'algorithmes, d'opérateurs simplepour des calcul statistiques sur les graphes
  • Travaux pratiques : exemples d'opérations sur les graphes.
Please login to get access to the quiz
Modéliser un système d’indécisionnel (Prev Lesson)
(Next Lesson) Big Data – Mise en oeuvre pratique d’une solution complète d’analyse des données
Back to Data Analyse
Public

Cette formation s'adresse à des chefs de projet, data scientists, développeurs, …| Cette formation s'adresse à des chefs de projet, data scientists, développeurs, …

Pré-requis

Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques| Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques