Apache Hadoop pour Développeurs

Hadoop Développement MapReduce

Objectifs

  • Comprendre les techniques de développement avec MapReduce dans l'environnement Hadoop.
  • Connaître les principes du framework Hadoop et savoir utiliser la technologie MapReduce pour paralléliser des calculs sur des volumes importants de données.

Programme

Introduction
  • Les fonctionnalités du framework Hadoop
  • Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
  • Utilisation de yarn pour piloter les jobs mapreduce.
MapReduce
  • Principe et objectifs du modèle de programmation MapReduce.
  • Fonctions map() et reduce(). Couples (clés, valeurs).
  • Implémentation par le framework Hadoop.
  • Etude de la collection d’exemples.
  • Travaux pratiques : Rédaction d’un premier programme et exécution avec Hadoop.
Programmation
  • Configuration des jobs, notion de configuration.
  • Les interfaces principales : mapper, reducer,
  • La chaîne de production : entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie.
  • partitioner, outputcollector, codecs, compresseurs..
  • Format des entrées et sorties d’un job MapReduce : InputFormat et OutputFormat.
  • Travaux pratiques : type personnalisés : création d’un writable spécifique. Utilisation. Contraintes.
Outils complémentaires
  • Mise en oeuvre du cache distribué.
  • Paramétrage d’un job : ToolRunner, transmission de propriétés.
  • Accès à des systèmes externes : S3, hdfs, har, …
  • Travaux pratiques : répartition du job sur la ferme au travers de yarn.
Streaming
  • Définition du streaming map/reduce.
  • Création d’un job map/reduce en python.
  • Répartition sur la ferme. Avantage et inconvénients.
  • Liaisons avec des systèmes externes.
  • Introduction au pont HadoopR
  • Travaux pratiques : suivi d’un job en streaming.
Pig
  • Présentation des pattern et best practices Map/reduce.
  • Introduction à Pig.
  • Caractéristiques du langage : latin.
  • Travaux pratiques : installation/lancement de pig.
  • Ecriture de scripts simples pig. Les fonctions de base.
  • Ajouts de fonctions personnalisées. Les UDF. Mise en oeuvre.
Hive
  • Simplification du requêtage. Etude de la syntaxe de base.
  • Travaux pratiques : Création de tables. Ecriture de requêtes.
  • Comparaison pig/hive.
Sécurité en environnement hadoop
  • Mécanisme de gestion de l’authentification.
  • Travaux pratiques : configuration des ACLs.
Please login to get access to the quiz
Certification Hadoop avec Spark pour Développeurs de Cloudera (Prev Lesson)
(Next Lesson) Data Analyst – Analyse de données en environnement Hadoop
Back to Apache Hadoop pour Développeurs