Apache Hadoop pour Développeurs

Certification Data Analyst – Utiliser Pig, Hive et Impala avec Hadoop de Cloudera

Objectifs

  • Cette formation Data Analyst - Utiliser Pig, Hive et Impala avec Hadoop de Cloudera vous permettra de : D’appliquer l’analyse traditionnelle des données et les compétences de « business intelligence » aux Big Data
  • D'utiliser les outils permettant de manipuler et analyser des ensembles complexes de données en utilisant SQL et des langages de script familiers

Programme

INTRODUCTION DE LA FORMATION HADOOP
  • Au sujet de cette formation,
  • Au sujet de Xebia et Cloudera,
  • Logistique de la formation,
  • Introductions.
FONDAMENTAUX D’HADOOP
  • L’intérêt d’Hadoop,
  • Vue globale d’Hadoop,
  • HDFS,
  • MapReduce,
  • L’écosystème Hadoop,
  • Explication de scenarios de laboratoire,
  • Exercices hands-On : ingestion de données avec les outils Hadoop.
INTRODUCTION A PIG
  • Qu’est-ce que Pig ?
  • Les caractéristiques de Pig,
  • Cas d’utilisation de Pig,
  • Interagir avec Pig.
ANALYSE DE DONNEES BASIQUES AVEC PIG
  • Syntaxe latine de Pig,
  • Charger des données,
  • Types de données simples,
  • Définitions des champs,
  • Data Output,
  • Voir le Schema,
  • Filtrer et trier les données,
  • Les fonctions utilisées communément,
  • Exercices Hands-On : utiliser Pig pour des process ETL.
TRAITER DES DONNEES COMPLEXES AVEC PIG
  • Formats de stockage,
  • Types de données complexes/emboités,
  • Grouper,
  • Fonctions built-in pour des données complexes,
  • Itérer des données groupées,
  • Exercices Hands-On : analyser des données de campagnes publicitaires avec Pig.
OPERATIONS « MULTI-DATASET » AVEC PIG
  • Techniques pour combiner des ensembles de données,
  • Assembler des ensembles de données avec Pig,
  • Opérations de groupe,
  • Séparer des ensembles de données,
  • Exercise « Hans-On » : analyser des ensembles de données disparates avec Pig.
ETENDRE PIG
  • Ajouter de la flexibilité avec les paramètres,
  • Macros et imports,
  • UDFs,
  • Contributed functions,
  • Utiliser d’autres langages pour traiter des données avec Pig,
  • Exercice « Hans-On » : étendre Pig avec Streaming et UDFs.
TROUBLESHOOTING ET OPTIMISATION AVEC PIG
  • Résolution des problèmes avec Pig,
  • Logging,
  • Utiliser l’UI Web d’Hadoop,
  • Demo optionnelle : résolution d’un « Failed Job » avec l’UI Web,
  • Echantillonnage de données et débugage,
  • Vue d’ensemble des performances,
  • Comprendre le plan d’exécution,
  • Astuces pour améliorer la performance de votre « Pig Jobs ».
INTRODUCTION A HIVE
  • Qu’est-ce qu’Hive ?
  • Schema Hive et stockage de données,
  • Comparer Hive aux bases de données traditionnelles,
  • Hive vs. Pig,
  • Cas d’utilisation d’Hive,
  • Interagir avec Hive.
ANALYSE DE DONNEES RELATION AVEC HIVE
  • Bases de données et tableaux Hive,
  • Syntaxe HiveQL basique,
  • Types de données,
  • Assembler des ensembles de données,
  • Fonctions communes de Built-in,
  • Exercice « hands-on » : « Running Hive Queries on the Shell, Scripts and Hue ».
MANAGEMENT DE DONNEES HIVE
  • Formats de données Hive,
  • Créer des bases de données et tableaux de management Hive,
  • « Altering Databases and Tables » ( ?)
  • Tableaux auto-managés,
  • Simplifier les requêtes avec Views,
  • Stocker les résultats de requêtes,
  • Contrôler l’accès aux données,
  • Exerci
TRAITEMENT DE TEXTE AVEC HIVE
  • Vue d’ensemble du traitement de texte,
  • Fonctions String importantes,
  • Utiliser des expressions habituelles dans Hive,
  • « Sentiment Analysis » et « N-Grams »,
  • Exercices « Hands-On » (optionnels) : se faire une idée de l’analyse de sentiment. {Gaining Insight with Sentiment Analysis}
OPTIMISATION D’HIVE
  • Comprendre la performance de requête,
  • Contrôler le plan d’exécution des tâches,
  • Partitionner,
  • « Bucketing »,
  • Indexer les données.
ETENDRE HIVE
  • SerDes,
  • Transformation de données avec des Scripts personnalisés,
  • Fonctions définies par l’utilisateur,
  • Paramétrer les requêtes,
  • Exercices « Hands-On » : transformation de données avec Hive.
INTRODUCTION A IMPALA
  • Qu’est-ce qu’Impala ?
  • En quoi Impala diffère d’Hive et de Pig,
  • Comment Impala diffère des bases de données relationnelles,
  • Limitations et directions futures,
  • Utiliser le Shell Impala.
ANALYSER LES DONNEES AVEC IMPALA
  • Syntaxe basique,
  • Types de données,
  • Filtrer, trier et restreindre les résultats,
  • Assembler et grouper les données,
  • Augmenter les performances d’Impala,
  • Exercices « Hands-On » : analyse interactive avec Impala.
CHOISIR LE MEILLEUR OUTIL POUR LA TACHE
  • Comparer MapReduce, Pig,
Please login to get access to the quiz
Hadoop – Hortonworks pour développeurs (Prev Lesson)
(Next Lesson) Hadoop – Présentation de l’écosystème
Back to Apache Hadoop pour Développeurs
Public

Cette formation Data Analyst - Utiliser Pig, Hive et Impala avec Hadoop de Cloudera est destinée aux analystes de données, business analysts, développeurs et administrateurs.| Cette formation Data Analyst - Utiliser Pig, Hive et Impala avec Hadoop de Cloudera est destinée aux analystes de données, business analysts, développeurs et administrateurs.

Pré-requis

Cette formation Data Analyst - Utiliser Pig, Hive et Impala avec Hadoop de Cloudera nécessite une expérience avec SQL et les commandes UNIX ou Linux basiques.| Cette formation Data Analyst - Utiliser Pig, Hive et Impala avec Hadoop de Cloudera nécessite une expérience avec SQL et les commandes UNIX ou Linux basiques.