Certification Data Analyst – Utiliser Pig, Hive et Impala avec Hadoop de Cloudera
Objectifs
- Cette formation Data Analyst - Utiliser Pig, Hive et Impala avec Hadoop de Cloudera vous permettra de : D’appliquer l’analyse traditionnelle des données et les compétences de « business intelligence » aux Big Data
- D'utiliser les outils permettant de manipuler et analyser des ensembles complexes de données en utilisant SQL et des langages de script familiers
Programme
INTRODUCTION DE LA FORMATION HADOOP
- Au sujet de cette formation,
- Au sujet de Xebia et Cloudera,
- Logistique de la formation,
- Introductions.
FONDAMENTAUX D’HADOOP
- L’intérêt d’Hadoop,
- Vue globale d’Hadoop,
- HDFS,
- MapReduce,
- L’écosystème Hadoop,
- Explication de scenarios de laboratoire,
- Exercices hands-On : ingestion de données avec les outils Hadoop.
INTRODUCTION A PIG
- Qu’est-ce que Pig ?
- Les caractéristiques de Pig,
- Cas d’utilisation de Pig,
- Interagir avec Pig.
ANALYSE DE DONNEES BASIQUES AVEC PIG
- Syntaxe latine de Pig,
- Charger des données,
- Types de données simples,
- Définitions des champs,
- Data Output,
- Voir le Schema,
- Filtrer et trier les données,
- Les fonctions utilisées communément,
- Exercices Hands-On : utiliser Pig pour des process ETL.
TRAITER DES DONNEES COMPLEXES AVEC PIG
- Formats de stockage,
- Types de données complexes/emboités,
- Grouper,
- Fonctions built-in pour des données complexes,
- Itérer des données groupées,
- Exercices Hands-On : analyser des données de campagnes publicitaires avec Pig.
OPERATIONS « MULTI-DATASET » AVEC PIG
- Techniques pour combiner des ensembles de données,
- Assembler des ensembles de données avec Pig,
- Opérations de groupe,
- Séparer des ensembles de données,
- Exercise « Hans-On » : analyser des ensembles de données disparates avec Pig.
ETENDRE PIG
- Ajouter de la flexibilité avec les paramètres,
- Macros et imports,
- UDFs,
- Contributed functions,
- Utiliser d’autres langages pour traiter des données avec Pig,
- Exercice « Hans-On » : étendre Pig avec Streaming et UDFs.
TROUBLESHOOTING ET OPTIMISATION AVEC PIG
- Résolution des problèmes avec Pig,
- Logging,
- Utiliser l’UI Web d’Hadoop,
- Demo optionnelle : résolution d’un « Failed Job » avec l’UI Web,
- Echantillonnage de données et débugage,
- Vue d’ensemble des performances,
- Comprendre le plan d’exécution,
- Astuces pour améliorer la performance de votre « Pig Jobs ».
INTRODUCTION A HIVE
- Qu’est-ce qu’Hive ?
- Schema Hive et stockage de données,
- Comparer Hive aux bases de données traditionnelles,
- Hive vs. Pig,
- Cas d’utilisation d’Hive,
- Interagir avec Hive.
ANALYSE DE DONNEES RELATION AVEC HIVE
- Bases de données et tableaux Hive,
- Syntaxe HiveQL basique,
- Types de données,
- Assembler des ensembles de données,
- Fonctions communes de Built-in,
- Exercice « hands-on » : « Running Hive Queries on the Shell, Scripts and Hue ».
MANAGEMENT DE DONNEES HIVE
- Formats de données Hive,
- Créer des bases de données et tableaux de management Hive,
- « Altering Databases and Tables » ( ?)
- Tableaux auto-managés,
- Simplifier les requêtes avec Views,
- Stocker les résultats de requêtes,
- Contrôler l’accès aux données,
- Exerci
TRAITEMENT DE TEXTE AVEC HIVE
- Vue d’ensemble du traitement de texte,
- Fonctions String importantes,
- Utiliser des expressions habituelles dans Hive,
- « Sentiment Analysis » et « N-Grams »,
- Exercices « Hands-On » (optionnels) : se faire une idée de l’analyse de sentiment. {Gaining Insight with Sentiment Analysis}
OPTIMISATION D’HIVE
- Comprendre la performance de requête,
- Contrôler le plan d’exécution des tâches,
- Partitionner,
- « Bucketing »,
- Indexer les données.
ETENDRE HIVE
- SerDes,
- Transformation de données avec des Scripts personnalisés,
- Fonctions définies par l’utilisateur,
- Paramétrer les requêtes,
- Exercices « Hands-On » : transformation de données avec Hive.
INTRODUCTION A IMPALA
- Qu’est-ce qu’Impala ?
- En quoi Impala diffère d’Hive et de Pig,
- Comment Impala diffère des bases de données relationnelles,
- Limitations et directions futures,
- Utiliser le Shell Impala.
ANALYSER LES DONNEES AVEC IMPALA
- Syntaxe basique,
- Types de données,
- Filtrer, trier et restreindre les résultats,
- Assembler et grouper les données,
- Augmenter les performances d’Impala,
- Exercices « Hands-On » : analyse interactive avec Impala.
CHOISIR LE MEILLEUR OUTIL POUR LA TACHE
Please login to get access to the quiz
Back to Apache Hadoop pour Développeurs