Certification Hbase de Cloudera
Objectifs
A travers des discussions interactives dirigé par un formateur, et des pratiques des exercices, les participants pourront naviguer dans l’écosystème Hadoop, et aborder des sujets tels que :
- Les cas et les contextes d’utilisation pour Hbase, Hadoop, and RDBMS
- Utilisation de la Hbase shell pour manipuler directement les tables Hbase
- La conception de schémas Hbase en utilisant Java API pour insérer et récupérer des données en temps réel.
- Utiliser les meilleurs pratiques pour identifier et résoudre les goulots d’étranglement.
Programme
Introduction à Hadoop et Hbase
- Qu’est-ce que le Big Data ?
- Introduction à Hadoop
- Les composants Hadoop
- Pourquoi HBase ?
- Les avantages de HBase
- HBase en production
- Les faiblesses de Hbase
Les tables Hbase
- Les concepts
- Les tables HBase
- La conception des tables
Le Shell Hbase
- Utilisation
- Accès aux données
- Tâches d’administration avec le Shell d’Hbase
L’architecture de Hbase
- Composants majeurs de l’architecture
- Rôle des différents composants
- Localité des données au sein d’Hbase
La conception des schémas Hbase
- Principaux aspects de la conception des schémas
- Conception orienté application
- Bien concevoir sa « Row keys »
- Fonctionnalités supplémentaires offertes dans la gestion des données (TTL, version)
Accès aux données au travers de l’API
- Multitude des possibilités d’accès (Java, Scala, REST, Thrift, …)
- Créer et supprimer des tableaux HBase
- Récupérer des données avec Get
- Récupérer une plage de données avec Scan
- Insert & update
- Supprimer des données
Fonctionnalités d’API’s HBase avancées
- Utiliser les filtres dans un Scan
- Les compteurs
- checkAndPut et checkAndDelete
- Les co-processors Hbase
HBase sur un cluster
- Comment HBase utilise HDFS
- Format de stockage des données
- Scalabilité d’HBase
- Compactions et Splits
Hbase - lecture et écriture
- Processus d’écriture
- Processus de lecture
- Mise en cache des blocks
Optimisation de performance HBase
- Familles de colonnes
- Considération sur la conception des schémas
- Configuration du cache
- Gestion de la mémoire
- Gérer des séries temporelles et des données séquentielles
- Pré-Division des régions
- Phénomène de HotSpotting
- Compression & Bloom Filter
Administration et gestion des clusters Hbase
- Les Daemons HBase
- Zookeeper
- La haute disponibilité d’HBase
- Equilibrage des regions et équilibrage HDFS
- Réparer des tables avec hbck
- La sécurité d’Hbase
La réplication et la sauvegarde d’HBase
- La réplication
- Le backup
- MapReduce et les clusters HBase
- Bulk load
- Copie de table
- Snapshot de table
Utiliser Hive et Impala avec Hbase
Conclusion
Appendix A : Accéder aux données avec Python et Thrift
- utilisation de Thrift
- Travailler avec les tables
- Recevoir et insérer des données
- Scan
- Supprimer des données
- Filtres
- Appendix B : OpenTSDB
Please login to get access to the quiz
Back to NoSQL – Bases orientées colonnes