Réaliser de l’ingénierie de données avec Microsoft HDInsight
Objectifs
- Savoir déployer des clusters HDInsight
- Être en mesure de charger des données dans HDInsight
- Comprendre comment dépanner HDInsight
- Apprendre à mettre en place des solutions batch
- Être capable de concevoir des solutions Batch ETL pour le Big Data avec Spark
- Pouvoir analyser les données avec Spark SQL, Hive et Phoenix
- Comprendre comment implémenter Spark Streaming en utilisant l'API DStream
- Apprendre à développer des solutions de traitement Big Data en temps réel avec Apache Storm
- Être capable de construire des solutions qui utilisent Kafka et HBase
Programme
Mise en route de HDInsight
- Qu'est ce que le Big Data
- Introduction à Hadoop
- Travailler avec la fonction MapReduce
- Présentation de HDInsight
Déploiement de clusters HDInsight
- Identification des types de cluster HDInsight
- Gérer les clusters HDInsight en utilisant le portail Azure
- Gérer les clusters HDInsight en utilisant Azure PowerShell
Autoriser les utilisateurs à accéder aux ressources
- Clusters non liés à un domaine
- Configuration de clusters HDInsight connectés au domaine
- Gestion des clusters HDInsight connectés au domaine
Chargement des données dans HDInsight
- Stockage des données pour le traitement HDInsight
- Utilisation des outils de chargement de données
- Maximiser la valeur des données stockées
Dépannage de HDInsight
- Analyse des logs HDInsight
- logs YARN
- Heap dumps (décharge)
- Operations Management Suite
Implémentation de solutions Batch
- Stockage Apache Hive
- Requêtes de données HDInsight utilisant Hive and Pig
- Mise en oeuvre HDInsight
Concevoir des solutions Batch ETL pour le Big Data avec Spark
- Qu'est-ce que Spark ?
- ETL avec Spark
- Performance Spark
Analyser les données avec Spark SQL
- Implémentation de requêtes itératives et interactives
- Effectuer une analyse de données exploratoire
Analyser les données avec Hive et Phoenix
- Mettre en place des requêtes interactives pour le Big Data avec Hive interactive
- Effectuer une analyse de données exploratoire à l'aide de Hive
- Effectuer un traitement interactif en utilisant Apache Phoenix
Stream Analytics
- Analyse de flux
- Processus de diffusion des données à partir de l'analyse des flux
- Gestion des travaux d'analyse de flux
Mettre en oeuvre de solutions de streaming avec Kafka et HBase
- Construction et déploiement d'un cluster Kafka
- Publication, consommation et traitement des données à l'aide du cluster Kafka
- Utilisation de HBase pour stocker et requêter des données
Développer des solutions de traitement Big Data en temps réel avec Apache Storm
- Persistance des données à long terme
- Transmission des données avec Storm
- Création de topologies Storm
- Configuration d'Apache Storm
Créer des applications Spark Streaming
- Utilisation de Spark Streaming
- Création d'applications Spark Streaming structurées
- Persistance et visualisation
Please login to get access to the quiz
Back to Solutions Bigdata avec Microsoft