Réaliser de l’ingénierie de données avec Microsoft HDInsight

Solutions Bigdata avec Microsoft

Objectifs

Savoir déployer des clusters HDInsight
Être en mesure de charger des données dans HDInsight
Comprendre comment dépanner HDInsight
Apprendre à mettre en place des solutions batch
Être capable de concevoir des solutions Batch ETL pour le Big Data avec Spark
Pouvoir analyser les données avec Spark SQL, Hive et Phoenix
Comprendre comment implémenter Spark Streaming en utilisant l'API DStream
Apprendre à développer des solutions de traitement Big Data en temps réel avec Apache Storm
Être capable de construire des solutions qui utilisent Kafka et HBase

Programme

Mise en route de HDInsight

Qu'est ce que le Big Data
Introduction à Hadoop
Travailler avec la fonction MapReduce
Présentation de HDInsight

Déploiement de clusters HDInsight

Identification des types de cluster HDInsight
Gérer les clusters HDInsight en utilisant le portail Azure
Gérer les clusters HDInsight en utilisant Azure PowerShell

Autoriser les utilisateurs à accéder aux ressources

Clusters non liés à un domaine
Configuration de clusters HDInsight connectés au domaine
Gestion des clusters HDInsight connectés au domaine

Chargement des données dans HDInsight

Stockage des données pour le traitement HDInsight
Utilisation des outils de chargement de données
Maximiser la valeur des données stockées

Dépannage de HDInsight

Analyse des logs HDInsight
logs YARN
Heap dumps (décharge)
Operations Management Suite

Implémentation de solutions Batch

Stockage Apache Hive
Requêtes de données HDInsight utilisant Hive and Pig
Mise en oeuvre HDInsight

Concevoir des solutions Batch ETL pour le Big Data avec Spark

Qu'est-ce que Spark ?
ETL avec Spark
Performance Spark

Analyser les données avec Spark SQL

Implémentation de requêtes itératives et interactives
Effectuer une analyse de données exploratoire

Analyser les données avec Hive et Phoenix

Mettre en place des requêtes interactives pour le Big Data avec Hive interactive
Effectuer une analyse de données exploratoire à l'aide de Hive
Effectuer un traitement interactif en utilisant Apache Phoenix

Stream Analytics

Analyse de flux
Processus de diffusion des données à partir de l'analyse des flux
Gestion des travaux d'analyse de flux

Mettre en oeuvre de solutions de streaming avec Kafka et HBase

Construction et déploiement d'un cluster Kafka
Publication, consommation et traitement des données à l'aide du cluster Kafka
Utilisation de HBase pour stocker et requêter des données

Développer des solutions de traitement Big Data en temps réel avec Apache Storm

Persistance des données à long terme
Transmission des données avec Storm
Création de topologies Storm
Configuration d'Apache Storm

Créer des applications Spark Streaming

Utilisation de Spark Streaming
Création d'applications Spark Streaming structurées
Persistance et visualisation

Please login to get access to the quiz

Back to Solutions Bigdata avec Microsoft

Solutions Bigdata avec Microsoft

Réaliser de l’ingénierie de données avec Microsoft HDInsight

Objectifs

Programme

Mise en route de HDInsight

Déploiement de clusters HDInsight

Autoriser les utilisateurs à accéder aux ressources

Chargement des données dans HDInsight

Dépannage de HDInsight

Implémentation de solutions Batch

Concevoir des solutions Batch ETL pour le Big Data avec Spark

Analyser les données avec Spark SQL

Analyser les données avec Hive et Phoenix

Stream Analytics

Mettre en oeuvre de solutions de streaming avec Kafka et HBase

Développer des solutions de traitement Big Data en temps réel avec Apache Storm

Créer des applications Spark Streaming

Public

Pré-requis

Sur le même thème