Solutions Bigdata avec Microsoft

Réaliser de l’ingénierie de données avec Microsoft HDInsight

Objectifs

  • Savoir déployer des clusters HDInsight
  • Être en mesure de charger des données dans HDInsight
  • Comprendre comment dépanner HDInsight
  • Apprendre à mettre en place des solutions batch
  • Être capable de concevoir des solutions Batch ETL pour le Big Data avec Spark
  • Pouvoir analyser les données avec Spark SQL, Hive et Phoenix
  • Comprendre comment implémenter Spark Streaming en utilisant l’API DStream
  • Apprendre à développer des solutions de traitement Big Data en temps réel avec Apache Storm
  • Être capable de construire des solutions qui utilisent Kafka et HBase

Programme

Mise en route de HDInsight
  • Qu’est ce que le Big Data
  • Introduction à Hadoop
  • Travailler avec la fonction MapReduce
  • Présentation de HDInsight
Déploiement de clusters HDInsight
  • Identification des types de cluster HDInsight
  • Gérer les clusters HDInsight en utilisant le portail Azure
  • Gérer les clusters HDInsight en utilisant Azure PowerShell
Autoriser les utilisateurs à accéder aux ressources
  • Clusters non liés à un domaine
  • Configuration de clusters HDInsight connectés au domaine
  • Gestion des clusters HDInsight connectés au domaine
Chargement des données dans HDInsight
  • Stockage des données pour le traitement HDInsight
  • Utilisation des outils de chargement de données
  • Maximiser la valeur des données stockées
Dépannage de HDInsight
  • Analyse des logs HDInsight
  • logs YARN
  • Heap dumps (décharge)
  • Operations Management Suite
Implémentation de solutions Batch
  • Stockage Apache Hive
  • Requêtes de données HDInsight utilisant Hive and Pig
  • Mise en oeuvre HDInsight
Concevoir des solutions Batch ETL pour le Big Data avec Spark
  • Qu’est-ce que Spark ?
  • ETL avec Spark
  • Performance Spark
Analyser les données avec Spark SQL
  • Implémentation de requêtes itératives et interactives
  • Effectuer une analyse de données exploratoire
Analyser les données avec Hive et Phoenix
  • Mettre en place des requêtes interactives pour le Big Data avec Hive interactive
  • Effectuer une analyse de données exploratoire à l’aide de Hive
  • Effectuer un traitement interactif en utilisant Apache Phoenix
Stream Analytics
  • Analyse de flux
  • Processus de diffusion des données à partir de l’analyse des flux
  • Gestion des travaux d’analyse de flux
Mettre en oeuvre de solutions de streaming avec Kafka et HBase
  • Construction et déploiement d’un cluster Kafka
  • Publication, consommation et traitement des données à l’aide du cluster Kafka
  • Utilisation de HBase pour stocker et requêter des données
Développer des solutions de traitement Big Data en temps réel avec Apache Storm
  • Persistance des données à long terme
  • Transmission des données avec Storm
  • Création de topologies Storm
  • Configuration d’Apache Storm
Créer des applications Spark Streaming
  • Utilisation de Spark Streaming
  • Création d’applications Spark Streaming structurées
  • Persistance et visualisation
MOYENS PÉDAGOGIQUES ET TECHNIQUES D’ENCADREMENT DES FORMATIONS

Modalités pédagogiques :

  • Évaluation des besoins et du profil des participants.
  • Apport théorique et méthodologique : séquences pédagogiques regroupées en différents modules.
  • Contenus des programmes adaptés en fonction des besoins identifiés pendant la formation.
  • Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de travaux pratiques, étude de cas et mise en situation.
  • Méthodes expositive, active et participative.
  • Réflexion et échanges sur cas pratiques.
  • Retours d'expériences.
  • Corrections appropriées et contrôles des connaissances à chaque étape, fonction du rythme de l’apprenant mais également des exigences requises au titre de la formation souscrite.

Éléments matériels :

  • Mise à disposition des outils nécessaires au bon déroulement des travaux pratiques.
  • Support de cours au format numérique projeté sur écran et transmis au participant en fin de la formation.

Référent pédagogique et formateur :

  • Chaque formation est sous la responsabilité du directeur pédagogique de l’organisme de formation.
  • Le bon déroulement est assuré par le formateur désigné par l’organisme de formation.
MOYENS PERMETTANT LE SUIVI ET L’APPRÉCIATION DES RÉSULTATS
  • Feuilles de présences signées des participants et du formateur par demi-journée.
  • Attestation de fin de formation mentionnant les objectifs, la nature et la durée de l’action et les résultats de l’évaluation des acquis de la formation.
Please login to get access to the quiz
Réaliser des analyses Big Data avec Microsoft R (Prev Lesson)
(Next Lesson) Les fondamentaux de l’analyse statistique avec R
Back to Solutions Bigdata avec Microsoft
Public

Ingénieurs de données, architectes de données, Data Scientist et les développeurs de données qui envisagent d'implémenter de grands workflows d'ingénierie de données sur HDInsight.

Pré-requis

Avoir suivi la formation ""Les fondamentaux de l'analyse statistique avec R"" ou disposer des connaissances équivalentes

Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en effectuant le test disponible en bas de cette page.

Lieu de formation

Intra-entreprise/à distance

Dates ou période

À définir. Nous consulter

Tarif

Sur devis. Merci de nous contacter

Modalités

Pour s’inscrire à notre formation, veuillez nous contacter par mail ou téléphone.

Démarrage de la formation sous deux semaines (délai indicatif).

Nous contacer
Informations complémentaires

Pour toute réclamation, aléas ou difficultés rencontrés pendant la formation, veuillez prendre contact avec notre organisme par téléphone ou par e-mail. Nous mettrons tout en œuvre pour trouver une solution adapter.

Formation synchrone, réalisée à distance en visioconférence via l’application Microsoft Teams ou en présentiel dans les locaux du client.