Data Analyse

Big Data – Mise en oeuvre pratique d’une solution complète d’analyse des données

Objectifs

  • Disposer des compétences techniques nécessaires à la mise en oeuvre d’analyses Big Data
  • Comprendre le cadre juridique du stockage et de l'analyse de données
  • Savoir utiliser des outils de collecte opensource
  • Être en mesure de choisir la bonne solution de stockage de données au regard des spécificités d'un projet (OLAP, NoSQL, graph)
  • Explorer la boite à outils technologique que constitue Hadoop et son écosystème et savoir comment utiliser chaque brique (MapReduce, HIVE, SPARK,...)
  • Apprendre à analyser les résultats et comprendre la signification des données extraites

Programme

La collecte de données
  • Où et comment collecter des données ?
  • Les sources de données, les API, les fournisseurs, les agrégateurs...
  • Les principaux outils de collecte et de traitement de l’information (ETL)
  • Prise en main de Talend ETL et de Talend Data Preparation (outils libres)
  • Les particularités de la collecte des données semi-structurées et non-structurées
Le stockage les données
  • Les différentes formes de stockage des données : rappel de l’architecture relationnelle de stockage des données transactionnelles (SGBD/R) et multidimensionnelles (OLAP)
  • Les nouvelles formes de stockage des données - compréhension, positionnement et comparaison : Bases orientées clé-valeur, documents, colonnes, graphes
  • Panorama des bases de données NoSQL
  • Prise en main d'une base de données orientée colonne (Hbase)
  • Particularités liées au stockage des données non-structurées
  • Comment transformer des données non structurées en données structurées
L’écosystème Hadoop
  • Présentation des principaux modules de la distribution Apache Hadoop
  • Présentation et comparaison des principales distributions commerciales (Cloudera, Hortonworks...)
  • L’infrastructure matérielle et logicielle nécessaire au fonctionnement d'une distribution Hadoop en local ou dans le Cloud
  • Les concepts de base de l’architecture Hadoop: Data Node, Name Node, Job Tracker, Task Tracker
  • Présentation de HDFS (Système de gestion des fichiers de Hadoop)
  • Prise en main et exercices pratiques dans HDFS
  • Présentation de MapReduce (Outil de traitement de Hadoop)
  • Les commandes exécutées au travers de PIG
  • Utilisation de HIVE pour transformer du SQL en MapReduce
L'analyse de données
  • Requêter les données
  • Analyser et comprendre la signification des données extraites
  • Particularités liées à l’analyse des données non structurées
  • Analyse statistique : notions de base
  • Analyse prédictive : comment transformer des données du passé en prévisions pour le futur
  • Calculer des tendances
  • Développer des programmes simples d’automatisation des analyses (en Python)
  • Machine Learning : les bases de l’apprentissage machine avec Spark
  • Deep Learning : notions de base de l’analyse future automatisée de données non structurées
Mise en oeuvre de projets BigData
  • Automatisation de tâches avec Oozie
  • Mise en production de programmes de Machine Learning
  • L'utilisation des notebooks comme délivrables
  • Traitement du temps réel
  • Gouvernance de données Big Data
Please login to get access to the quiz
Spark – Traitement de données (Prev Lesson)
(Next Lesson) Big Data – Analyse, Data Visualization et Data StoryTelling pour la restitution de données
Back to Data Analyse
Public

<li>Chefs de projet</li><li>Data Scientists, Data Analysts</li><li>Développeurs</li><li>Analystes et statisticien</li><li>Toute personne en charge de la mise en oeuvre opérationnelle d’un projet Big Data en environnement Hadoop</li>

Pré-requis

Il est recommandé d’avoir suivi le module «Big Data - Les fondamentaux de l'analyse des données»pour suivre cette formation dans des conditions optimales