Big Data

Big Data – L’essentiel

Objectifs

  • Comprendre le concept du Big Data
  • Être capable d'identifier l’écosystème et comprendre les technologies associées
  • Savoir anticiper son intégration dans les activités informatiques de l’entreprise
  • Être en mesure de l’exploiter dans le respect des règles de sécurité et de confidentialité

Programme

Exemples d’usage pertinent du Big Data
  • Réseaux sociaux : Google, Twitter, Youtube
  • Gestion des clients (CRM) : Vue 360° des clients / Multicanal
  • Sécurité informatiques (étude de logs) : identification des tentatives d’attaques
  • Analyse des logs d’Internet (Web)
  • Profiling d’individus : ADN numérique
  • Synthèse des critères de succès d’un projet Big Data et causes d’échec
Définition commune du Big Data selon les grands acteurs du marché
  • Caractéristiques techniques des 3V de Gartner (Vélocité, Variété et Volume) et les variantes (Véracité, Valeur, Validité....)
  • Collecte et traitement des données structurées, semi-structurées et non-déstructurées
  • Transformation des données en informations
  • Création de la valeur à partir des données / Exemple de monétisation
  • Exemple : gestion des données en cycles, de l’acquisition à la gouvernance
Technologies de référence du Big Data à connaître
  • Stockage des données à traiter : fichiers, blocs et objets
  • Différents types de base des données NoSQL (Not Only SQL)
  • Architecture de cluster et composants économiques
  • Traitement parallèle des données (Grid)
  • Hadoop : un modèle d’open source du Big Data adopté par les grands acteurs de l’informatique (IBM, Oracle, Microsoft, Amazone, EMC, Google...)
  • Principaux composants d’Hadoop : HDFS (Hadoop Distributes File System), MapReduce...
  • Ecosystème et technologies associées à Hadoop : Pig, Flume, Zookeeper, H-BASE, Lucine, Hive, Oozie, Cassandra, Machine Learning...
  • Exemple de traitement en temps réel : traitement des données à la volée (Data Streaming)
  • Analyse de données (Data Analytics et Business Intelligent)
Introduction aux architectures des solutions de calcul distribué
  • Stockage objets (pas de verrouillage de fichier dans la cadre des multiutilisateurs)
  • Serveurs NoSQL et HDFS (Fichiers distribués)
  • Scalabilité horizontale
  • Enjeux des architectures distribuées selon l’organisme CSA (Cloud Security Alliance) dédié au Big Data : Sécurité, gestion des données en grandes quantités
  • Limitations en termes d’usages (Analytiques)
  • Impacts des choix de technologies et d’architectures sur les usages (traitement des données en batch, temps réel, streaming ....)
Plates-formes Cloud public Big Data aPaaS (Data as a Service) à exploiter
  • IBM Analytics de la plate-forme Bluemix
  • Amazone Web Services (stockage des données et plates-formes d’analytiques)
  • Google Platform Big Data
  • Microsoft Azure Big Data
  • Points communs et différents entre les plates-formes Big Data
Trois approches de déploiement du Big Data : sur site et dans le Cloud DaaS
  • Causes des nombreux échecs de projets Big Data selon des cabinets d’étude du secteur
  • Trois approches de déploiement "sur site" : Hadoop et son écosystème à télécharger, Big Data en versions distribuées et Data as a Service
  • Déploiement sur site : définition des objectifs, choix des solutions d’analyse et d’intégration, présentation des informations (Data Visualization) / revue des fournisseurs de composants Big Data
  • Déploiement sur site en version distribuée : Hortonworks, MapR, Cloudera, IBM
  • Déploiement dans les plates-formes Cloud Big Data et les précautions à prendre (métriques de qualité)
Qualité des données
  • Les 11 principales étapes de traitement des données selon les organismes internationaux
  • Processus de qualification des données (temporel, contextuel, liens aux autres données...) / cadres juridiques (CNIL, usages libres, payants...), formats ouverts et propriétaires
  • Approche d’enrichissement avec l’Open Data / WiKiData.org
Sécurité des données et confidentialité du Big Data
  • Loi européenne et CNIL (protection de la vie privée)
  • Recommandation des bonnes pratiques de l’organisme international CSA (Cloud Security Alliance) pour le Big Data
  • Panorama des moyens conventionnels de sécurité des données et d’accès au Datacenter (cryptage et DLP : Data Lost Prevention....)
Impacts du Big Data à anticiper
  • Évolution des données (Internet des objets, mobilité...)
  • Impacts sur les compétences des équipes informatiques, de DRH, du Management...
  • Rôle de la DSI face à la montée du Big Data et des solutions numériques
Please login to get access to the quiz
Big Data : Conception et pilotage de projets (Prev Lesson)
(Next Lesson) Big Data, état de l’art
Back to Big Data