Big Data

Big Data

Objectifs

  • Comprendre les concepts du BigData et savoir quelles sont les technologies implémentées

Programme

Introduction au Big Data
  • Le besoin : volumes importants de données, traitements optimisés de flux de données au fil de l’eau, liés aux nouvelles technologies et aux nouveaux usages
  • Domaines concernés : recherche scientifique, médical, e-commerce, sécurité, …
  • Développement des techniques sur différents aspects : stockage, indexation/recherche, calcul
  • Définition ETL : Extract Transform Load
  • Les acteurs
Stockage
  • Caractéristiques NoSQL :
  • Structure de données proches des utilisateurs, développeurs
  • Données structurées et non structurées, documents, images, fichiers XML, JSON, CSV, …
  • Les différents modes et formats de stockage
  • Stockage réparti : réplication, sharping, gossip protocl, hachage
  • Systèmes de fichiers distribués : GFS, HDFS, HBase, BigTable, ..
  • Les bases de données
  • Quelques exemples de produits et leurs caractéristiques : cassandra, MongoDB, CouchDB,DynamoDB,Riak,Hadoop
Indexation et recherche
  • Moteurs de recherche
  • Principe de fonctionnement
  • Méthodes d’indexation
  • Exemple de Lucene, et mise en oeuvre avec solr
  • Recherche dans les bases de volumes importants
  • Exemples de produits et comparaison : dremel, drill, elasticsearch, MapReduce
Calcul et restitution, intégration
  • Différentes solutions : calculs en mode batch, ou en temps réel, sur des flux de données ou des données statiques
  • Les produits : langage de calculs statistiques, R Statistics Language
  • Outils de calcul sur des volumes importants : storm en temps réel, hadoop en mode batch
  • Zoom sur Hadoop : complémentarité de HDFS et MapReduce
Evolutions
  • Les offres Saas BigData comme Google BigQuery
  • Les limites. Les nouveautés annoncées
Please login to get access to the quiz
(Next Lesson) Concevoir et piloter un projet Big Data
Back to Big Data