Data Science

Apache Mahout

Objectifs

  • Comprendre le fonctionnement de Mahout
  • Connaître l'architecture et implémenter les algorithmes de Machine Learning en local ou en environnement distribué.

Programme

Introduction
  • Présentation Mahout.
  • Origine du projet, licence, positionnement dans l’offre BigData et Machine Learning : Hadoop, Spark,..
  • Fonctionnalités.
  • Définitions : apprentissage supervisé, apprentissage automatique
  • Arbres de décision, de régression, régression automatique
  • Classifieurs. Scoring
Architecture
  • Principe de fonctionnement.
  • Sources de données, format de stockage des données,
  • Génération de recommandations, traitement, filtrage
  • Mode local ou distribué.
Mise en oeuvre
  • Installation en mode autonome .
  • Exemples de base : génération de recommandations, traitement, filtrage
  • Présentation des algorithmes les plus courants.
  • Compatibilité avec Hadoop Yarn, Spark, H2O, Flink
  • Installation en mode distribué sur une ferme Spark.
  • Premiers pas avec le shell interactif REPL
  • Exemple avec une classification bayesienne naïve
Langage R (Prev Lesson)
(Formation suivante) Data Science dans le Cloud avec Microsoft Azure Machine Learning
Retour à Data Science

Pas de commentaires

Donner un commentaire