Data Science

Langage R

Objectifs

  • Connaître les principales fonctions statistiques de R
  • Utiliser des programmes R dans un environnement Hadoop en s'appuyant sur le système distribué hdfs et le stockage avec HBase
  • Intégrer R à un environnement Hadoop

Programme

Présentation R
  • Le projet R Programming
  • Calculs statistiques et génération de graphiques
  • Points forts de R Programming
  • Besoins du BigData
  • Positionnement R programming par rapport à Hadoop
Mise en oeuvre de R
  • Travaux pratiques : installation et tests sur une plate-forme CentOS
  • Utilisation de R en mode commande.
  • Commandes de base. Syntaxe.
  • Manipulations de nombres,vecteurs,tableaux,matrices.listes,etc ..
Intégration Hadoop
  • Association de la puissance du calcul distribué fourni par les outils hadoop,
  • et de la richesse des outils d’analyse statistique de R.
  • Différents moyens d’intégration :
  • RHive : fonctions R de calculs statistiques s’appuyant sur HiveQL
  • RHadoop : packages rmr2,
  • rhdfs pour utiliser le système distribué hdfs depuis R,
  • rhbase pour accéder à HBase depuis les programmes en R
Travaux pratiques avec Hadoop
  • Installation d’un cluster,
  • rmr2:traduction programmes R en mapreduce,
  • rhdfs:API d’accès R à des données stockéss sur HDFS
  • rhbase:API d’accès à des données stockées sur HBase
Evolutions
  • Les acteurs : IBM avec BigInsights, Revolution R avec ScaleR
Data mining, Analyse de survie et durée de vie (Prev Lesson)
(Formation suivante) Apache Mahout
Retour à Data Science

Pas de commentaires

Donner un commentaire