Langage R
Objectifs
- Connaître les principales fonctions statistiques de R
- Utiliser des programmes R dans un environnement Hadoop en s'appuyant sur le système distribué hdfs et le stockage avec HBase
- Intégrer R à un environnement Hadoop
Programme
Présentation R
- Le projet R Programming
- Calculs statistiques et génération de graphiques
- Points forts de R Programming
- Besoins du BigData
- Positionnement R programming par rapport à Hadoop
Mise en oeuvre de R
- Travaux pratiques : installation et tests sur une plate-forme CentOS
- Utilisation de R en mode commande.
- Commandes de base. Syntaxe.
- Manipulations de nombres,vecteurs,tableaux,matrices.listes,etc ..
Intégration Hadoop
- Association de la puissance du calcul distribué fourni par les outils hadoop,
- et de la richesse des outils d’analyse statistique de R.
- Différents moyens d’intégration :
- RHive : fonctions R de calculs statistiques s’appuyant sur HiveQL
- RHadoop : packages rmr2,
- rhdfs pour utiliser le système distribué hdfs depuis R,
- rhbase pour accéder à HBase depuis les programmes en R
Travaux pratiques avec Hadoop
- Installation d’un cluster,
- rmr2:traduction programmes R en mapreduce,
- rhdfs:API d’accès R à des données stockéss sur HDFS
- rhbase:API d’accès à des données stockées sur HBase
Evolutions
- Les acteurs : IBM avec BigInsights, Revolution R avec ScaleR
Please login to get access to the quiz
Back to Data Science