Big Data Analytics

Environnement R, manipulations et statistiques élémentaires

Objectifs de la formation

  • Constituer des jeux de données à analyser à partir de multiples sources
  • Manipuler les données pour les transformer à partir de fonctions diverses
  • Tracer des courbes et des graphiques avec R
  • Appliquer plusieurs algorithmes de calcul d'indicateurs statistiques


Programme de la formation

Rappels

  • L'environnement RStudio.
  • Les types de données dans R, les listes, les DataFrames, les facteurs et les variables ordinales.
  • Les dates et les séries temporelles.

Travaux pratiques

Prise en main des scripts dans l'environnement RStudio.

Importation-exportation et production de données

  • Lire un fichier texte ASCII, Excel, SPSS, Minitab, SAS ou Matlab.
  • Lire des données au clavier et utiliser le copier-coller.
  • Lecture/écriture des fichiers, bases de données.

Travaux pratiques

Lecture/Ecriture des données à partir des fichiers, base de données, DataLake et dans le format R.

Manipulation de données, fonctions

  • Opérations sur les matrices ou les DataFrames.
  • Les fonctions outer, apply, lapply, sapply et mapply.
  • Opérations logiques et relationnelles.
  • Manipulation de chaînes de caractères. Manipulation de dates et d'unités de temps.

Travaux pratiques

Traîter les matrices et DataFrames. Utiliser les fonctions lapply ou sapply pour remplacer les boucles for.

Techniques pour tracer des courbes et des graphiques

  • Les fenêtres graphiques : manipulation, sauvegarde.
  • Les fonctions de tracé de bas niveau.
  • La gestion des couleurs et paramètres graphiques.
  • L'ajout de texte, titres, axes et légendes.
  • Diagrammes en croix, tuyaux d'orgue, empilé ou circulaire. Boîte à moustaches.
  • Graphe de la fonction de répartition empirique. Histogramme en densité à amplitudes de classes égales ou inégales.
  • Polygone des fréquences. Représentations graphiques dans un cadre bivarié.

Travaux pratiques

Mise en œuvre des techniques pour tracer des courbes et des graphiques.

Mathématiques et statistiques élémentaires

  • Structuration des variables suivant leur type.
  • Résumés numériques.
  • Mesures d'association.
  • Notions sur la génération de nombres au hasard et de variable aléatoire.
  • Loi des grands nombres et théorème de la limite centrale.
  • Intervalles de confiance.
  • Tests d'hypothèses usuels. Autres tests d'hypothèses.
  • Analyse de la variance à un facteur, deux facteurs ou à mesures répétées.

Travaux pratiques

Mise en œuvre de l'algorithme de détermination du type d'une variable. L'interprétation d'un intervalle de confiance.

Please login to get access to the quiz
(Next Lesson)  Data Analytics avec Python
Back to Big Data Analytics
Public

Statisticiens, analystes, ingénieurs, développeurs. Toute personne ayant à manipuler des données, à traiter numériquement et représenter graphiquement des données, à réaliser des statistiques sous R.

Pré-requis

Connaissances de base du logiciel R