Intelligence Artificielle

Intelligence artificielle – Data mining et machine learning

Objectifs pédagogiques

À l’issue de la formation, le participant sera en mesure de :

  • Maîtriser le data mining et le machine learning pour explorer de très importants volumes de données
  • Construire des modèles répondant aux problèmes très variés des entreprises
  • Comprendre les différences entre apprentissage automatique supervisé, non supervisé et meta-apprentissage
  • Savoir transformer de gros volumes de données hétérogènes en informations utiles

Programme de la formation

L’apprentissage machine

  • Définitions : data science, data mining, machine learning, big data, deep learning.
  • Définition de l’apprentissage machine.
  • Les principes et les finalités du data mining vs machine learning.
  • Les principales techniques et méthodes du data mining vs machine learning.
  • Le processus data mining vs machine learning.
  • Que peuvent apprendre les machines ? Les différents modes d’entrainement.

Les fondamentaux de l’apprentissage machine

  • Préambule (problème d’optimisation, quête de la capacité optimale du modèle, relation capacité et erreurs, etc.).
  • Les différents types d’apprentissage (supervisé, non supervisé, online learning, reinforcement learning, etc.).
  • Les données à disposition : collecte et préparation.
  • Les jeux de données d'entraînement (cadre statistique, variables prédictives, etc.).
  • Les fonctions hypothèses, les fonctions de coûts.
  • Les algorithmes d'optimisations.

La classification

  • Classification hiérarchique et non hiérarchique (KMeans).
  • Classification par arbres de décision ou approche Naïve Bayes.
  • Les machines à vecteurs de support (SVM).
  • K plus proches voisins (KNN).

Les pratiques

  • Prétraitement : gestion des données manquantes, transformateurs et estimateurs.
  • Ingénierie des variables prédictives (feature engineering) : sélection des variables prédictives.
  • Réglages des hyper-paramètres et évaluation des modèles : bonnes pratiques, notion de Pipeline, validation croisée.

L’apprentissage d’ensembles

  • Introduction. L’approche par vote.
  • Une variante : l’empilement (stacking). Le bagging.
  • Les forêts aléatoires. Le boosting.
  • La variante Adaboost. Gradient Boosting.
  • Synthèse.

La régression

  • Le principe de régression linéaire uni variée et multivariée.
  • La relation entre les variables.
  • Les valeurs aberrantes (RANSAC).
  • La régression polynomiale.
  • La régression régularisée.
  • Le Naïve Bayes.
  • La régression logistique.

Le clustering

  • Clustering simple, clustering hiérarchique et clustering par mesure de densité DBSCAN.
  • Différentes techniques de clustering (approches orientées K-means, par agglomération, etc.).
  • Outils et algorithmes pour le clustering de données (K-means simple, etc.).
Please login to get access to the quiz
(Next Lesson) Machine learning, l’état de l’art
Back to Intelligence Artificielle