Intelligence Artificielle

Intelligence artificielle – Data mining et machine learning

Objectifs pédagogiques

À l’issue de la formation, le participant sera en mesure de :

  • Maîtriser le data mining et le machine learning pour explorer de très importants volumes de données
  • Construire des modèles répondant aux problèmes très variés des entreprises
  • Comprendre les différences entre apprentissage automatique supervisé, non supervisé et meta-apprentissage
  • Savoir transformer de gros volumes de données hétérogènes en informations utiles

Programme de la formation

L’apprentissage machine

  • Définitions : data science, data mining, machine learning, big data, deep learning.
  • Définition de l’apprentissage machine.
  • Les principes et les finalités du data mining vs machine learning.
  • Les principales techniques et méthodes du data mining vs machine learning.
  • Le processus data mining vs machine learning.
  • Que peuvent apprendre les machines ? Les différents modes d’entrainement.

Les fondamentaux de l’apprentissage machine

  • Préambule (problème d’optimisation, quête de la capacité optimale du modèle, relation capacité et erreurs, etc.).
  • Les différents types d’apprentissage (supervisé, non supervisé, online learning, reinforcement learning, etc.).
  • Les données à disposition : collecte et préparation.
  • Les jeux de données d'entraînement (cadre statistique, variables prédictives, etc.).
  • Les fonctions hypothèses, les fonctions de coûts.
  • Les algorithmes d'optimisations.

La classification

  • Classification hiérarchique et non hiérarchique (KMeans).
  • Classification par arbres de décision ou approche Naïve Bayes.
  • Les machines à vecteurs de support (SVM).
  • K plus proches voisins (KNN).

Les pratiques

  • Prétraitement : gestion des données manquantes, transformateurs et estimateurs.
  • Ingénierie des variables prédictives (feature engineering) : sélection des variables prédictives.
  • Réglages des hyper-paramètres et évaluation des modèles : bonnes pratiques, notion de Pipeline, validation croisée.

L’apprentissage d’ensembles

  • Introduction. L’approche par vote.
  • Une variante : l’empilement (stacking). Le bagging.
  • Les forêts aléatoires. Le boosting.
  • La variante Adaboost. Gradient Boosting.
  • Synthèse.

La régression

  • Le principe de régression linéaire uni variée et multivariée.
  • La relation entre les variables.
  • Les valeurs aberrantes (RANSAC).
  • La régression polynomiale.
  • La régression régularisée.
  • Le Naïve Bayes.
  • La régression logistique.

Le clustering

  • Clustering simple, clustering hiérarchique et clustering par mesure de densité DBSCAN.
  • Différentes techniques de clustering (approches orientées K-means, par agglomération, etc.).
  • Outils et algorithmes pour le clustering de données (K-means simple, etc.).
Please login to get access to the quiz
(Next Lesson) Machine learning, l’état de l’art
Back to Intelligence Artificielle
Public

Ingénieurs, chargés d’études, responsables de projet analyse de données, responsables Infocentre, utilisateurs et gestionnaires métiers de bases de données, futurs data scientists.

Pré-requis

Connaissances de base en statistiques.