Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
- Maîtriser le data mining et le machine learning pour explorer de très importants volumes de données
- Construire des modèles répondant aux problèmes très variés des entreprises
- Comprendre les différences entre apprentissage automatique supervisé, non supervisé et meta-apprentissage
- Savoir transformer de gros volumes de données hétérogènes en informations utiles
Programme de la formation
L’apprentissage machine
- Définitions : data science, data mining, machine learning, big data, deep learning.
- Définition de l’apprentissage machine.
- Les principes et les finalités du data mining vs machine learning.
- Les principales techniques et méthodes du data mining vs machine learning.
- Le processus data mining vs machine learning.
- Que peuvent apprendre les machines ? Les différents modes d’entrainement.
Les fondamentaux de l’apprentissage machine
- Préambule (problème d’optimisation, quête de la capacité optimale du modèle, relation capacité et erreurs, etc.).
- Les différents types d’apprentissage (supervisé, non supervisé, online learning, reinforcement learning, etc.).
- Les données à disposition : collecte et préparation.
- Les jeux de données d'entraînement (cadre statistique, variables prédictives, etc.).
- Les fonctions hypothèses, les fonctions de coûts.
- Les algorithmes d'optimisations.
La classification
- Classification hiérarchique et non hiérarchique (KMeans).
- Classification par arbres de décision ou approche Naïve Bayes.
- Les machines à vecteurs de support (SVM).
- K plus proches voisins (KNN).
Les pratiques
- Prétraitement : gestion des données manquantes, transformateurs et estimateurs.
- Ingénierie des variables prédictives (feature engineering) : sélection des variables prédictives.
- Réglages des hyper-paramètres et évaluation des modèles : bonnes pratiques, notion de Pipeline, validation croisée.
L’apprentissage d’ensembles
- Introduction. L’approche par vote.
- Une variante : l’empilement (stacking). Le bagging.
- Les forêts aléatoires. Le boosting.
- La variante Adaboost. Gradient Boosting.
- Synthèse.
La régression
- Le principe de régression linéaire uni variée et multivariée.
- La relation entre les variables.
- Les valeurs aberrantes (RANSAC).
- La régression polynomiale.
- La régression régularisée.
- Le Naïve Bayes.
- La régression logistique.
Le clustering
- Clustering simple, clustering hiérarchique et clustering par mesure de densité DBSCAN.
- Différentes techniques de clustering (approches orientées K-means, par agglomération, etc.).
- Outils et algorithmes pour le clustering de données (K-means simple, etc.).