Lecturers: | S. Clémençon and E. Chautru |
Period: |
Term 2 |
ECTS: | 6 |
Schedule: | 1h30 of lecture + 1h30 of tutorial per week |
Objectifs:
Beaucoup d'applications modernes (génomique, finance, e-marketing) requièrent de manipuler et traiter des données de très grande dimension. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type de données s'appelle l'apprentissage statistique (statistical machine learning). Il s'agit, in fine, de produire des outils de prédiction et d'aide à la décision dédiés à une application spécifique. L'apparition d'algorithmes très performants pour la classification de données en grande dimension, tels que le boosting ou les Support Vector Machines dans le milieu des années 90, a progressivement transformé le champ occupé jusqu'alors par la statistique traditionnelle qui s'appuyait en grande partie sur le prétraitement réalisé par l'opérateur humain. En s'appuyant sur la théorie popularisée par Vapnik (The Nature of Statistical Learning, 1995), un nouveau courant de recherche est né: il se situe à l'interface entre les communautés mathématique et informatique et mobilise un nombre croissant de jeunes chercheurs tournés vers les applications liées à l'analyse de données massives. Dans ce module, on présentera le domaine, ses fondements, les problèmes qu'il permet d'aborder et les méthodes les plus récentes qui sont actuellement étudiées.
Programme:
1 - Introduction générale du cours.
Problèmes de prédiction: classification, régression, détection d'anomalies et estimation de densité.
Le cas de la classification : modèle statistique, mesure de performance, optimalité.
2 - Eléments de la théorie de l'apprentissage.
Le cas de la classification: les aspects statistiques, minimisation de l'erreur empirique.
Complément : Inégalités exponentielles, déviation et concentration.
3 - Contrôle de la complexité dans le cas de la classification. Entropie métrique vs. mesures combinatoires.
Méthodes de classification standard: classifieurs linéaires, arbres de décision, noyaux, réseaux de neurones
4 – Les méthodes de classification « dernier cri »: boosting et SVM
Vers des stratégies pragmatiques : minimisation du risque convexifié, aspects statistiques.
5 – Méthodes de régularisation pour le contrôle de la complexité
6 – Méthodes de régression linéaire pénalisée vs. Lasso. Performance vs. « Sparsity »
7 – Détection d'anomalies. Estimation nonparamétrique de la densité.
8 – La courbe ROC et l'AUC: critères de performance pour la discrimination.
Le problème du « ranking/scoring »
Bibliographie:
- Devroye L., Györfi L. & Lugosi G. (1996). A Probabilistic Theory of Pattern Recognition, Springer.
- Vapnik V. (1998). Statistical Learning Theory, John Wiley.
- Friedman J., Hastie T. & Tibshirani, R. (2002). The Elements of Statistical Learning: Data-mining, Inference
and Prediction, Springer