M2MO: Modélisation Aléatoire, Finance et Data Science

Master en statistique, probabilités et finance - Université Paris 7 - Paris Diderot

Headlines:

Réunion de présentation 2025-2026

Inscriptions 2025-2026

EMPLOI DU TEMPS 2024-2025

Stage

Important

News

Courses

Core courses

Statistical learning

Lecturers:	S. Clémençon and E. Chautru
Period:	Term 2
ECTS:	6
Schedule:	1h30 of lecture + 1h30 of tutorial per week

Objectifs:

Beaucoup d'applications modernes (génomique, finance, e-marketing) requièrent de manipuler et traiter des données de très grande dimension. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type de données s'appelle l'apprentissage statistique (statistical machine learning). Il s'agit, in fine, de produire des outils de prédiction et d'aide à la décision dédiés à une application spécifique. L'apparition d'algorithmes très performants pour la classification de données en grande dimension, tels que le boosting ou les Support Vector Machines dans le milieu des années 90, a progressivement transformé le champ occupé jusqu'alors par la statistique traditionnelle qui s'appuyait en grande partie sur le prétraitement réalisé par l'opérateur humain. En s'appuyant sur la théorie popularisée par Vapnik (The Nature of Statistical Learning, 1995), un nouveau courant de recherche est né: il se situe à l'interface entre les communautés mathématique et informatique et mobilise un nombre croissant de jeunes chercheurs tournés vers les applications liées à l'analyse de données massives. Dans ce module, on présentera le domaine, ses fondements, les problèmes qu'il permet d'aborder et les méthodes les plus récentes qui sont actuellement étudiées.

Programme:

1 - Introduction générale du cours.
Problèmes de prédiction: classification, régression, détection d'anomalies et estimation de densité.
Le cas de la classification : modèle statistique, mesure de performance, optimalité.
2 - Eléments de la théorie de l'apprentissage.
Le cas de la classification: les aspects statistiques, minimisation de l'erreur empirique.
Complément : Inégalités exponentielles, déviation et concentration.
3 - Contrôle de la complexité dans le cas de la classification. Entropie métrique vs. mesures combinatoires.
Méthodes de classification standard: classifieurs linéaires, arbres de décision, noyaux, réseaux de neurones
4 – Les méthodes de classification « dernier cri »: boosting et SVM
Vers des stratégies pragmatiques : minimisation du risque convexifié, aspects statistiques.
5 – Méthodes de régularisation pour le contrôle de la complexité
6 – Méthodes de régression linéaire pénalisée vs. Lasso. Performance vs. « Sparsity »
7 – Détection d'anomalies. Estimation nonparamétrique de la densité.
8 – La courbe ROC et l'AUC: critères de performance pour la discrimination.
Le problème du « ranking/scoring »

Bibliographie:

Devroye L., Györfi L. & Lugosi G. (1996). A Probabilistic Theory of Pattern Recognition, Springer.
Vapnik V. (1998). Statistical Learning Theory, John Wiley.
Friedman J., Hastie T. & Tibshirani, R. (2002). The Elements of Statistical Learning: Data-mining, Inference

and Prediction, Springer

Top

Skip to content

Copyright @ by Master M2MO(ex-DEA Laure Elie), UFR de Mathématiques, Université Paris Diderot
Master recherche-professionnel en statistique, probabilités et finance.
Thématiques: statistique et finance, gestion des risques, méthodes numériques.

M2MO: Modélisation Aléatoire, Finance et Data Science

Important

News

Statistical learning

Institutions

Stéphane Crépey
Eva LOCHERBACH

M2MO: Modélisation Aléatoire, Finance et Data Science

Important

News

Statistical learning

Institutions

Stéphane CrépeyEva LOCHERBACH

Stéphane Crépey
Eva LOCHERBACH