M2 Modélisation Aléatoire

Master en statistique, probabilités et finance - Université Paris 7 - Paris Diderot

 
 
 
 
 
 
Liste des cours Cours Data Science Traitement de données massives
 
 

Traitement de données massives

Cours: S. Boucheron
Période: 
Trimestre 3
Nombre de crédits: 3
Volume horaire: 2 heures de cours + 2 heures "office hour" par semaine

Dans les données massives,  on trouve des données qui se distinguent des tableaux sur lesquels les techniques statistiques classiques ont été élaborées.

Ces données peuvent être volumineuses et/ou de grandes dimensions. La grande dimension peut rendre ardu ce qui est facile en dimension 1, 2, ...

comme la recherche de plus proches  voisins. Pour tourner la difficulté, on a construit des techniques de projections aléatoires notamment les méthodes de hachage

localement sensibles (LSH). Ces techniques s'isncrivent dans le corps des techniques de réduction de la dimension.

 Elles permettent de résoudre des problèmes statistiques et algorithmiques. Les données massives

sont parfois si volumineuses qu'elles épuisent la mémoire vive des machines. Pour les traiter, il faut utiliser des méthodes itératives souvent randomisées,

qui peuvent être mais ne sont pas toujours des descentes de gradient. L'algorithmique des flots (streams)

peut relever de l'étude des chaines de Markov ou des martingales.

Les méthodes de clustering peuvent souvent être décrites comme des méthodes de factorisation matricielles (voire tensorielles).

Ce point de vue est bien en ligne avec l'usage de nombreux  modèles dits à variables latentes (modèles de mélanges).

Plan

1. Plus proches voisins en grande dimension : Locally Sensitive Hashing

2. Projections alétaoires, méthodes, applications, enjeux calculatoires 

3. Flots de données : Estimations frugales et robustes de moments, de quantiles 

4. Factorisation de matrices non-négatives. Applications et algorithmes

5. Clustering de mélanges gaussiens, concentration, méthodes EM justifiables

6. Clustering spectral

7. Latent Dirichlet Analysis, Latent Semantic Analysis