Statistique et Big data, vers une nouvelle synergie
Jeudi 26 février 2015 à 11h00
Conférence Cerfacs CERFACS conference room
by Christophe Genolini
Université Paris 10
Résumé:
La statistique est l’art de résumer des données trop vastes pour l’esprit humain en quelques indices clefs, indices qui présentent une vue d’ensemble du phénomène étudié. Les Big data sont des bases de données trop volumineuses pour être traitées par les outils classiques. Les champs étant relativement proches, on pourrait penser qu’ils donnent lieu à de nombreuses interactions. Ca n’est hélas pas encore le cas.
En statistique, les logiciels métiers n'intègrent pas ou peu les méthodes informatiques modernes. La majorité des logiciels sont bloqués dans le traitement des données de quelques giga alors qu’en informatique, les logiciels récents traitent jusqu’à 50 terra. A rebours, le champ des Big data s’attache à traiter l'intégralité des données disponibles alors que les statisticiens maitrisent les techniques permettant de travailler à partir d’échantillon sans dégrader la qualité du résultat final.
Cette séparation des champs disciplinaires n’est pas une fatalité. De nombreuses interactions sont envisageables. Lors de ce séminaire, nous ferons un point sur les liens possibles entre statistique et big data. Nous présenterons les spécificités des analyses statistiques qui permettent une optimisation des méthodes utilisées en big data ; enfin, nous terminerons par une rapide présentation du projet « R++, the Next Step », projet d’écriture d’un logiciel d’analyse statistique haute performance exploitant le parallélisme et permettant le traitement de grandes bases de données.