vendredi 16 août 2013

BIG DATA 4. “Statisticien, le job le plus sexy du 21e siècle”


BIG DATA 4. “Statisticien, le job le plus sexy du 21e siècle”

 - 

Qui sont ces data scientists qui explorent la mine des Big data ? Réponse de Viktor Mayer-Schönberger dans cette 4e partie d'entretien.

BIG DATA 4. “Statisticien, le job le plus sexy du 21e siècle” Connie Zhou/AP/SIPA
BIG DATA 4. “Statisticien, le job le plus sexy du 21e siècle” Connie Zhou/AP/SIPA
Sciences et Avenir : Vous nous expliquez qu’avec les Big data, l’idée n’est pas d’apprendre à un ordinateur à “penser” comme les humains mais qu’il puisse traiter toutes sortes de masses de données. Est-ce un nouveau domaine de la science ? Qui sont les nouveaux “scientifiques des données” ?
Viktor Mayer-Schönberger : Certains sont mathématiciens ou statisticiens, d’autres informaticiens... N’est-ce pas Hal Varian, l’économiste en chef de Google qui a dit que les statisticiens avaient le job le plus sexy du XXIe siècle et qu’il espérait bien que ses enfants, à qui il souhaite un bel avenir, apprendraient cette matière ! (lire aussi SetA n°797, 2013 Année des statistiques par Azar Khalatbari, p. 45).
Reste que traiter de grands ensembles de données ne se résume pas à l’analyse statistique, il y a plein d’autres choses à faire : programmation des bases de données, analyse d’Internet, stockage et gestion des données "non structurées" (données complexes qui vont des graphiques aux tableurs, en passant par les e-mails, des pages non indexées du Web etc. Ndlr). Là, les spécialistes se retrouvent bien au-delà de ce qu’ils avaient l’habitude de traiter. Le paradigme classique était celui du traitement de données bien structurées et classées, des bases de données ayant une construction correspondant à une taxonomie précise. Aujourd’hui, l’idée est d’acquérir des données, de façon exhaustive et, seulement ensuite, de se demander comment les organiser.
« Il faut d’abord acquérir les données, ensuite se demander comment les organiser »
C’est un changement majeur dans la manière de penser. Des générations d’ingénieurs savent fabriquer ce qu’on appelle des “bases de données relationnelles” (mode d’organisation des données qui s’est développé dans les années 70 quand a commencé à se généraliser leur traitement par l'informatique. Actuellement utilisé dans la grande majorité des bases de données. Ndlr) mais ils ont du mal à comprendre ce paradigme nouveau des "données non structurées".

S et A : Il va leur falloir se reconvertir ?
V. M.-S. : On voit apparaître de nouveaux cursus d’analystes de données dans les universités. Un professeur me disait récemment que la fameuse Stern Business school (l’une des plus célèbres écoles de business au monde, basée à l’université de New York, ndlr) a ouvert un campus à Shanghai qui offre un nouveau MBA  - non un "master of business administration" traditionnel mais un "master of science in business analytics" - pour éduquer les futurs analystes. Il y a nécessité de créer de nouveaux programmes et tout le monde devra le comprendre, sinon c’est le marché qui s’en chargera. Les universités vont devoir créer de nouvelles filières, les étudiants s’y inscrire pour avoir un job solide et c’est tout un nouveau groupe de spécialistes qui va émerger.  

S et A : Qu’y a-t-il de si différent, scientifiquement ?
V. M.-S. : La plupart des statisticiens savent faire les yeux fermés ce qu’on appelle des analyses de corrélation ou des régressions. Il s’agit de calculs linéaires (les fonctions linéaires, de type y = a X x, comme on les apprend au lycée, sont les plus simples des fonctions, ndlr). Or, la plupart des connexions dans notre monde, ainsi que la dynamique des grands ensembles de données, n’ont rien de linéaire. Elles sont logarithmiques, complexes… Elles nécessitent des outils statistiques qui sachent repérer des corrélations non linéaires. Et qui sachent également évaluer la robustesse de ces corrélations. Pour l’instant, les méthodes de vérification ne sont pas au même niveau que dans les statistiques classiques. Il faut des recherches approfondies dans ce domaine pour créer ces nouveaux outils. C’est un champ qui requiert beaucoup d’innovation.

S et A : Vous évoquiez plus haut le concept de données non structurées. Dans votre ouvrage, vous utilisez aussi le terme de "désordre" (messiness en anglais), de données imprécises et pourtant utilisables ? C’est une nouvelle façon de voir le monde ?
V. M.-S. : Quand je parle à mes amis physiciens expérimentateurs, comme ceux du Cern, ils me disent qu’ils sont déjà entrés dans le monde du désordre. Ils comprennent très bien ce que cela signifie. Ce n’est que dans la vieille physique classique que l’on pensait autrement. L’entrée dans la physique des probabilités signifie qu’il y a du désordre dans le vrai sens du mot.  Notre monde est désordonné, notre réalité est désordonnée. Le principe d’indétermination nous dit qu’on ne peut pas connaître exactement à la fois la vitesse et la position d’une particule. Je ne peux parler qu’en termes de probabilité de présence. Le principe entropique nous dit que ce qui est à un instant donné aura évolué de façon plus désordonnée une seconde plus tard. Ces phénomènes que nous rencontrons dans les grands ensembles de données, les physiciens les connaissent bien. Mais il se trouve que ces notions commencent à pénétrer les sciences sociales et humaines et même notre vie quotidienne, et cela en trouble plus d’un. Dans les sciences sociales, on a commencé à compter il y a environ quarante ans. Toujours sur de petits échantillons, choisis avec précision et exactitude. Et maintenant, il faudrait tout faire passer par la fenêtre et accepter grands nombres et désordre. Il y a de quoi être choqué.

S et A : Finalement, ces données massives devraient servir à la finance, à la grande distribution, aux agences de voyage, aux jeux, au journalisme… Y a-t-il un domaine dans lequel ne pas les employer ?
 V. M.-S. : Oui, il y en a un et nous essayons d’être très clairs là-dessus dans notre livre. C’est quand la société doit prendre une décision disant si une personne peut être tenue pour responsable ou non d’une de ses actions. Et tout spécialement, comme nous l’avons évoqué plus haut, pour ses actions à venir. Nous faisons la suggestion que les big data ne sont pas un outil adéquat quand il s’agit d’attribuer la responsabilité de quelque chose à quelqu’un. Et la raison en est la suivante : les ensembles de données ne fonctionnent pas en termes de causalité, mais seulement de corrélation.
« Les Big data ne sont pas un outil adéquat quand il s’agit d’attribuer la responsabilité de quelque chose à quelqu’un. »
Attribuer la responsabilité de quelque chose à quelqu’un correspond presque par définition à penser en terme de causalité. Un individu est dit responsable d’un meurtre si et seulement s’il en est la cause en ayant planté un couteau dans le ventre d’un autre et l’a laissé mourir. La responsabilité est liée à la causalité et les big data, qui fonctionnent en termes de corrélation, ne sont pas un bon outil (1).

S et A : Vous dites même que la notion de progrès pourrait être affectée par les big data !
V. M.-S. : Les ensembles de données seront importantes pour voir des choses que l’œil humain n’a pas discernées. Pensez par exemple à ce qu’a découvert Carolyn McGregor (Institut de technologie de l’université de l’Ontario) sur les bébés prématurés. En prenant environ 1260 données à la seconde (rythme cardiaque, pression sanguine, température…), elle s’est aperçue de que des moments de stabilité dans l’état du bébé, plutôt qu’une amélioration, révélait plutôt le calme avant la tempête. Ce qui permet d’administrer des médicaments nécessaires un jour plus tôt. Mais le problème, c’est si on se laisse trop conduire par les données, sans penser qu’il peut y avoir de l’innovation ailleurs, dans ce qu’elles ne disent pas. Nous citons l’exemple d’Henry Ford. S’il avait fait tourner des algorithmes  pour savoir ce que ses clients voulaient, ils lui auraient répondu « un cheval plus rapide ». Oui, les big data peuvent nous apporter des innovations, mais seulement si nous laissons toujours jouer son rôle à notre créativité.

Propos recueillis par Dominique Leglu, directrice de la rédaction de Sciences et Avenir, 11/07/13
1) Exemple lu dans Wikipédia d’une corrélation forte qui n’a rien à voir avec la causalité : le nombre de coups de soleil observés dans une station balnéaire peut être corrélé au nombre de lunettes de soleil vendues ; mais aucun  des deux phénomènes n’est probablement la cause de l’autre. [Explication : deux phénomènes peuvent être corrélés à un même phénomène source : une troisième variable non-mesurée et dont dépendent les deux autres – dans l’exemple, c’est la présence du soleil et de l’intensité de son rayonnement]

Aucun commentaire:

Enregistrer un commentaire