jeudi 15 août 2013

BIG DATA 3. "Microsoft en sait plus sur les médicaments que les labos"


BIG DATA 3. "Microsoft en sait plus sur les médicaments que les labos"

 - 

Troisième partie de notre entretien avec Viktor Mayer-Schönberger qui explore le "moment Gutenberg" provoqué par l'avènement des Big data.

Un homme et sa maison ultra-connectée génératrice de Big data (Peter Menzel / The Human Face of Big Data / EMC)
Un homme et sa maison ultra-connectée génératrice de Big data (Peter Menzel / The Human Face of Big Data / EMC)
Sciences et Avenir : Hors le domaine scientifique, telles l’astronomie, la génomique (cf deuxième partie de l'entretien), l’accumulation des données vient de multiples sources. Dans votre livre Big data vous citez livres, e-mails, graphiques, dessins, photographies, musique, vidéos, jeux vidéo, appels téléphoniques, systèmes de localisation. Cet ensemble gigantesque ne va pas cesser d’augmenter ?  
Viktor Mayer-Schönberger : La quantité d’information double tous les trois ans. D’autant qu’en l’an 2000, seulement un bit d’information sur 4 était sous forme numérique, alors qu’aujourd’hui, 98% de l’information est numérique.

S et A : Plus fort qu’après Gutenberg !
V. M.-S. : Oui, nous vivons un vrai « moment Gutenberg ». Selon les travaux de l’historienne Elizabeth Eisenstein, après l’invention de l’imprimerie, la quantité d’information disponible en Europe a doublé en 50 ans, entre 1453 et 1503. Huit millions de livres ont été imprimés, estime-t-elle, plus que ce que tous les scribes avaient écrit depuis la fondation de Constantinople, 1200 ans auparavant. C’est juste après son invention que l’impact de l’imprimerie a été le plus fort, cela a créé une vraie révolution.

LE POIDS DES GÉANTS DU WEB DANS LES BIG DATA
S et A : En définitive, qui dispose aujourd’hui du plus grand nombre de données, les gouvernements ou de grandes entreprises comme Google ?
V. M.-S. : Les grandes entreprises comme Google. Les gouvernements essayent de rester au niveau, mais en comparaison, c’est peu. Et les big data de ces grandes entreprises leur permettent de découvrir des choses insoupçonnées. On a beaucoup parlé de l’affirmation par Google de sa capacité à prévoir l’épidémie de grippe (article publié dans Nature quelques semaines avant l’attaque du virus H1N1 en 2009), mais je vais vous donner un autre exemple.
Microsoft ou Google en savent plus aujourd’hui sur les effets secondaires des médicaments que les compagnies pharmaceutiques.
En examinant les requêtes sur Internet, des chercheurs de Yahoo et Microsoft ont été capables de découvrir un effet secondaire inconnu, dû à la prise de deux médicaments en même temps. Les gens qui avaient absorbé ces deux médicaments ont eu des maux de tête, des saignements, et ont cherché à se renseigner sur Internet pour découvrir des contre indications. Il n’y ont évidemment rien trouvé puisque cet effet cumulé était inconnu. Mais, à cause des requêtes et des mots-clés et des questions qu’ils ont posées, ils ont lancé des signaux que les spécialistes ont su analyser. Résultat : on se rend compte que Microsoft ou Google en savent plus aujourd’hui sur les effets secondaires des médicaments que les compagnies pharmaceutiques. Qui aurait pu penser pareille chose !

S et A : Ont-elles commencé à monnayer cette connaissance ?
V. M.-S. : Pas encore, mais bien sûr qu’elles y pensent. Et c’est là que va exploser la prochaine très grande controverse : celle du marché des transactions de données. Si le e-commerce a été la grande affaire des années 2000, les réseaux sociaux celle d’il y a cinq ans, la question de demain est celle de ce nouveau marché. Parce qu’il n’y a pas de droit de propriété intellectuelle, pas de droit d’auteur, pas de copyright sur les données. Il est très difficile de protéger une découverte (un "insight") qui vous a été donnée par un algorithme (ici, série d’instructions que l’on fait exécuter par ordinateur ndlr). La notion de droit de propriété intellectuelle correspond à une action humaine. Mais si un algorithme vous révèle quelque chose, comment se protéger ? A l'heure actuelle, il existe encore un vide juridique sur cette question. Du coup, les transactions ne peuvent pas se faire facilement. Mais tout cela va évoluer. 

S et A : Mais aujourd’hui, vous insistez sur le fait qu’il ne faut pas confondre numérisation (digitalizing) et transformation en données (datafying). Pouvez-vous préciser ce point 
V. M.-S. : La meilleure façon de l’expliquer est de rappeler le projet très controversé de Google de scanner tous les livres du monde. Un projet très américain, on  pourrait même dire très californien ! Ce qu’il faut comprendre, c’est qu’il a fallu faire deux choses. D’abord, scanner les ouvrages et créer une image graphique de chaque page. Une étape de numérisation déjà très utile, puisque qu’il devient alors possible de transmettre ces pages par e-mail, de les stocker sur son ordinateur et de les lire etc. Mais vous comprenez bien qu’à ce stade, il n’est pas possible de faire d’analyse de ces pages, car tout ce que l’ordinateur en voit, c’est un ensemble de pixels, et non un texte. Ensuite, il a fallu passer de cette image numérique au texte numérique. C’est avec un logiciel de reconnaissance optique des caractères que Google a opéré la transformation des lettres, mots, phrases, paragraphes en données. Une "datafication", qui permet de mener toutes sortes d’analyses du texte et de faire ressortir des choses passionnantes.

S et A : Un exemple ?
V. M.-S. : La découverte des traces de la censure. En analysant des livres anglais, français et allemands des années 1930, 1940 et 1950, un groupe de Harvard a ainsi produit un magnifique graphique révélant la mention du nom du peintre Marc Chagall.  Et qu’ont-ils découvert ? Que, soudain, la fréquence d’apparition du nom chute dans les livres allemands à partir de l’ascension des Nazis et de la censure qu’ils ont imposée. Cela, les spécialistes l’évoquaient déjà, mais de façon qualitative. Maintenant, c’est devenu un fait que nous pouvons voir et quantifier. C’est encore plus extraordinaire. On peut découvrir le même genre de choses en Union Soviétique lors de la disgrâce de tel ou tel leader, comme Trotski, et que son nom soudain disparaît. Autrement dit, nous devenons capables d’extraire de l’information de la réalité et de la transformer en données quantifiables et analysables. Une méthode qui n’est pas née, et c’est important de le souligner, avec la numérisation. Nous citons dans le livre l’exemple de l’officier Matthew Fontaine Maury, qui a créé, au XIXe siècle, des cartes de navigation en se référant à toutes sortes de données accumulées dans de vieux journaux de bord dont personne ne faisait rien, puis en faisant travailler jusqu’à une centaine de personnes pour amasser de nouvelles données à bord des navires, sur les vents, les courants etc. Il voyait chaque vaisseau comme un observatoire flottant qui pouvait apporter des informations supplémentaires. On comprend bien que faire tout ce travail à la main prend beaucoup de temps. Ce que les ordinateurs nous permettent aujourd’hui, c’est de traiter toutes les données de façon bien plus rapide et facile. Pour nous, c’est devenu une évidence.

S et A : Encore un autre chiffre étonnant que vous citez : chacun de nous disposerait de 320 fois plus d'informations que jadis la fameuse bibliothèque d’Alexandrie. C’est bien joli, mais est-ce que cela nous rend 320 fois plus intelligent ?
V. M.-S. : Mais oui, bien sûr ! Le vrai goulet d’étranglement, c’est notre capacité humaine à donner du sens à cela. Un point que nous n’avons pas abordé dans le livre, car les recherches sont très récentes, c’est effectivement de savoir de combien de données il faut disposer pour effectuer de vraiment bonnes statistiques, et de bonnes prévisions. Prenons l’exemple de la voiture automate de Google (annoncée en 2010. Ndlr). Si on veut qu’elle fonctionne dans les villes et pas seulement dans le désert, sache repérer les feux de circulation, anticiper que le gamin avec sa batte de baseball va traverser la rue sans regarder et freiner à temps etc., il faut statistiquement faire le traitement d’un milliard de données par seconde. Ce qui est intéressant ici, c’est de comprendre que pour faire une bonne prévision pour cette voiture dans chauffeur – et conduire, c’est prévoir, voilà l’ordre de grandeur en jeu - il va falloir acquérir, stocker et analyser des données au rythme de un milliard par seconde. C’est ce que nous humains, faisons tout le temps. On s’assoit au volant, on démarre et on roule. Notre cerveau est doué pour ce genre de choses, il traite l’information vraiment très vite. Et les big data s’en rapprochent.
Propos recueillis par Dominique Leglu, directrice de la rédaction de Sciences et Avenir, 10/07/13

Aucun commentaire:

Enregistrer un commentaire