samedi 3 août 2013

BIG DATA 1. "Cela va révolutionner nos vies, notre travail et notre pensée"


BIG DATA 1. "Cela va révolutionner nos vies, notre travail et notre pensée"

 - 

À l'heure de l'affaire Prism, le professeur Viktor Mayer-Schönberger alerte sur la "mise en données du monde" favorisée par l'accumulation de "data".

Dans un centre de données de Google, dans l'Iowa (États-Unis). Connie Zhou/AP/SIPA
Dans un centre de données de Google, dans l'Iowa (États-Unis). Connie Zhou/AP/SIPA
ACCUMULATION. L’affaire Prism, révélée par Edward Snowden, ex-agent de l’Agence de sécurité nationale (NSA) américaine, a montré que celle-ci disposait d’un programme de surveillance des communications mondiales . Plus que jamais, elle a mis sur le devant de la scène ce qu’on appelle désormais, selon leur dénomination anglo-saxonne dont on ne connaît pas la paternité : les « Big data ». Autrement dit l’accumulation par milliards de milliards de données de toutes sortes – et notamment celles concernant les individus, par des acteurs multiples : gouvernements, entreprises telles Google, Facebook, Twitter etc., sites de ventes en ligne, institutions diverses.
Une « mise en données du monde », un vrai déluge numérique (1) dont l’importance devient si flagrante que deux spécialistes du domaine, Viktor Mayer-Schönberger* de l’université d’Oxford et Kenneth Cukier du magazine The Economist **  n’hésitent pas à sous-titrer leur ouvrage « Big data », récemment paru aux Etats-Unis et déjà best-seller en Chine, de "Révolution qui va transformer nos vies, notre travail et notre pensée".
"DATA SCIENTISTS". En ce début juillet 2013 où, en France, la ministre Fleur Pellerin vient de dévoiler son plan Big Data, qui appelle notamment  à la formation de « data scientists » (scientifiques spécialistes du traitement d’ensembles de données) et d’incubateurs permettant le développement d’entreprises capables d’affronter cette nouvelle donne numérique, nous avons interviewé l’un des deux auteurs, Viktor Mayer-Schönberger, pour prendre la mesure du phénomène. De quoi s’agit-il ? Comment sont traitées les données ? Quel bénéfice en tirer ? Que faut-il craindre ? Et pourquoi nous assistons, comme le disent les spécialistes, scientifiques ou philosophes, sociologues ou linguistes, à un changement de paradigme. Autrement dit à une nouvelle représentation du monde. Rien de moins.
Dominique Leglu, directrice de la rédaction de Sciences et Avenir.
* Professeur de « gouvernance et de régulation Internet » à l’Institut Internet de l’Université d’Oxford. Auteur de de plus d’une centaine d’articles sur le sujet des Big Data, et de 8 livres dont The virtue of forgetting in the digital age. Il est conseiller chez Microsoft et au Forum économique mondial.
** Editeur « data » au magazine The Economist, il collabore aussi au New York TimesFinancial Times ou Foreign affairs

Sciences et Avenir : Dans votre ouvrage, vous citez le chiffre de 1, 7 milliard par jour d’emails, appels téléphoniques, et autres communications (Skype, messages sur Facebook…) collectés par la NSA (agence nationale de sécurité américaine) ainsi que l’estimation d’une accumulation de 20.000 milliards de transactions compilées par le gouvernement à propos de leurs citoyens ou d’autres dans le monde. Qu’apportent les révélations de Edward Snowden ?
Viktor Mayer-Schönberger : Tout ce dont nous disposons pour l’instant, c’est d’une fuite à la presse d’une présentation PowerPoint. Avant que nous ayions des données supplémentaires, nous avons pris le parti, Kenneth Cukier (co-auteur de l’ouvrage Big Data ndlr) et moi de demeurer prudents. Mais nous savions déjà - et l’avons exposé dans notre ouvrage - le pouvoir des États dans le domaine des données. Et c’est bien le problème de la révélation du programme Prism de la NSA.
Pour un grand nombre de commentateurs, il s’agit d’un programme de type Big Brother (2), un programme de surveillance. Je ne suis pas d’accord. De mon point de vue, et en cela j’ai tendance à approuver ce qu’a déclaré le président Obama : « Non, il s’agit d’un programme concernant les métadonnées » (3). Autrement dit, ce programme ne se focalise pas sur la surveillance de tout un chacun, mais sur une analyse statistique de masses de données de façon à repérer certains comportements. Il ne s’agit pas de suivre des individus mais de faire des prédictions généralisables sur ce que certains types de gens pourraient faire à l’avenir.

SetA : Pourriez-vous expliquer cela plus précisément ?
V. M.-S : Prism ne cherche pas à prévoir ce que Dominique Leglu va faire en sachant ce qu’elle est en train de faire en ce moment. Il veut prévoir ce qu’une personne telle qu’un journaliste travaillant aussi comme éditeur en France pourrait faire à l’avenir. Ce que le gouvernement veut trouver, c’est qui est le terroriste le plus probable. D’une certaine façon, Prism est une source de données non pas de type Big Brother mais plutôt de type Minority Report. C’est cela qui me soucie beaucoup plus. (lire aussi dans Set A n°782 d'avril 2012 l'article "le logiciel qui prédit les crimes" sur la police de Los Angeles par Elena Sender).

SetA : Rappelez ce qu’est Minority Report pour ceux qui n’auraient pas lu la nouvelle de Philip K. Dick ou le film avec Tom Cruise…
V. M.-S : Ce film décrit une société dans laquelle les prédictions semblent si exactes (elles sont faites par trois clairvoyants, baptisés precog et non par une analyse de données ndlr) que la police arrête des individus pour des crimes qui n’ont pas été commis. Ils sont jetés en prison non pour ce qu’ils ont fait, mais pour ce qu’il est prévu qu’ils accomplissent, même s’ils n’ont pas commis de crime.

SetA : C’est donc cette tendance qui est à redouter ?
V. M.-S : Ce qui est en jeu avec l’analyse d’ensembles de données, ce sont les prédictions que l’on en tire.  Je vais vous citer un exemple, donné par des chercheurs de l’université de Cambridge. Ils ont ainsi découvert qu’on pouvait prédire votre orientation sexuelle avec une très forte probabilité, non pas à partir de ce que vous racontez sur Facebook mais par l’analyse de qui sont vos amis sur Facebook. C’est votre réseau d’amis qui permet de prédire une information sensible de ce type, et non pas parce que vous avez dit ceci ou cela de révélateur. Et même, savez-vous ce que ces chercheurs nous apprennent ? c’est qu’ils peuvent prédire si vos parents ont divorcé quand vous aviez douze ans !
"Il est possible de prédire votre orientation sexuelle avec une très forte probabilité, non pas à partir de ce que vous racontez sur Facebook mais par l’analyse de qui sont vos amis sur Facebook."

SetA : Selon un autre exemple, Google n’est-il pas capable d’affirmer qu’une femme est enceinte - ce qui permettrait ensuite de la cibler pour tels ou tels achats ? Et même avant qu’elle ne le sache…
V. M.-S : C’est effectivement le cas quand on cible de tout petits faits qui peuvent être révélateurs. Ainsi, une personne peut changer de crème pour les mains et passer d’un produit parfumé à un autre sans parfum parce qu’en début de grossesse, elle ne supporte plus cette odeur. Il s’agit d’une information banale qui, capturée dans l’univers des big data, peut devenir prédictive.
Chaque petite information n’a en elle-même qu’une faible importance, mais c’est quand vous les réunissez toutes ensemble, comme quand on réalise un puzzle, que soudainement il vous apparaît quelque chose que vous ne pouviez pas voir avec chaque pièce, prise séparément.
C’est en ce sens que je m’inquiète moins de la sensibilité en elles-mêmes des données accumulées par Prism que du caractère sensible des prédictions qui en découlent. C’est là qu’il faut se poser la question des limites de l’utilisation des big data. Et du contrôle de ces limites. Il s’agit de questions majeures, particulièrement difficiles. J’avoue ne pas être particulièrement à l’aise quand je pense que nos hommes politiques devront y répondre.

SetA : Pensez-vous qu’ils en ont pris la mesure et qu’ils ont compris la révolution en cours ?
V. M.-S : Non, mais je veux pas les blâmer. Le personnel politique appartient à un secteur traditionnel, à la manière de l’édition, de la presse, des agences de voyage ou de l’industrie de la musique. Tous ces secteurs sont en train de changer de façon considérable, et nos politiciens devront faire de même, notamment dans leur communication avec le public. Nombre d’entre eux n’ont même pas commencé à penser à Twitter, Facebook etc.
SetA : N’y verraient-ils qu’une sorte de buzz californien, quelque chose de tendance, du « hype » comme on dit en anglais ?
V. M.-S : Peut-être. Il y a une semaine seulement, la chancelière Angela Merkel a fait la remarque selon laquelle, je la cite, « Internet est une terra incognita pour chacun d’entre nous ». Je ne lui en veux pas parce que, pour elle, il s’agit effectivement d’un nouveau monde, mais pour ceux qui ont vingt ou trente ans, il s’agit du monde dans lequel ils vivent 24h sur 24.
Crédit VMS webs
Les hommes politiques ont grandi dans un autre monde, différent, et cela m’inquiète qu’ils aient un jour à relever le défi de l’organisation de la protection de notre société. Protection contre des tendances Minority report, avec notre entrée dans l’ère des big data. Il leur faudra bien s’entourer et se faire aider à ce sujet.
"Les hommes politiques ont grandi dans un autre monde, différent, et cela m’inquiète qu’ils aient un jour à relever le défi de l’organisation de la protection de notre société."

SetA : Vous nous parlez ici de données qui ne cessent d’affluer, encore et encore. Mais en quoi est-ce vraiment une révolution, comme vous l’écrivez. Ou comme votre coauteur l’a dit le 7 juin lors d’une réunion à l’université George Washington : ce qui se passe aujourd’hui est un véritable “moment Galilée” ?

V. M.-S : Ce que nous voulons absolument faire comprendre, c’est qu’avec cet accroissement massif, le changement quantitatif conduit à un changement qualitatif. En changeant de niveau, nous changeons d’essence.
Pour l’expliquer, je vais faire une comparaison avec les nanotechnologies. Quand vous descendez de plus en plus bas dans l’infiniment petit, soudain, ce ne sont plus les forces habituelles, comme la gravitation ou l’électromagnétisme, qui jouent. Ce sont les interactions forte et faible qui décident du comportement des particules subatomiques. Vous avez changé d’échelle et donc la qualité des choses. Ici aussi, nous changeons d’échelle et de qualité des choses.
Mais j’aimerais ici être très précis et attirer votre attention sur une chose que beaucoup oublient. Ce qui compte, ce n’est pas le nombre absolu des données, mais le nombre de données relatif au phénomène que l’on veut étudier. Quand il s’agit d’un phénomène à 100 000 entrées, vous n’avez pas besoin d’en acquérir un milliard pour mieux le comprendre.
"Ce qui compte, ce n’est pas le nombre absolu des données, mais le nombre de données relatif au phénomène que l’on veut étudier."

SetA : Pourriez-vous donner un exemple ?
V. M.-S : Dans le livre, nous citons cette histoire de matches truqués de sumo au Japon. Des experts ne parvenaient pas à prouver que des matches étaient arrangés alors qu’ils avaient des doutes. Essentiellement parce qu’ils prenaient des échantillons au hasard, et ne pouvaient pas entrer dans le détail des données.
Et puis, un économiste de l'université de Chicago, Steven Levitt, a fini par découvrir la fraude en prenant tous les résultats à l'échelle du pays sur onze ans : 32.000 matches avec 64.000 lutteurs. Il a ainsi détecté une anomalie dans une région en particulier.
Même s’il y avait rajouté la date, l’heure, le lieu du match etc., en tout la quantité de données n’aurait même pas dépassé celle d’une photographie numérique. Il s’agit cependant de “big data” dans la mesure où l’ensemble du phénomène a été ainsi capturé. C’est une chose importante à retenir. D’autant que dans certains domaines, il n’y a pas autant de données que ce qu’il faudrait.

SetA : Par exemple ?
V. M.-S : Je vais vous citer l’exemple de la météo, avec des éléments que j’ai d’ailleurs appris tout récemment. La prévision météo qui importe à beaucoup de monde, ne dispose pas d’autant de données qu’il serait nécessaire. Bien sûr, les satellites météo envoient beaucoup de renseignements, de même que les stations météo, mais elles ne sont pas si nombreuses que cela.
En Allemagne, de façon à améliorer cette prévision, il a été décidé que les 300 avions de la compagnie aérienne Lufthansa, seraient dotés d’un appareillage chargé de stocker des données numériques, enregistrées en vol. Un avion procède en effet à de multiples mesures comme température, humidité, position, pression atmosphérique etc. Jusqu’à présent, une fois transmises, ces données étaient éliminées. Maintenant, elles seront stockées et l’avion, une fois posé au sol, transmettra ces données à l’agence météorologique. On estime que la prévision météo en Allemagne pourrait ainsi être améliorée de 5 à 7%.
Et ce qui est intéressant de remarquer ici, c’est qu’avec un accroissement somme toute modeste du nombre des données (en provenance de seulement 300 avions), il devrait y avoir une amélioration significative de la qualité de la prévision.  
  
(1) Lire à ce sujet l’article qui porte ce titre, écrit par Viktor Mayer-Schönberger et Kenneth Cukier dans « Le monde diplomatique », n° 712, juillet 2013.
(2) Big Brother est la métaphore du régime policier et totalitaire, issue du roman 1984 de George Orwell, paru en 1949.
3) Discours du 19 juin 2013. On appelle métadonnées des données qui se rapportent à d’autres données (du grec méta signifiant « au-delà », « après »). Exemple : une photo prise avec un smartphone (donnée de base) est accompagnée de la date à laquelle la photo a été prise, du lieu (grâce aux données d’un GPS incorporé) etc.
Propos recueillis par Dominique Leglu, Sciences et Avenir, 08/07/13

Aucun commentaire:

Enregistrer un commentaire