Big Data 2 : risques et limites
Le Big Data pourrait devenir la boule de cristal de l’humanité, mais Big Brother et ses apprentis sorciers rôdent dans les coulisses. Le phénomène Big Data comporte sa part de limites, de problèmes d’éthique et de risques qui ne peuvent pas être ignorés.
danah boyd chercheure principale chez Microsoft, assistante-professeure à la New York University et chercheure au Berkman Center for Internet and Society d’Harvard, spécialiste reconnue de la recherche en médias sociaux, et sa collègue Kate Crawford de l’Université de New South Wales ont présenté récemment, dans un article très fouillé (traduit en français par le site français InternActu.net) les écueils sur lesquels les promesses du Big Data risquent de s’échouer. Comme elles le précisent en introduction : « La manière dont nous nous engageons dans l’ère des Big Data est cruciale : alors qu’elle s’installe dans un environnement d’incertitudes et de changements rapides, les décisions prises aujourd’hui auront un impact considérable dans le futur. »
La montée du Big Data amène aussi de grandes responsabilités
Et, disent-elles, il est temps de se pencher sur celles-ci. Ce questionnement les amène à lancer six « provocations », six défis au Big Data :
1. Il ne faut pas laisser les chiffres s’exprimer seuls
En 2008, Chris Anderson, le rédacteur en chef de Wired, déclarait que si l’on a assez de données, les chiffres parlent d’eux-mêmes.
Non, répondent-elles, on ne peut pas laisser les chiffres s’exprimer seuls. Il faut tenir compte du fait que les outils spécialisés du Big Data contiennent, pour la plupart, leurs propres limites et restrictions, ce qui a une incidence sur le sens qu’on peut en extraire. Ainsi, une grande partie des Big Data est issue de sources qui ont des fonctions de recherche et d’archivage rudimentaires, comme Facebook et Twitter, ce qui les coupe de tout contexte historique.
2. L’objectivité et la précision sont un mythe
Un mythe, parce que, expliquent-elles, « un modèle peut avoir l’air mathématiquement solide, une expérience peut sembler valide, mais dès lors que le chercheur tente d’en saisir le sens, le processus d’interprétation a commencé. Les décisions de conception, qui déterminent ce qui sera mesuré, découlent elles aussi d’un processus interprétatif. »
Il faut ajouter à cela le problème des erreurs dans les données elles-mêmes, souvent peu fiables, à la merci des pannes ou des pertes, et qui se retrouvent décuplées quand on croise de multiples jeux de données.
3. Plus gros ne veut pas nécessairement dire meilleur
Twitter en est la meilleure illustration. En dépit des raccourcis qu’on voit souvent dans les médias, « abonné Twitter » n’est pas synonyme de « tout le monde », pas davantage que la population qui utilise Twitter n’est représentative de la population en général. Le nombre de comptes sur Twitter n’est pas non plus équivalent au nombre d’humains qui l’utilisent puisque certains ont ouvert plusieurs comptes, d’autres en partagent un et même les chats et les chiens sont des utilisateurs.
4. Toutes les données ne pas égales
Les données, extraites de leur contexte, perdent leur sens et leur valeur. Il ne faut jamais perdre de vue l’importance du contexte :
« De fascinantes analyses de réseaux peuvent être réalisées à partir de ces réseaux articulés et comportementaux. Mais il existe un risque, à l’ère des Big Data, de traiter chaque connexion comme équivalente à toutes les autres, de confondre la fréquence des contacts avec la force des relations, et de croire qu’une absence de connexion indique qu’une relation devrait être établie. Les données ne sont pas génériques. Il y a certes un intérêt à analyser des données abstraites, mais le contexte demeure crucial. »
5. Ce n’est pas parce qu’elles sont accessibles qu’il est nécessairement éthique de les utiliser
Cette histoire, publiée dans le New York Times du 12 février dernier a fait frémir les défenseurs de la protection de la vie privée.
Bien que l’article porte davantage sur les sciences de l’étude du comportement humain et la formation des habitudes, le Big Data, on s’en doute, y joue un rôle important. Le détaillant Target a développé un programme qui analyse des masses de données sur le comportement de ses clients, ce qui lui a permis d’identifier les produits les plus susceptibles d’être achetés par une femme enceinte. L’analyse de Target est tellement sophistiquée que l’entreprise est même en mesure de deviner, avec une très petite marge d’erreur, la date de l’accouchement. Ce qui a donné lieu à la situation embarrassante souvent citée en lien avec cet article : le père d’une adolescente, se plaignant à Target que le commerçant semblait vouloir inciter sa fille à tomber enceinte en l’inondant de coupons de produits pour bébés, appris, mais un peu tard, que sa fille était bel et bien enceinte.
Les utilisateurs des médias sociaux sèment des données personnelles à tout vent, mais cela ne veut pas dire qu’ils sont d’accord pour qu’elles soient utilisées. On ne peut pas présumer que le fait de mettre un contenu en ligne signifie qu’on autorise son exploitation dans n’importe quel contexte
6. L’accès limité aux Big Data crée de nouvelles fractures numériques
Historiquement, la collecte de données a effectivement toujours été difficile, chronophage et coûteuse. L’essentiel de l’enthousiasme autour des Big Data provient de l’impression qu’elles offrent au contraire un accès facile à un grand nombre de données. Mais, comme le souligne les auteures, la difficulté et le coût de l’accès aux données des Big Data aboutissent à une culture étriquée des résultats de recherche. Les grandes entreprises de données n’ont aucune obligation de rendre leurs données disponibles, et ont un contrôle total sur le choix de ceux qui y accèdent. Les chercheurs du champ des Big Data qui ont accès à ces jeux de données propriétaires sont moins susceptibles de choisir des questions qui pourraient être litigieuses pour une société de médias sociaux, par exemple, s’ils pensent que cela peut aboutir à l’interruption de leur droit d’accès.
Big Data et le bien commun de l’humanité
Les Big Data détiennent le potentiel de devenir la boule de cristal de l’humanité. Le Secrétaire-général de l’ONU y croit, lui qui, en 2009, a mis sur pied l’initiative Global Pulse. Global Pulse, c’est une petite équipe basée à New York et composée de scientifiques de données, d’open-source hackers et d’experts en développement international qui s’affairent à faire le tri dans une masse d’informations énorme pour exploiter les données en temps réel, afin d’acquérir une compréhension en temps réel de l’état du monde. Leur mission : prévenir les prochains chocs alimentaire, pétrolier et financiers qui ont secoué la planète ces dernières années.
Le Big Data, qui avait déjà six défis importants à relever selon danah boyd et Kate Crawford, devra, pour devenir la boule de cristal de l’humanité, s’atteler à des difficultés d’envergure mondiale. Cette carte de l’état du monde à l’échelle et en temps réel ne pourra être tracée sans que les gouvernements acceptent de donner accès à leurs données. Il faudra en outre que les compagnies minières de Big Data, qui sont nombreuses à se positionner pour en tirer profit, ne les enferment pas dans des coffres-forts dont elles seraient les seules à détenir la clé.
Et je n’ai pas encore parlé de la pénurie de personnel compétent : dans le dossier du McKinsey Quarterly dont je parlais dans le billet précédent, on évalue que la demande pour des personnes possédant les compétences nécessaires pourrait excéder l’offre de 50 à 60%.
Dans l’itinéraire Big Data que j’ai tracé dans le billet précédent, la keynote de Gordon Bell,
Big Data: Lifelogging, The Fourth Paradigm of Science,and Sensor-Effectors for the Control of Everything, est particulièrement intrigante. Il promet en tout cas de nous faire voyager dans un univers assez singulier.
Gordon Bell est un collègue de danah boyd chez Microsoft et comme elle (il faut lire ce portrait qu’on a fait d’elle dans le New York Times), il semble être un personnage plus grand que nature, dont il sera intéressant de tracer le portrait dans un prochain billet.
