Dessine-moi un “Big data”

Publié dans le numéro 3518 par

 

Vous devez être connectés pour visualiser cet article

Difficile d’échapper à la déferlante du “Big data”… Mais au fait, c’est quoi, le “Big data” ? Des experts de plusieurs horizons ont fait le point sur la part de mythe et les enjeux de ce nouveau phénomène, lors d’une conférence, “Big Data, Open Data… Vos données valent leur pesant d’or !”, tenue le 17 avril dernier, au Musée des arts et métiers, à Paris. Pour commencer, un exemple pratique : l’algorithme “Google Flu Trends”. Il note une corrélation entre les requêtes des internautes concernant le sujet de la grippe, dans le moteur de recherche, et le nombre de personnes présentant des symptômes de cette maladie. L’outil permettrait de suivre, et même de prévoir, les évolutions des épidémies.
Scientifiquement, l’exploitation du Big data, cette masse énorme de données toujours croissante, représente un nouveau « challenge scientifique », explique Stéphan Clémençon, titulaire de la chaire Machine-Learning & Big Data, à Télécom ParisTech. Auparavant, les données étaient rares et coûteuses. Aujourd’hui, leur collecte ne représente plus un problème : géolocalisation du téléphone mobile, traces lancées sur Internet… elles sont innombrables. Puis, « on peut stocker et automatiser l’accès et le traitement des données. Mais cela ne veut pas dire que l’expertise ne joue plus un rôle », ajoute Stéphan Clémençon. Vu sous l’angle sociologique également, cette nouvelle problématique constitue « un vrai changement », confirme Dominique Cardon, sociologue au laboratoire des usages d’Orange Labs, spécialiste des problématiques “territoires et sociétés”. Dans son domaine, traditionnellement, la démarche consiste à forger des hypothèses, et sur cette base, à identifier des corrélations, par exemple entre le niveau culturel des parents et les résultats scolaires des enfants. Aujourd’hui, les constats sont réalisés sans poser d’hypothèses de départ. A l’heure du Big data, on peut ainsi noter que les enfants portugais voyagent en Autriche, et mangent des glaces, illustre le sociologue qui précise qu’ « on ne sait pas nécessairement interpréter ces corrélations ». Par ailleurs, « aujourd’hui, la donnée n’est pas structurée. On dit que le fait d’en avoir beaucoup suffit. Ce n’est pas sûr. Avec des informations incomplètes, non catégorisées (..) on produit du bruit statistique. Au total, il y a des résultats importants mais aussi un effet de mode », met en garde le sociologue, rappelant que des études américaines ont jugé les résultats de Google Flu Trends très imprécis. Traçabilité des comportements individuels et potentiel démocratique Autre enjeu posé par le phénomène du Big data, celui de l’évolution du traitement des données personnelles. « La question de la gestion des données était vue comme un enjeu juridique dans les entreprises. Aujourd’hui, cela devient stratégique. On voit apparaître des “chiefs data officer” », note Geoffrey Delcroix, chargé de veille sur les nouvelles tendances à la Cnil, la Commission nationale informatique et libertés. Pour lui, « le risque, c’est qu’on se rende compte que l’on peut tirer des informations très riches de données apparemment anodines ». Des données collectées sur une longue durée permettent de retracer le comportement d’une personne. Autre souci, « on se rend compte du pouvoir des métadonnées. Des données anodines isolément peuvent devenir relativement sensibles, si on les cumule », ajoute Geoffrey Delcroix.

Mais le potentiel du Big data n’est pas seulement tourné vers l’analyse de comportements individuels. Il peut également être exploité pour mesurer des phénomènes globaux, comme la pollution. A ce titre, il représente un enjeu de politique publique. Des instances publiques, collectivités locales et État, participent à leur manière à cette tendance, par une politique d’Open data. Celle-ci consiste à ouvrir les données publiques pour les rendre accessibles et exploitables par tous. Une politique qui se matérialise sur le site « data.gouv.fr », où figurent quelque 13 000 fichiers avec des plans de cadastres, des statistiques sur les accidents de la route… « Il y a quarante ans, l’éthique de l’administration était le secret. Aujourd’hui, on lui demande de partager son savoir. C’est un changement majeur qu’il faut accompagner avec des précautions », explique Henri verdier, directeur d’Etalab, instance chargée de la politique d’Open data, rattachée aux services du Premier ministre, évoquant notamment les questions d’ « anonymisation » des données. L’Open data participe d’un « vrai projet démocratique », estime Henri Verdier : « Il ne s’agit pas seulement de rendre compte. On peut élaborer des décisions plus partagées, avoir une plus grande participation, à partir d’un savoir partagé. »