Big Data, Partie #1

Pourquoi tout le monde parle de Big Data ?

L’expression est sur toutes les lèvres et sur tous les écrans. Big Data, c’est le défi informatique de cette décennie, le domaine d’innovation qui émoustille les capitaux risqueurs, et la formule magique qui inspire nos petites décisions au quotidien. Mais c’est quoi exactement, Big Data (ou datamasse en français) ?

Quand on commande un livre ou un grille-pain sur Amazon, l’algorithme du site nous suggère d’autres articles susceptibles de nous plaire étant donnés les achats réalisés par des milliers d’internautes avant nous (c’est ce qu’on appelle targeted merchandizing). Même système pour la plateforme de distribution de contenus culturels Netflix, qui recommande la série Orange is the New Black si l’on a aimé et qu’on attend avec impatience la prochaine saison de Mad Men. Netflix va même plus loin puisque les données récoltées (les passages de films les plus regardés, les moments ennuyeux pendant lesquels les téléspectateurs utilisent la fonction « avance rapide », à quel moment de la journée les contenus sont visionnés, etc.) sont utilisées pour choisir de quels films acheter les droits auprès des studios de cinéma et pour élaborer de nouveaux programmes, comme par exemple la série House of Cards. Google TV et Apple TV pourraient d’ailleurs suivre l’exemple en créant du contenu à partir des données de visionnage récoltées sur leurs plateformes. Les prédictions sont souvent bien affutées.
Pour en savoir plus sur l’algorithme de Netflix, on pourra se rendre ici, et pour un post détaillé sur la façon dont Netflix utilise ses données, là.

Agréger une multitude de cas individuels pour dégager du général

Au degré zéro, « Big Data » fait référence au traitement automatisé de bases de données de très grande ampleur pour repérer des corrélations. L’agrégation d’une multitude de comportements individuels, comme par exemple les achats réalisés sur Amazon, permet la modélisation mathématique d’une tendance – vous avez acheté tel article, vous apprécierez sûrement tel autre.

Pas seulement du commercial

Le type de données analysées ne se réduit pas aux chiffres de vente. Google maps nous propose un trajet optimisé en fonction des conditions de circulation en temps réel, Facebook nous propose de nouveaux amis en fonction des liens déjà établis, les sites de rencontre en ligne nous proposent des partenaires romantiques en fonction de nos réponses à un questionnaire sur nos goûts et nos habitudes. Toutes ces propositions sont formulées grâce à l’analyse d’un grand nombre de données recueillies au préalable. Mêmes avancées dans le domaine de la médecine, avec la possibilité de prédire grâce à l’analyse de milliers d’électrocardiogrammes quels sont les facteurs qui font courir le risque de subir une seconde attaque cardiaque.

Ces exemples nous montrent la puissance des algorithmes et le rôle de plus en plus important que nous les invitons à jouer dans nos vies, du plus trivial au plus important.

Pas seulement du descriptif

Quelle différence alors entre Big Data et les statistiques descriptives traditionnelles ? Les statistiques descriptives nous donnent des renseignements sur l’échantillon sélectionné et visent à rendre compte aussi précisément que possible des caractéristiques de l’échantillon.
Les statistiques inductives (Big Data) analysent un échantillon donné de façon à en déduire les informations sur la population représentée par cet échantillon, pour extrapoler. Les statistiques inductives font donc appel aux probabilités (« proba » pour les intimes) pour établir des relations de causalité, prédire les comportements et monter en généralité.

Le défi technique que représente le traitement de bases de données toujours plus grandes
La gestion informatique de bases de données énormes représente un défi technique important, puisqu’il faut à présent des machines beaucoup plus puissantes pour être capable de stocker et de traiter les données à cette nouvelle échelle de grandeur.

Vous avez probablement entendu les rumeurs qui courent autour de la mystérieuse péniche qui appartiendrait à Google, flottant au milieu de la baie de San Francisco ? Selon certains, il s’agirait d’un gros centre de données refroidi par l’eau fraîche de la baie, comme le laisse suggérer un brevet déposé par Google. Les Big Data sont partout autour de nous, littéralement.

En plus du défi relié à leur stockage, les Big data apportent également un défi technique aux chercheurs. En effet les méthodes d’apprentissage automatique (les algorithmes utilisés pour résumer et prédire au mieux les comportements des individus à partir d’un ensemble de données), doivent être adaptées à ces données, ce qui, de part leur quantité et leur hétérogénéité, augmentent considérablement la durée nécessaire à leur traitement mais aussi potentiellement le taux d’erreur qui doit être contrôlé. Autrement dit, avec Big Data, il y a en même temps la possibilité d’avoir des résultats plus fiables parce que la quantité de données à partir desquelles ils ont été établis est plus grande ; mais on a aussi plus de chance de faire des erreurs car les bases de données sont sont plus grandes et demandent donc un soin particulier dans leur analyse.

Dans un prochain article, nous traiterons de l’élan entrepreneurial autour des Big Data, et de la façon dont le monde politique s’approprie ces nouveaux outils pour mieux comprendre et influencer l’opinion publique.

Nous remercions Anne BITON, chercheure en bio-informatique à l’Université de Berkeley, pour son aide dans la rédaction de cet article.

Ariane Zambiras

Vous êtes désormais inscrit à la newsletter de Silicon-Valley.fr !