Le Big Data à l'épreuve de la qualité des données

Les entreprises surfent sur la vague du Big Data et se laissent séduire par des discours marketing qui leur promettent monts et merveilles sur l’analyse des données à grande échelle. Mais qu’en est-il de leur qualité ? Nous vous proposons de découvrir la vision de 3 spécialistes de la donnée.

Une erreur est vite arrivée

Les données sont capitales pour les métiers de la BI et du datamining. Toutefois, les professionnels qui les manipulent ne sont pas à l’abri d’une erreur ou d’une mauvaise appréciation de leur qualité. Patrick Coffre, Community manager chez Talend SA, éditeur de solutions de gestion de données, cite deux cas de figures dans lesquels ces erreurs pourraient survenir.

Tout d’abord, une modification des processus internes peut être source de dommages pour le data management*. Par exemple, un simple changement dans le système de nettoyage, de purge ou de traitement des données lors de différentes opérations accroît le risque de dégradation. Cela pourrait concerner l’arrivée d’un nouveau personnel, moins qualifié, le changement de technique ou tout simplement d’outils.

Dans le deuxième cas de figure, Patrick Coffre estime que l’introduction de nouvelles données, que se soit la réactualisation d’informations déjà existantes ou l’introduction de nouvelles data, pourrait être source d’erreur de qualité. L’explosion de phénomènes comme la mobilité et les réseaux sociaux ne fera qu’augmenter le trafic de données. Des éditeurs proposeront même des solutions pour les analyser et augmenter le ROI. Pour autant, peut-on réellement affirmer que le traitement des données à grande échelle serait profitable pour les entreprises ? A-t-on pensé aux éventuelles problématiques à venir ?

Big Data : attention au « garbage in, garbage out »

En ce qui concerne cette dernière question, Didier Gaultier, directeur du développement SPAD et Datamining chez Coheris, éditeur de solutions CRM, interpelle aussi les entreprises sur l’utilité du Big Data. En faisant référence à l’expression « garbage in, garbage out » (« ordure entrante, ordure sortante » ndr), il estime que collecter de mauvaises données et les analyser produira des résultats faussés pouvant être désastreux pour l’entreprise.

La collecte et l’analyse de grandes quantités de données peuvent nuire à leur qualité car certaines ne sont pas pertinentes voir d’aucune utilité pour l’entreprise. De plus, en s’aventurant sur le terrain des données externes, les entreprises prennent le risque de nuire au processus de collecte d’informations internes. Pour cette raison, Didier Gaultier plaide en faveur d’une maîtrise d’un processus de datamining plutôt que de vouloir à tout prix traiter un Big Data qui ne risque que d’accentuer le désordre de données auquel les entreprises devront faire face.

De plus, les analyses statistiques provenant du datamining sont utiles à l’élaboration d’un marketing prédictif de qualité (voir notre dossier sur le marketing prédictif). Mais ces analyses statistiques nécessitent une gestion rigoureuse des informations recueillies. Les différents formats de données ne doivent pas être mélangés (site Internet, enquêtes téléphoniques, sondages, etc.) même si celles-ci proviennent du même sujet. C’est pourquoi certains professionnels ne parlent pas uniquement de qualité de données, mais également de leur utilisation.

Data is contextual, not absolute

Esteban Kolsky, fondateur de ThinkJar, un think tank spécialisé dans les stratégies clients, partage cette vision. Par cette citation, il estime que la donnée ne doit pas être uniquement assimilée à un degré de pertinence intrinsèque mais aussi à un contexte. Toute information replacée dans une situation particulière a son utilité. D’après lui, associer une donnée à une vérité absolue est une erreur car dans le monde complexe dans lequel nous vivons, il est nécessaire de la différencier par segment sous peine de la biaiser. Il insiste également sur le fait qu’une donnée produite lors d’une enquête ne donnera pas les mêmes résultats en fonction du canal sur lequel elle a été réalisée (réseaux sociaux, téléphone, Internet). De même, les réponses obtenues diffèrent en fonction de la manière dont les questions ont été posées.

Au final, les entreprises semblent convoiter les informations extérieures avec frénésie. Elles oublient souvent que leurs données internes ont une richesse inestimable et sont déjà un enjeu décisif pour la BI comme pour le datamining. Dans ce cas, pourquoi ne les utilisent-elles pas ? Les enjeux autour des données, notamment en termes de connaissance client sont importants pour les entreprises qui souhaitent fidéliser. A l’ère du digital et du multicanal, les entreprises qui seront à la pointe des données clients seront probablement les plus compétitives.

*Le data management (gestion des données de référence), regroupe l’ensemble des méthodes, outils et processus pour assurer que les données soient identifiées et utilisables sans aucun risque (source : www.piloter.org)

Le Big Data à l’épreuve de la qualité des données

Une erreur est vite arrivée

Big Data : attention au « garbage in, garbage out »

Data is contextual, not absolute

Laisser un commentaire

Laisser un commentaire Annuler la réponse

Intelligence Artificielle & Analytics

Les solutions

Les concepts

Les actualités IA