Qu’est-ce que le Data Mining ou fouille de données ?

A l’ère du Big Data où l’espace de stockage des données n’est plus vraiment un problème, toutes les entreprises veulent désormais tirer parti de leurs grands volumes de données. Ces données peuvent les aider à comprendre leur environnement interne (RH, organisation, process…), leur environnement externe (type de clients, parcours clients, image de l’entreprise…) et à anticiper les phénomènes qui s’y rattachent. Elles deviennent par conséquent une grande richesse si elles sont bien exploitées. C’est justement l’objectif du Data Mining !

Le Data Mining, un avantage compétitif pour toutes les entreprises

A la frontière entre les statistiques, l’intelligence artificielle et l’informatique, le Data Mining – ou fouille de données – est une discipline qui vise à extraire les informations pertinentes d’un grand ensemble de données. Tout l’enjeu est de réussir à préparer, manipuler et analyser les données dans l’optique de les transformer en connaissance actionnable et en outil d’aide à la décision pour les entreprises.

Les études de Data Mining menées dans les entreprises ont des objectifs très variés. Elles peuvent par exemple aboutir :

  • à une stratégie marketing différenciée par types de clients grâce à l’élaboration d’une segmentation comportementale,
  • à l’optimisation de l’efficacité des actions marketing et commerciales grâce à une segmentation stratégique,
  • à une efficacité accrue des campagnes marketing : e-mailing, sms réseaux sociaux… grâce au ciblage des clients à fort potentiel,
  • à un investissement commercial adapté et optimisé grâce à une prédiction du potentiel de vente par zone géographique,
  • à un diagnostic de la relation clients grâce à une analyse Text Mining de posts sur les réseaux sociaux.

Des algorithmes de Data Mining variés

De très nombreux algorithmes issus de la statistique classique ou du Machine Learning permettent de réaliser des projets de Data Mining. La plus grande distinction pouvant être faite entre ces algorithmes se situe dans leur finalité. Il s’agit soit d’identifier sans a priori des similitudes ou des comportements analogues entre les individus ou les clients ; soit d’établir un modèle permettant de les classer dans des groupes bien déterminés.

Dans le premier cas, on parle d’analyses non supervisées et sont essentiellement utilisées des méthodes descriptives ou exploratoires telles que l’analyse factorielle par exemple. Dans le second cas on parle d’analyses supervisées et sont alors mises en œuvre des méthodes de prédiction appartenant souvent au monde de l’intelligence artificielle, elles ont la caractéristique de pouvoir apprendre et donc de s’adapter et d’ajuster leurs comportements prédictifs.

Des outils indispensables à la fouille de données

Une multitude d’outils sont à disposition des analystes chargés d’étudier les données. Que ce soit des logiciels libres ou propriétaires, tous permettent la mise en place d’algorithmes de Data Mining plus ou moins complexes.

Les différences entre ces outils se situent notamment dans la richesse des méthodologies proposées, dans la facilité d’utilisation, dans le temps de traitement nécessaire à l’exécution des algorithmes et dans la possibilité d’interagir avec un environnement Big Data. Les capacités à pouvoir préparer les données de manière simple et rapide (Data Management) et à faciliter la restitution des résultats de manière visuelle et facilement compréhensible (Data Visualisation) sont également des atouts considérables.

Enfin, à l’issue de tout projet Data Mining, il est indispensable de pouvoir mesurer son impact concret dans l’entreprise. Les outils de Data Mining doivent donc permettre de générer facilement les KPI assurant le ROI de la démarche.