Le data mining, également appelé Knowledge Discovery in Data, peut être défini comme étant le fruit des Big Data Analytics, des analyses prédictives et de l’exploitation des données. Il s’agit donc d’une composante essentielle des sciences d’analyse de données volumineuses.
Les logiciels de data mining sont des outils analytiques couramment employés par les data scientists pour analyser les données en leur possession. Ils permettent d’analyser de grands volumes de données à la lumière de différents angles, de manière à les catégoriser, puis résumer les relations identifiées. Le data mining peut donc également être défini comme un procédé permettant de détecter des corrélations ou des patterns parmi plusieurs bases de données relationnelles. Pour ce faire, le data mining s’appuie sur des algorithmes sophistiqués qui permettent d’évaluer de futures probabilités en segmentant les données.
Bien que le terme de data mining soit employé depuis peu, la technologie qu’il désigne n’est pas si récente. En effet, les entreprises utilisent depuis des années de puissants ordinateurs afin d’analyser de larges volumes de données issus la plupart du temps des habitudes des consommateurs. Cette analyse permettant aux sociétés d’établir des rapports de recherches sur les différents marchés, de manière à augmenter leur compétitivité. Avec l’essor du Big Data, le data mining, qui permet d’analyser de vastes ensembles de données, est plus que jamais d’actualité.
Les données, éléments fondamentaux du data mining
On entend par données des nombres ou bien des textes pouvant être traités par un ordinateur. De nos jours, les entreprises cumulent quotidiennement d’impressionnantes quantités de données, sous différentes formes. Parmi ces dernières, il est possible de distinguer trois catégories de données :
- Les données transactionnelles ou opérationnelles, lesquelles proviennent de ventes, d’inventaires, de tickets de caisse, de comptabilité, etc ;
- Les données non opérationnelles, issues de données prévisionnelles, de données macro-économiques ou de ventes industrielles ;
- Les métadonnées, qui sont des données concernant les données elles-mêmes.
Les informations issues de l’analyse de données
Le data mining permet d’analyser les données sous différents angles, de manière à en extraire des relations, associations et patterns permettant d’obtenir de précieuses informations. Par exemple, le data mining permet d’analyser des données en provenance des transactions d’un point de vente, de manière à distinguer quels produits se vendent le mieux et à quel moment de la journée.
Le data mining ou quand les données se transforment en savoir
Les informations issues de l’analyse de données sont converties en savoir par le data mining, qui distingue dans de vastes ensembles de données des tendances futures ou patterns historiques. Il est ainsi possible de savoir quel sera probablement la réaction type d’un acheteur face à tel ou tel produit en promotion, ou bien quels produits doivent faire l’objet d’une promotion pour se vendre à tel moment de l’année. Ce savoir provient directement de l’analyse des données générées par le point de vente, sous le prisme du data mining.