La data science est donc une spécialité récente, qui s’est développée avec l’essor des données dans le monde. Elle provient du croisement des domaines de l’extraction de données, aussi appelé forage de données ou data mining, et de l’analyse statistique. Le terme data science est apparu en 2002, avec la publication du Data Science Journal, créé par l’International Council for Science : Committee on Data for Science and Technology. Dès 2008, le métier de data scientist a émergé et la profession s’est rapidement développée. De nos jours, les data scientists manquent cruellement, malgré l’apparition de plusieurs cursus en data science proposés par les grandes écoles et les universités.
La mission principale du data scientist est d’élaborer des stratégies d’analyse de données, mais également de préparer ses données pour leur analyse, puis d’explorer et analyser ces informations. Le data scientist doit ensuite créer des modèles avec ces données, en s’appuyant sur des langages de programmation afin de déployer ces modèles dans des applications. En général, le data scientist ne travaille pas seul, la data science s’appuyant sur d’autres compétences telles que le commerce et l’informatique. La data scientist est alors amené à travailler en équipe, avec un analyste commercial dont le rôle est de définir le problème à résoudre, un ingénieur de données chargé de préparer les données pour les rendre disponibles, un architecte informatique, qui supervise les différents processus et l’infrastructure sollicitée, ainsi qu’un développeur d’application, qui va ensuite déployer les modèles ou bien résultats de l’analyse des données dans des applications ou produits.
Le processus d’analyse et d’exploitation de données sur lequel se fonde la data science est plutôt itératif que linéaire, c’est-à-dire qu’il s’appuie sur un ensemble de phases répétées plusieurs fois, appelé la modélisation prédictive. Le flux de travail standard d’un projet de modélisation de données se déroule en général de la manière suivante :
- La planification : la définition du projet et des potentiels résultats attendus ;
- La préparation : la préparation de l’environnement de travail des data scientists, leurs outils de travail, leurs accès aux données pertinentes et autres ressources ;
- L’ingérence : le chargement des données appropriées dans l’environnement de travail ;
- L’exploration : l’analyse, l’exploration et la visualisation des données ;
- La modélisation : la conception, la formation et la validation des modèles ainsi définis ;
- Le déploiement : le déploiement des modèles en phase de production