Depuis l’essor du Big Data, nombreuses sont les entreprises à vouloir investir dans des stratégies leur permettant de valoriser au maximum les données qu’elles récoltent. Or, parmi ces données se trouvent bien souvent des informations un peu particulières, nommées des données à caractère personnel. Ces dernières étant encadrées par le Règlement Général pour la Protection des Données (RGPD), il faut alors concilier ce cadre législatif avec le Big Data, deux termes qui semblent de prime abord opposés. L’exercice paraît donc délicat, mais est-il réellement insurmontable ?
Le Big Data, un phénomène désormais encadré par le RGPD
Ces dernières années, le volume de données générées chaque jour n’a cessé d’augmenter. Avec l’essor de la technologie, les outils permettant d’analyser ces données ont fortement progressé, rendant possible le fait de tirer des informations pertinentes à partir d’un vaste ensemble de données brut. C’est ce que l’on appelle communément le Big Data, un terme dont la définition précise varie parfois, désignant tantôt les données elles-mêmes, ou bien signifiant le type d’opération menée sur ces données ou encore le phénomène global d’accroissement des données dans le monde.
De nos jours, de nombreuses organisations (entreprises privées comme Etats), se servent du Big Data pour rendre leurs services et procédures plus efficaces, développer une offre plus pertinente, mieux connaître leurs clients, tenter de prédire les comportements de leur clientèle, etc.
Le Big Data apparaît donc comme une réelle opportunité de valoriser de vastes ensembles de données, a priori sans valeur particulière. Ces données, qui figurent déjà dans les serveurs des entreprises ou bien qui s’apprêtent à être récoltées, ne peuvent désormais plus se concevoir hors du cadre légal applicable aux données issues de citoyens européens, le fameux RGPD.
En effet, le RGPD définit une donnée à caractère personnel comme « toute information se
rapportant à une personne physique identifiée ou identifiable […] ». Une définition volontairement large, qui désigne donc toute information, quelles que soient sa forme ou sa nature et peu importe la manière dont elle est structurée ou présentée, tant qu’elle est relative à un individu identifié ou bien identifiable. Autant dire que le champ d’action du RGPD est vaste.
Rendre compatibles Big Data et RGPD
L’entrée en vigueur du RGPD a entraîné une mise à jour conséquente afin de pousser les entreprises et organisations concernées à mieux s’adapter au monde d’aujourd’hui ; un monde numérique où les données, toujours plus nombreuses, sont devenues une matière première à exploiter autant que possible.
Ce nouveau règlement est certes plus adapté au contexte actuel et aux techniques d’exploitation de données, il n’empêche que les axes majeurs du RGPD peuvent sembler en contradiction avec la logique du Big Data. En effet, bien que ce nouveau règlement introduise les notions de minimisation et de limitation de durée de conservation des données personnelles, la pratique du Big Data incite pour sa part à amasser toujours plus de données, sans pour autant savoir à l’avance l’utilisation qui en sera faite. Si il est vrai que le RGPD peut constituer un frein à la constitution d’un Data Lake -Lac de Données, lieu où toutes les données d’une entreprise sont stockées-, il s’avère cependant tout à fait applicable dans le cadre d’une exploitation de données raisonnable.
Répertorier les données collectées
La première étape pour faire rimer la constitution d’un Data Lake avec le RGPD est de procéder à un inventaire des lieux où circulent les données récoltées par une structure. Un travail qui doit porter aussi bien sur l’infrastructure Big Data que sur l’ensemble du système informatique d’une société. Le but de cette opération est d’être en mesure de déterminer les données exploitées par les différents pôles d’une entreprise : commercial, marketing, RH, etc. Cette première étape, fastidieuse, est pourtant indispensable à réaliser. Nous ne saurons que trop vous conseiller de faire appel à des outils de Data Discovery pour rendre cette tâche plus simple.
Anonymiser les données
Après avoir établi une cartographie des données détenues, il s’agira par la suite de limiter les risques de piratage ou fuite de ces données personnelles, ainsi que les usages illégaux de ces dernières. Pour ce faire, il convient de procéder à l’anonymisation de ces données. Là encore, une solution logicielle peut être choisie pour mener à bien cette étape, fondamentale.
Attention toutefois, un faible niveau d’anonymisation ne suffira pas à écarter l’application du RGPD. Afin que Big Data et RGPD fassent bon ménage, il est important de vérifier que l’anonymisation des données personnelles rend impossible l’identification d’une personne, quelles que soient les corrélations de données. L’une des solutions permettant de limiter les chances d’identification serait d’effacer un maximum de données possibles, or cela rendrait l’analyse de données peu pertinente. A noter également que la pseudonymisation, qui consiste à conserver la clé de déchiffrage, ne permet pas de s’exonérer du RGPD. Un véritable travail d’anonymisation revient à effectuer une analyse poussée, de manière à déterminer celles qui seront indispensables et pertinentes pour les Data Scientists, et celles qui peuvent être effacées.
Sécuriser au maximum le Data Lake
Après avoir établi une cartographie précise des données collectées par une entité et avoir procédé à leur anonymisation, il conviendra d’optimiser la sécurité du Data Lake. La structure concernée peut alors procéder au chiffrement de son Data Lake, mais elle doit plus que tout s’assurer à protéger ce référentiel de données contre les intrusions malveillantes. En effet, le Data Lake demeure le maillon faible du système de sécurité d’une entreprise, tout doit donc être entrepris pour le protéger au maximum, comme le prévoit le RGPD. Il existe là aussi de nombreux logiciels permettant de sécuriser efficacement un Data Lake.
Se conformer au RGPD : un travail de longue haleine
Quoi qu’il en soit, la mise en conformité avec le RGPD représente un travail de tous les jours, qui ne doit en aucun cas demeurer ponctuel. En effet, pour se conformer à ce règlement, l’entreprise doit être en mesure d’adapter sa sécurité aux avancées technologiques et surtout aux nouvelles techniques employées par la cybercriminalité. Les entreprises peuvent notamment procéder à des audits de sécurité réguliers, pourtant sur leur système informatique. Il convient également de s’assurer, en temps réel, que l’ensemble des données collectées dans le cadre du Big Data sont bien localisées et anonymisées comme il se doit.
Laisser un commentaire
Participez-vous à la discussion?N'hésitez pas à contribuer!