Qu’est-ce qu’un Data Lake : guide pour patron pressé

Le Big Data a popularisé le Data Lake ou lac de données où les entreprises ambitionnent de réunir toutes leurs données. Mais qu’est-ce au juste qu’un Data Lake ? Est-il indispensable ? Faut-il le conserver dans l’entreprise ou le placer dans le Cloud ? Décryptage et bonnes pratiques.

Un Data Lake, c’est quoi ?

Le Data Lake ou lac de données est un référentiel de données – reposant sur une infrastructure informatique de stockage, qui est bien souvent Hadoop. Ce concept est apparu il y a plusieurs années dans le sillage du Big Data. Le Data Lake se destine à stocker de grands volumes de données brutes, qu’elles soient structurées ou non structurées.

Le Data Lake regroupe l’ensemble des données d’une entreprise à des fins d’analyse

Le Data Lake vise à regrouper l’ensemble des données disponibles d’une organisation, à des fins d’analyse, par exemple au travers d’algorithmes d’apprentissage automatisé. La consolidation des données au sein d’un Data Lake doit permettre d’en extraire de la valeur grâce à l’identification des fameux « insights », c’est à dire de la connaissance sur les clients et les prospects.

Voilà pour la théorie. Car comme le souligne l’expert de Kynapse, Christophe Tricot : « Le Data Lake est souvent perçu comme la solution aux problèmes des entreprises qui veulent valoriser leurs données. Il est plus souvent le problème que la solution. »

Un Data Lake pour quoi faire ?

Un Data Lake vise à faciliter l’exploitation des données. Avant l’émergence du Data Lake, les données de natures très différentes étaient hébergées sur des technologies hétérogènes et par silos.

Les usages d’un Data Lake sont multiples. Une entreprise peut vouloir réunir toutes les données relatives à ses clients, par exemple leur comportement sur son site Web et leurs achats enregistrés sur leur carte de fidélité en magasin. Le croisement de ces données peut servir notamment à prédire le risque de départ, le taux d’attrition ou churn, de ces mêmes clients.

Christophe Tricot, expert et consultant IA pour Kynapse (filiale de l’ESN Open).

« Sur le papier, c’est formidable » reconnaît notre expert. Mais un Data lake n’est pas magique. Il est aussi une source de grande complexité. Pour le scénario évoqué précédemment, cela suppose ainsi de développer différents connecteurs acheminant les données des applications métier, CRM, site web, etc. vers le lac de données.

Ces approches du Data Lake « impliquent de réunir toutes les données au même endroit, et donc de disposer de tous les tuyaux qui acheminent les données jusqu’au Data Lake. » Concevoir ces « tuyaux » est coûteux en temps et en ressources.

Ce n’est par ailleurs par la seule complexité. « On n’a jamais les bonnes données, au bon endroit, propres, à disposition. » Avec le Data Lake, les entreprises ont souvent confondu le moyen et la finalité. Pour éviter ces écueils, une autre approche est nécessaire.

Comment mieux utiliser un Data Lake ?

« Maintenant que la vague du Big Data est passée, que l’on est un peu plus mûr sur la valorisation de la donnée, que ce soit via la business intelligence ou l’intelligence artificielle avec le Machine Learning, on entre dans une nouvelle phase » estime Christophe Tricot.

Il faut regrouper les données en ayant en tête l’usage que l’on veut en faire

Cette nouvelle phase exige des usages identifiés pour les données. Les entreprises sélectionnent ainsi les données à intégrer dans le Data Lake sur la base des usages visés. Reste que « cette démarche n’est absolument pas courante » aujourd’hui encore. Trop souvent, le point de départ consiste à « déverser » des données avant même d’avoir arrêté des usages.

Mais même dans le pire des cas, un Data Lake présentera un mérite : le dé-silotage effectif des organisations. Les données ne sont plus la propriété ni exploitées par les seuls métiers, le marketing, les RH, les opérations, les ventes, etc. qui les génèrent ou les utilisent. Le Data Lake doit contribuer à s’extraire d’un fonctionnement en silos et à faciliter l’accès aux données.

Quid de la qualité et de la fraîcheur des données ?

Par ailleurs, le principal challenge d’un Data Lake reste la qualité des données. Cette question doit être traitée en amont, afin que les données présentes dans le Data Lake soient de qualité et véritablement exploitables.

Christophe Tricot estime cependant primordial de se concentrer d’abord sur l’usage, puis d’améliorer la qualité des données. « Si on attend que tout soit propre pour faire quelque chose, on risque de ne jamais rien faire. »

Combien coûte un Data Lake ?

Les coûts d’un Data Lake sont multiples : coûts d’infrastructure, coûts des compétences pour la mise en place et le maintien en condition opérationnelle, ainsi que les coûts de gestion pour le contrôle et la mise en qualité des données.

Le rythme de mise à jour des données du Data Lake est une question clé

Le Data Lake constitue un paradigme nouveau et un surplus de complexité en matière de gestion des données. L’entreprise devra répondre à plusieurs questions si elle veut exploiter efficacement les données : à quelle fréquence mettre à jour les données dans le Data Lake ? Quid de la suppression d’une donnée ? Quelles sécurités mettre en place pour contrôler les accès des différents utilisateurs de la donnée à l’heure du RGPD ?

Au final, un Data Lake « coûte très cher », des millions d’euros, au point que la question de son coût et du retour sur investissement tient parfois du « tabou ». Une réponse est ainsi de plus en plus de basculer les lacs de données dans le Cloud.

Un Data Lake est-il indispensable ?

Un Data Lake est-il indispensable ? La réponse est non. « De plus en plus de nos clients s’en passent, notamment parce que c’est cher et que cela ne s’y prête pas. » Si l’objectif d’une entreprise est de faire de l’intelligence artificielle et du Machine Learning, celle-ci aura d’abord besoin d’un datalab. Ce datalab comprendra notamment des Data Scientists. Or ces derniers ont généralement besoin de données structurées.

Pour exploiter les données du Data Lake, le mieux est d’en extraire des parties pour chacun des usages

Un datamart pourra aussi s’avérer plus pertinent qu’un Data Lake. « Habituellement, le Data Lake est transformé en de multiples datamarts pour chacun des usages. » Et ce sont les Data ingénieurs du Datalab, pour des projets d’intelligence artificielle, qui iront puiser des données dans le Data Lake et les prépareront pour leurs besoins.

Une grande entreprise, présente à l’international, disposant d’un système d’information complexe, comme dans le cas d’une banque, pourra plus aisément tirer avantage d’un Data Lake et simplifier l’accès aux données. « Un Data Lake n’est pas indispensable. Il est pertinent lorsque l’organisation est assez importante, avec des usages peu définis encore, et pour simplifier l’accès aux données, pas au sens technique, mais organisationnel » synthétise Christophe Tricot.

Faut-il un Data Lake chez soi ou dans le Cloud ?

Culturellement, les entreprises ont dans un premier temps opté pour le déploiement d’un Data Lake sur leur propre infrastructure informatique, ce que l’on appelle on-premise. En raison des coûts inhérents à ces projets, la tendance est désormais à une migration rapide dans le Cloud, notamment le Cloud public à partir des offres AWS (Amazon Web Service) , Azure de Microsoft ou Google Cloud.

Pour une meilleure montée en puissance, le Cloud apparaît comme une évolution naturelle

Les entreprises réalisent que si elles « veulent rationaliser cet investissement, elles doivent passer dans le Cloud. Il faut arrêter de faire du on-premise pour le Data Lake parce qu’on n’arrivera pas à suivre sur les serveurs ni à amortir toute la technologie nécessaire pour le peu d’usages existants. » Le choix du on-premise peut cependant s’imposer du fait de la nature particulièrement sensible des données stockées dans le Data Lake et de leur concentration en un espace unique. Ce n’est toutefois plus autant une évidence.

Même le Health Data Hub qui va centraliser les expérimentations sur les données de santé des Français, a fait le choix d’un fournisseur Cloud. « Même pour des sujets comme les données de santé, les entreprises n’envisagent pas aujourd’hui de faire du on-premise. » Le basculement sur le Cloud s’est de fait amorcé en 2019 parmi les grandes entreprises, qui se donnent deux ans pour l’opérer. Christophe Tricot estime ainsi que d’ici deux ans, 80% des Data Lake seront situés dans le Cloud.

Exclusif stratégie Data

La banque BPCE en attente de son Data Lake pour passer à la vitesse supérieure

La donnée devient la clé de la transformation digitale. C’est ce que souligne Laurent Mignon, président de la banque BPCE (Banque Populaire Caisse d’Epargne), 2ème banque de détail en France. La priorité du groupe bancaire est la disponibilité d’un Data Lake.

Facebook X LinkedIn