"Les projets Big Data échouent s'ils sont gérés totalement d'un point de vue technique"

Les projets Big Data échouent en l’absence de besoins métiers et de manque de compréhension des possibilités ouvertes par le stockage massif de données. Les équipes techniques doivent prendre le problème pas à pas à l’heure où l’on évolue vers le Big Data temps réel. C’est ce qu’explique Tudgdual Grall, expert du sujet.

Question : quelles sont les principales raisons d’échec des projets Big Data actuellement ?
Tugdual Grall : la raison principale d’échec est le manque de « besoins métier ». Les projets complètement gérés par le côté technique échouent. Il faut dès le début se concentrer sur la valeur métier, par exemple rendre accessible des données qui ne l’étaient pas auparavant pour les analyser. Il est très simple et peu coûteux aujourd’hui de garder les traces, les fichiers de « logs », des applications et des sites web pour les croiser avec les données métier traditionnelles et avoir une meilleure connaissance de ses utilisateurs et de ses clients. Une fois que le métier comprend qu’il est simple de stocker, d’analyser et de transformer les données, il est plus simple de trouver de nouvelles utilisations pour valoriser ces données.
Donc, il faut se concentrer sur la valeur métier, et travailler de façon itérative, agile, pour que le projet Big Data soit un succès, et reste en constante évolution.

Question : quelles seront les prochaines améliorations des outils informatiques du Big Data?
Tugdual Grall : de nouvelles briques assurent la gestion des données en temps réel. Le but est de simplifier l’ingestion des données, en passant du mode batch au flux de données temps réel avec des technologies comme Apache Kafka ou MapR Streams. Ces solutions permettent de consommer n’importe quels types d’événements dès qu’ils sont produits par les applications sources, tout en gardant les capacités de montée en charge, en volume et en vitesse, et la haute disponibilité. De plus en plus d’applications Big Data s’orientent vers le temps réel, l’idée est donc de capturer et traiter les données au fil de l’eau.

Question : quels sont les usages du temps réel ?
Tugdual Grall : cela concerne l’internet des objets, pour capturer en temps réel des données provenant de capteurs dans une voiture, dans une usine et les envoyer dans la plateforme Big Data.
Il faut également être capable d’analyser, de transformer, de stocker, ces données qui arrivent au fil de l’eau. Les outils comme Apache Spark ou Apache Flink fournissent les librairies nécessaires pour cela et s’intègrent naturellement avec le stockage des données. Ce stockage se réalise soit sous la forme de fichier dans HDFS/MapR-FS ou dans des bases de données NoSQL telles qu’Apache HBase et MapR-DB JSON.
Etonnamment, SQL continue de s’améliorer sur les plateformes Big Data. Par exemple le projet Apache Drill permet de lancer des requêtes SQL compatibles ANSI sur de nombreuses sources de données tels que des fichiers, des bases NoSQL ou des bases SQL. SQL reste le langage de prédilection dans le monde de l’analyse des données.
Il est intéressant de voir que de nombreux outils du marché s’intègrent aujourd’hui avec Spark, Kafka et MapR Streams, facilitant la mise en place de flux vers et depuis les plateformes Big Data. C’est le cas d’outils d’intégration comme Informatica, Talend, ou des outils de business intelligence, et les bases de données.

Question : quelles sont les compétences nécessaires aujourd’hui dans une entreprise pour monter une plateforme Big Data ?
Tugdual Grall : les grandes entreprises ont besoin de plateforme Big Data, c’est un fait. Cela permet de réduire le coût de stockage de la donnée, semi structurée ou non structurée. Il faut effectivement investir pour que les ingénieurs système puissent administrer la plateforme.
Ensuite, au niveau de la consommation et de l’utilisation de la donnée, cela dépend de la maturité de l’entreprise et de ses besoins. Si le besoin initial s’oriente vers la réduction du coût de l’entrepôt de données, les compétences existantes autour de l’ETL, et de l’analyse avec SQL sont directement réutilisables.
L’arrivée d’Apache Spark, Kafka, MapR Streams dans les plateformes ont grandement simplifié le développement d’applications orientées Big Data, car les API et les langages utilisés sont très proches des applications traditionnelles. Il est donc plus simple de monter en compétences, y compris pour faire du « Machine Learning » puisqu’Apache Spark fournit de nombreux algorithmes que les développeurs peuvent utiliser.

Question : comment réussir un projet Big Data avec les équipes existantes dans l’entreprise ?
Tugdual Grall : la diversité de compétences nécessaires peut faire peur et freiner l’adoption, mais il est très simple de commencer un projet Big Data si les équipes travaillent de façon progressive en se concentrant sur les cas d’usage en les adaptant aux compétences actuelles.
J’ai dernièrement travaillé sur deux projets Big Data, dans le commerce et les télécommunications. Les équipes n’avaient aucune compétence Big Data, en dehors de la gestion de l’entrepôt de données « traditionnel ». Nous avons commencé par stocker les données sous forme de fichier, vu qu’il était possible de requêter ces données de façon efficace avec SQL depuis les outils habituels de l’entreprise, en l’occurence MicroStrategy, Qlik et Tableau, pour ensuite travailler avec Spark, transformer et enrichir ces données. L’étape suivante sera d’utiliser Spark ML pour améliorer la segmentation client et prédire le comportement des utilisateurs.
Une fois de plus, il ne faut pas faire de Big Bang mais procéder par étape, ce qui permet de laisser les équipes monter en compétences, avec l’aide de consultants et d’experts en cas de besoin, tout en délivrant de nouveaux services aux métiers, ce qui est un gage de succès.

Un parcours chez les leaders de l’informatique Big Data

Tugdual Grall est Chief Technical Evangelist EMEA chez MapR. Il travaille au niveau européen pour faciliter l’adoption de MapR, Hadoop et NoSQL.

Auparavant, Tugdual Grall était Technical Evangelist chez MongoDB et Couchbase. Il a également travaillé comme CTO chez eXo Platform, et comme Product Manager et Développeur sur la plateforme Java/JavaEE d’Oracle.

Il est co-fondateur du Nantes JUG (Java Users Group) qui réunit depuis 2008 les développeurs et les architectes de la région nantaise.

Facebook X LinkedIn