L’actualité de la transformation

“En dessous de 100 Go de mémoire vive, ce n’est pas du Big Data” pour l’INRIA

Le Big Data commence quand les traitements ne peuvent pas être réalisés par des serveurs classiques. En dessous de 100 Go de mémoire vive, de 1 noeud de base de données pour réaliser des transactions de 1 seconde, et de 1 To de données sur disque, ce n’est pas du Big Data.   

« Le Big Data c’est tout ce qui est suffisamment grand pour être difficile à traiter par des systèmes traditionnels » affirme Olivier Grisel, ingénieur informaticien à l’INRIA, l’Institut National de la Recherche en Informatique et en Automatique. « En se basant sur cette définition, on peut déjà dire tout de suite ce qui n’est pas du Big Data. Par exemple, tout ce qui tient dans une feuille Excel, ce n’en est pas » illustre-t-il.

L’expression Big Data est trop souvent utilisée à tort. Elle a perdu de son sens originel pour de nombreuses personnes. Olivier Grisel a détaillé les trois conditions de volume et de performances pour commencer à avoir du Big Data, le 16 Juin à Paris, lors de l’événement USI organisé par Octo Technology .


Pas de Big Data en dessous de 100 Go de mémoire vive

Dès lors que des données tiennent en mémoire, il est en général possible de faire des traitements rapides ne nécessitant pas l’utilisation d’un système compliqué. « De nos jours, on trouve facilement des machines de plus de 100 Giga octets de mémoire vive, donc tout ce qui est en dessous de 100 Go de Ram, c’est difficile d’appeler ça du Big Data » poursuit-il.


De même, « tout ce qui tient sur une base de données traditionnelle sur un seul nœud de type Oracle ou  PostgreSQL et pour lesquels on est capable de faire une requête qui s’exécute en moins d’une seconde, ce n’est clairement pas du Big Data non plus » insiste-t-il.

Newsletter La Revue du Digital

La frontière du Big Data

« Un disque dur, quand ce n’est pas du SSD [NDLR : Solid State Drive, ou disque rapide à base de mémoire], ce qui est globalement le cas sur les serveurs aujourd’hui, sa vitesse est au maximum de l’ordre de 100 Mo par seconde. De nos jour, sur un serveur les disques sont de l’ordre de 1 To », rappelle-t-il. Ce qui signifie que pour lire le contenu complet d’un disque dur, “il faut au moins deux heures et trois quarts d’heure“, souligne l’ingénieur.

Donc là on commence à sentir que clairement, on ne peut plus faire des opérations rapidement qui mettent en cause 1 To de données” pointe-t-il. Olivier Grisel illustre cette frontière avec le cas de Google. « Quant Google au début des années 2000 a voulu indexer tout le contenu textuel d’internet, ils ont mis en jeu le concept de Big Data. Pour faire ça, il faut manipuler de l’ordre de 2 milliards de pages html .»

Ces pages html sont équivalentes à 100 To de données. “A l’aide d’un système traditionnel, il faudrait plus de 10 jours, juste pour les lire. On est donc dans un cas de Big Data” conclut-il.

Photo: Olivier Grisel, ingénieur logiciel de l’INRIA, le 16 Juin à l’USI,  à Paris.

Olivier Grisel, un ingénieur en informatique qui participe à la recherche sur le cerveau 

Olivier Grisel travaille à l’INRIA dans une équipe qui réalise de la recherche sur le cerveau. L’équipe utilise des IRM (Imagerie à résonnance magnétique)  afin de comprendre le fonctionnement du cerveau. Dans le cadre de cette activité, les chercheurs ont besoin d’outils de modélisation statistique. C’est dans ce cadre qu’un ingénieur comme Olivier Grisel  travaille sur le projet Open Source, Scikit-Learn. Le projet est développé en langage de programmation Python afin de réaliser une modélisation statistique et du Machine Learning.

Morgane Mons

Morgane Mons est journaliste spécialisée dans les nouvelles technologies et la transformation numérique des entreprises. Esprit Geek, passionnée de multimédia, retrouvez ses actualités sur son fil twitter.

Et vous, qu’en pensez-vous ?

Une idée, une réaction, une question ? Laissez-nous un mot ci-dessous.

Je réagis à cet article

Top lectures en ce moment

L’actualité de la transformation

Dossier

L'IA clé de nos besoins vitaux dans l'eau, l'électricité et le gaz

Dossier exclusif

Marchés de l’eau : l’IA générative arrive dans les réponses aux appels d’offres des collectivités

Saur, spécialiste de la distribution d’eau potable,  fait évoluer son processus de réponse aux appels d’offres des collectivités et des industriels en y injectant de l’IA géné…

Stockage de l’électricité : l’IA générative outil d’accélération clé chez Engie

Le stockage de l’électricité est un enjeu stratégique. Engie s’y attelle et mobilise pour cela l’IA générative de type RAG, c'est-à-dire basée sur le traçage des documents source. …

Nouvelle donne dans le gaz naturel : GRDF s’adapte en utilisant l’IA

GRDF, leader de la distribution du gaz naturel en France, affine sa stratégie d’IA. Il s’appuie sur des serveurs internes pour la confidentialité des données de ses clients. GRDF c…


Vous, qu’en pensez-vous ?

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter