Google présente Gemini, son IA multimodale et à vocation générale de manière bluffante

Sundar Pichai, dirigeant Google et Alphabet

Si l’IA Gemini révélée par Google le 6 décembre tient ses promesses, c’est un pas significatif que la société aura accompli pour concurrencer GPT-4 d’OpenAI. Gemini est une intelligence artificielle multimodale et la plus générale que Google ait conçue jusqu’à présent.

Les capacités de Gemini sont illustrées par une vidéo bluffante qui regroupe des performances suprenantes. On peut voir Gemini produire des résultats similaires à ceux d’un être humain en matière de reconnaissance d’objets, de vidéos ou de déduction. Il reste à vérifier dans la vraie vie ce que Gemini parvient à réaliser réellement.

Existe en trois tailles


L’offre de Google se décline en trois versions, Nano, Pro et Ultra qui nécessitent une puissance de calcul croissante. La déclinaison Ultra, la plus performante, reste pour l’instant expérimentale et devrait être disponible début 2024. La version Nano cible spécifiquement les smartphones sous Android.


Google annonce que Gemini Ultra dépasse les experts humains avec un score de 90,0 % en MMLU (Massive Multitask Language Understanding), qui combine 57 matières telles que les mathématiques, la physique, l’histoire, le droit, la médecine et l’éthique pour tester à la fois les connaissances et les capacités de résolution de problèmes.


Gemini Pro délivré dès maintenant dans le chatbot Bard de Google

Sundar Pichai, patron de Google et Alphabet, parvient à un lancement partiel de Gemini (Gémeaux en français) en attendant Gemini Ultra. En pratique, Gemini Pro est disponible dès maintenant via Bard, le chatbot conversationnel de Google lancé en 2023. Il sera accessible uniquement en anglais et en dehors de l’Europe. Google prévoit l’intégration d’autres langues et pays prochainement.



La version nano de Gemini sera présente dans le smartphone Pixel 8 Pro pour du résumé d’enregistrement

La version nano de Gemini sera présente dans le smartphone Pixel 8 Pro via Android 14 avec des services comme la suggestion de réponses aux messages sous WhatsApp ou le résumé d’enregistrement. L’application d’enregistreur vocal pourra rédiger une transcription écrite des propos enregistrés et générer un résumé, et ce sans connexion à internet. Les développeurs d’applications Android peuvent désormais demander à accéder à Nano.

Google prévoit d’intégrer Gemini dans d’autres services comme le Search, les Ads, Chrome et Duet AI dans les prochains mois. Les développeurs et les entreprises auront accès à Gemini Pro via l’API de AI Studio ou via Vertex AI de Google Cloud à partir du 13 décembre. Les développeurs Android accéderont à la version nano du LLM. Gemini Ultra, pour sa part, fait l’objet de vérifications approfondies sur la confiance et la sécurité du modèle. Google indique qu’il le mettra à la disposition de certains groupes avant de l’ouvrir largement aux développeurs et aux entreprises clientes au début de 2024.



Une IA capable de traiter du texte, des images et des sons


Gemini Ultra sera mis à disposition de certains clients, développeurs, partenaires et experts en matière de sécurité et d’éthique pour des essais préliminaires. Gemini de Google est une IA multimodale. Cela signifie qu’il peut gérer et analyser différents modes d’expression, tels que le texte, les images, les vidéos, le son et le code informatique.

Une vidéo impressionnante illustre les capacités de Gemini avec un raisonnement humain

Sur un billet de blog de Google, Gemini est capable de détecter une stratégie dans le jeu « papier, caillou, ciseaux » à partir de photos. Dans une vidéo, Gemini se montre capable de reconnaître le dessin d’un oiseau, un canard bleu en plastique ou en caoutchouc. Gemini gagne dans un jeu de bonneteau ou reconnaît un animal imité par des mouvements de doigts à la façon d’ombres chinoises.

De plus, Gemini reconnaît des jouets et des pelotes de fil de différentes couleurs et en suggère des usages pour des objets. Il répond à des questions très humaines avec beaucoup de discernement comme parvenir à reconnaître un film à partir de la vidéo d’une personne qui imite une scène de Matrix. Gemini a été formé sur l’infrastructure destinée à l’IA à l’aide des processeurs Tensor Processing Units (TPU) v4 et v5e de Google et non sur des processeurs de Nvidia.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *