Le nouveau modèle GPT-4o d’OpenAI a la capacité de raisonner en temps réel sur l’audio, la vision et le texte. La société a présenté ce nouveau modèle GPT-4o le 13 mai et a montré ses fonctionnalités, notamment des compétences de conversation vocale en temps réel, de reconnaissance visuelle et d’analyse de graphiques. La présentation a été menée par Mira Murati, directrice de la technologie d’OpenAI. Une courte vidéo de 3 minutes permet de comprendre les capacités de GPT-4o.
Une interaction homme-machine plus naturelle
GPT-4o (« o » pour « omni ») est une étape vers une interaction homme-machine plus naturelle. Il accepte en entrée n’importe quelle combinaison de texte, d’audio et d’image et génère n’importe quelle combinaison de sorties de texte, d’audio et d’image. OpenAI annonce que GPT-4o peut répondre aux entrées audio en seulement 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation.
GPT-4o correspond aux performances de GPT-4 Turbo sur le texte en anglais et sur le code, avec une amélioration significative sur le texte dans les langues autres que l’anglais, tout en étant beaucoup plus rapide et 50 % moins cher dans l’API. OpenAI déclare que GPT-4o est particulièrement meilleur en termes de compréhension visuelle et audio par rapport aux modèles existants.
Un modèle unique pour le texte, la vision et l’audio
Avec GPT-4o, OpenAI a formé un nouveau modèle d’IA unique de bout en bout pour le texte, la vision et l’audio, ce qui signifie que toutes les entrées et les sorties sont traitées par le même réseau neuronal. « Étant donné que GPT-4o est notre premier modèle combinant toutes ces modalités, nous n’en sommes encore qu’au début de l’exploration de ce que le modèle peut faire et de ses limites » déclare OpenAI.
La session de présentation est disponible dans son intégralité :
Top lectures en ce moment
-
Stellantis adopte les agents IA, arcbouté sur une plateforme d’IA bâtie avec Dat...
-
La CDP (Customer Data Platform), un projet clé de la transformation Data d’Axa F...
-
Doctolib lance un assistant vocal de gestion des appels des patients
L'IA clé de nos besoins vitaux dans l'eau, l'électricité et le gaz
Marchés de l’eau : l’IA générative arrive dans les réponses aux appels d’offres des collectivités
Saur, spécialiste de la distribution d’eau potable, fait évoluer son processus de réponse aux appels d’offres des collectivités et des industriels en y injectant de l’IA géné…
Stockage de l’électricité : l’IA générative outil d’accélération clé chez Engie
Le stockage de l’électricité est un enjeu stratégique. Engie s’y attelle et mobilise pour cela l’IA générative de type RAG, c'est-à-dire basée sur le traçage des documents source. …
Nouvelle donne dans le gaz naturel : GRDF s’adapte en utilisant l’IA
GRDF, leader de la distribution du gaz naturel en France, affine sa stratégie d’IA. Il s’appuie sur des serveurs internes pour la confidentialité des données de ses clients. GRDF c…















Et vous, qu’en pensez-vous ?
Une idée, une réaction, une question ? Laissez-nous un mot ci-dessous.
Je réagis à cet article