OpenAI repart à l’assaut avec un GPT-4 Turbo boosté à la vision

logo chatgpt openai

Depuis quelques mois, OpenAI avait laissé le champ libre à la concurrence sur le terrain des grands modèles de langage. Anthropic et son modèle Claude, ou encore Google avec sa dernière version de son LLM Gemini, avaient momentanément pris les devants. Mais la start-up californienne vient de reprendre l’avantage avec le lancement de GPT-4 Turbo, une itération améliorée et optimisée de son fleuron. Un rempart pour retrouver sa place de leader ?

Performances de pointe pour rattraper le retard

Le message est clair : GPT-4 Turbo vise les sommets en termes de performances. Désormais accessible aux abonnés ChatGPT, cette nouvelle mouture surpasse les scores de Claude 3 Opus et Gemini Pro 1.5 sur différents benchmarks d’évaluation IA comme MATH, MMLU ou encore HumanEval.

Mais au-delà des chiffres, OpenAI met aussi l’accent sur des réponses plus naturelles, concises et conversationnelles au sein de son chatbot vedette. Last but not least, son impressionnante fenêtre contextuelle de 128 000 tokens, lui permet d’avoir une vision d’ensemble inégalée.

L’avènement de la vision dans les grands modèles

L’autre grande nouveauté, c’est l’arrivée tant attendue de la vision au sein des grands modèles d’OpenAI. Avec GPT-4 Turbo with Vision, l’outil peut désormais interpréter des images pour répondre à des questions les concernant.

Un terrain d’exploration très prisé, mais sur lequel la start-up reconnaît encore quelques limites pour les tâches trop spécifiques nécessitant une analyse fine.

Preuve de l’enjeu stratégique, son concurrent direct xAI mené par Elon Musk vient lui aussi de lancer son propre modèle multimodal Grok-1.5V, affichant des performances très proches sur l’interprétation visuelle.

Le multimodal, l’avenir incontournable de l’IA générative ?

Avec ces avancées en vision, GPT-4 Turbo et ses concurrents n’en sont qu’aux prémices d’une nouvelle ère pour l’intelligence artificielle. Celle où les données textuelles, imagées, sonores et autres se croiseront pour donner naissance à des capacités réellement transversales.

Une révolution multimodale qui dessine en filigrane un futur où les LLM pourraient assister l’humain dans une palette d’usages encore plus large.

Lire plus d’articles sur DigiTechnologie :
– Vers une conscience artificielle, cliquez-ici
– WhatsApp lance un numéroteur, cliquez-ici
– La guerre des puces GPU, TPU, LPU, cliquez-ici
– L’empreinte carbone cachée de l’IA, cliquez-ici
– Claude 3 dépasse Google Translate, cliquez-ici
– L’IA générative, un danger pour les musiciens, cliquez-ici