Le Grok 3 de xAI est meilleur que prévu. Comment l’essayer gratuitement (avant de vous abonner)
Le nouveau modèle de xAI se hisse au sommet des classements et des résultats de référence de Chatbot Arena.
Elon Musk était un investisseur dans OpenAI lors de sa création en 2015. Depuis, il a complètement rompu ses liens avec la start-up, alléguant que l'entreprise s'est écartée de sa mission initiale à but non lucratif. Il a créé sa propre société d’IA, xAI, et avec elle, un grand modèle de langage (LLM) appelé Grok. Aujourd’hui, la société a lancé un nouveau modèle, Grok 3, qui se hisse au sommet des classements des chatbots.
Grok 3
Lundi, Elon Musk a lancé la dernière famille de modèles d'IA de xAI, Grok 3, via une diffusion en direct. Grok 3 dispose d'une formation 10 fois supérieure à celle de Grok 2, rendue possible par la création par xAI de son propre centre de données basé à Memphis, dans le Tennessee, qui abrite 200 000 GPU.
« Nous sommes ravis de présenter Grok 3, qui, selon nous, est d’un ordre de grandeur plus performant que Grok 2 », a déclaré Musk lors de la diffusion en direct.
La famille de modèles comprend également un modèle de raisonnement, qui s’appuie sur Grok 3. Comme d'autres modèles de raisonnement sur le marché, y compris les modèles o1 et o3 d'OpenAI, la bêta de Grok 3 Reasoning réfléchit un peu plus longtemps pour produire des résultats de meilleure qualité.
Tous les modèles Grok 3 sont destinés à rivaliser avec les modèles leaders. Grok 3 est en concurrence avec GPT-4o d'OpenAI et Gemini de Google, et Grok 3 Reasoning est en concurrence avec 03-mini (élevé), o1 et Deepseek-R1. Avec moins de 24 heures sur le marché, les offres de xAI dominent les benchmarks et les classements.
Performance
Le pré-entraînement du modèle s'est terminé début janvier, et même s'il est toujours en cours d'entraînement, Grok 3 a surpassé les principaux modèles sur les benchmarks de l'IA, y compris l'AIME '24, qui teste le raisonnement mathématique ; GPQA, qui teste la compétence en sciences, en particulier en biologie, en physique et en chimie ; et le LCB d’octobre à février, qui teste les capacités de codage.
Le modèle de raisonnement Grok 3 et le modèle de raisonnement Grok 3 mini sont toujours en cours de développement, mais selon les résultats partagés par xAI lors de la diffusion en direct, les bêtas des deux modèles ont fonctionné de manière compétitive contre o3-mini (élevé), o1, DeepSeek-R1 et Gemini-2 Flash Thinking à travers l’AIME, le GPQA et le LCB.
Au-delà des repères techniques, Grok 3 a grimpé dans les classements de la Chatbot Arena, une plate-forme participative où les utilisateurs peuvent évaluer les LLM en discutant avec deux LLM côte à côte et en comparant leurs réponses l'un à l'autre sans connaître les noms des modèles.
Avant le lancement officiel de Grok 3, une première version du modèle a été présentée dans l’Arena sous le titre « chocolat », et elle s’est classée première devant Gemini, GPT-4o, DeepSeek r1 et plus encore dans toutes les catégories. Il est également devenu le premier modèle à franchir un score de 1400 dans l’Arène.
Recherche approfondie
Pour répondre à la demande de capacités agentiques, xAI a également lancé DeepSearch, qui est similaire aux fonctionnalités de recherche approfondie d'OpenAI et de Google. Avec DeepSearch, les utilisateurs peuvent poser une question, et Grok y réfléchira, effectuera une recherche sur le Web, produira son processus de réflexion au fur et à mesure, puis générera une réponse finale solide avec des données et des tableaux si nécessaire. Cela signifie que vous pouvez lui demander de faire des recherches sur un sujet, revenir 10 minutes plus tard, et la tâche sera terminée.
L'un des plus grands avantages est de pouvoir faire défiler les pensées de Grok - « lire dans l'esprit de Grok » - et de comprendre comment il a atterri sur sa réponse finale. Cela rend l’expérience plus facile à diriger et vous aide à mieux comprendre vos résultats.
Comment y accéder
À partir d’aujourd’hui, vous pouvez accéder à certains des modèles Grok en version bêta. Grok 3 est disponible sur X Premium+, qui permet également aux utilisateurs d’accéder aux dernières fonctionnalités, à une limite d’utilisation accrue, à DeepSearch et à des modes de raisonnement avancés en cliquant sur les options « Think » ou « Big Brain ».
L’abonnement X Premium+ coûte 40 $par mois, contre 22 $avant l’annonce, comme l’a repéré TechCrunch, et les abonnés doivent mettre à jour l’application pour voir les mises à jour.
xAI a également dévoilé un nouveau niveau d’abonnement, SuperGrok, semblable à ChatGPT Pro, destiné aux super fans qui veulent accéder le plus tôt possible aux capacités les plus avancées. Le prix de ce plan n'a pas encore été partagé, mais vous pouvez vous attendre à ce qu'il s'agisse d'un centime important, car l'abonnement Pro d'OpenAI coûte 200 $par mois.
Pour la version la plus raffinée, Musk encourage les utilisateurs à attendre une semaine. D’ici là, une nouvelle intégration vocale sera probablement prête à être déployée.
Si vous préférez participer à la Chatbot Arena pour essayer Grok 3, rendez-vous sur le site Web, cliquez sur Arena côte à côte, choisissez « early-grok-3 » dans la liste déroulante et saisissez un exemple d'invite. Même si l'arène dispose toujours d'une première version de Grok 3, il s'agit toujours d'un modèle puissant ; Après tout, il a atteint le sommet du classement par rapport aux autres modèles, qui en sont à leurs dernières versions.