Par Tarik Published on mercredi, 26 mars 2025

Les 10 modèles d’IA les plus performants en mars 2025

Dévoilé en février, GPT-4.5 grimpe directement sur le podium de la Chatbot Arena. Il se glisse entre Grok-3 et Gemini 2.0 Flash.

Disponible sur X, Grok-3 est le modèle de langage le plus compétitif ce mois-ci, selon la Chatbot Arena. © LMSYS

Il y a du mouvement dans la Chatbot Arena. La dernière mise à jour de ce classement en temps réel, censé évaluer objectivement les performances des modèles de langage en s’appuyant sur les avis des utilisateurs, voit l’arrivée de nouveaux modèles. Parmi eux, GPT-4.5, la dernière innovation d’OpenAI, qui se hisse directement à la deuxième place, juste derrière Grok-3.

GPT-4.5 se hisse sur le podium de la Chatbot Arena

Malgré des lacunes apparentes lors de sa présentation par Elon Musk, Grok-3 conserve sa première position acquise le mois dernier. Le dernier modèle d’intelligence artificielle développé par xAI, disponible gratuitement sur X depuis février mais avec certaines limitations, devance désormais GPT-4.5. Récemment déployé auprès des utilisateurs payants de ChatGPT et présenté comme « plus humain » par OpenAI, ce modèle a été conçu principalement pour le grand public. Il doit notamment permettre d’optimiser sa rédaction ou de résoudre des problèmes du quotidien. Avec un score Elo de 1398, GPT-4.5 est l’un des trois modèles de la firme de San Francisco figurant dans cette dernière version du classement. GPT-4o pointe désormais en cinquième position, tandis qu’o1 est huitième.

Les 10 modèles de langage les plus performants en mars 2025

Dans la première moitié du classement, l’écosystème des entreprises d’IA n’est plus aussi fidèlement représenté qu’auparavant : plusieurs acteurs majeurs, comme Meta, Anthropic et, dans une moindre mesure, Mistral AI, n’y figurent plus ces derniers mois. À l’inverse, Google place, comme OpenAI, plusieurs de ses modèles dans le haut du tableau, notamment Gemini 2.0 Flash (3e), Gemini 2.0 Pro (4e) et Gemma 3 (9e), une technologie spécialement conçue pour les développeurs et dévoilée le 12 mars. Les entreprises chinoises sont également représentées : Gwen, développé par Alibaba, occupe la 10e place, tandis que DeepSeek R1 se classe 6e.

Voici les 10 modèles d’IA les plus performants en mars 2025, selon la Chatbot Arena :

Grok-3 Preview 0204 : 1 404 (score Elo)
GPT-4.5 Preview : 1 398
Gemini-2.0 Flash 0121 : 1 382
Gemini 2.0 Pro 0205 : 1 379
ChatGPT-4o-latest 0129 : 1 374
DeepSeek-R1 : 1 360
Gemini-2.0-Flash : 1 355
o1 1217 : 1 351
Gemma-3-27B-it : 1 341
Qwen2.5-Max : 1 340

Découvrir le classement complet

Comment la Chatbot Arena évalue-t-elle les performances des modèles d’IA ?

Créée par la Large Model Systems Organization (LMSYS), une organisation regroupant des étudiants et de chercheurs de l’Université de Berkeley, la Chatbot Arena est un classement visant à évaluer, sans biais, les performances des modèles disponibles sur le marché. Mais comment ça fonctionne, au juste ? Sur la plateforme, il est demandé aux utilisateurs de déterminer, entre deux modèles anonymisés, celui qui répond le plus précisément au prompt.

Chaque modèle de langage reçoit ensuite un score Elo. Il s’agit d’une cote provisoire, qui évolue en fonction des résultats lors des duels : si un modèle parvient à vaincre un adversaire dont le score est plus élevé, il gagne des points ; s’il subit une défaite contre un modèle théoriquement plus faible, il en perd. LMSYS a adopté ce système, couramment utilisé dans les compétitions d’échecs et d’esport, car il lui semblait particulièrement adapté à un projet reposant sur des duels.