Avril 2024 : Découvrez les 10 modèles de langage IA qui définissent l’avenir de la technologie
La victoire surprenante de GPT-4 Turbo
Il semble que la course à la performance des modèles de langage de l’IA ait pris un virage inattendu en avril 2024. GPT-4 Turbo, qui avait perdu sa place de leader, a fait un retour triomphant sur le devant de la scène. C’est la Chatbot Arena, une plateforme initiée par la Large Model Systems Organization (LMSYS), qui a révélé cette revirement de tendance.
La Chatbot Arena est un projet ambitieux qui vise à évaluer objectivement les modèles de langage de l’IA. Le but de cette plateforme est de permettre aux utilisateurs de comparer divers modèles, tels que GPT-4, Claude 3 ou Llama-3. Le mois dernier, près de 800 000 contributions ont été recueillies, ce qui a permis d’identifier certains modèles comme étant plus performants que d’autres.
Le classement de la Chatbot Arena
Avant l’arrivée surprenante de GPT-4 Turbo, c’était Claude 3 Opus qui dominait le classement. Cependant, suite à une mise à jour de GPT-4 Turbo, ce dernier a repris sa place de leader. Parmi les autres modèles notables, mentionnons GPT-4 et Claude 3 Opus qui occupent respectivement la deuxième et la troisième place du classement.
Il est intéressant de noter que certains modèles ont connu une baisse significative de performance. C’est le cas de Mistral Large qui est passé de la septième à la treizième place. D’autres modèles, comme Llama 3, ont fait une entrée remarquée dans le classement, se plaçant à la sixième position.
Le fonctionnement de l’évaluation de la Chatbot Arena
La Chatbot Arena utilise le système d’évaluation Elo pour classer les modèles de langage de l’IA. Ce système, initialement utilisé pour les jeux d’échecs, attribue une cote à chaque modèle en fonction de ses performances passées et de celles de ses adversaires. Ainsi, un modèle qui bat un adversaire avec un score plus élevé gagne des points Elo, tandis qu’un modèle qui perd contre un adversaire avec un score plus faible en perd.
Ce système d’évaluation est particulièrement adapté pour la Chatbot Arena, car il permet de prédire l’issue des matchs et offre une évaluation juste et objective de la performance des différents modèles de langage de l’IA.
Voici le classement des modèles de langage IA les plus performants en avril 2024, selon la Chatbot Arena :
- GPT-4 Turbo : 1 257 (score Elo)
- GPT-4 1106 : 1 253
- Claude 3 Opus : 1 251
- Gemini 1.5 Pro : 1 248
- GPT-4 0125 : 1 247
- Bard (Gemini Pro) : 1 209
- Llama-3 : 1 207
- Claude 3 Sonnet : 1 202
- Command R+ : 1 192
- GPT-4 0314 : 1 189