Publié le 18 octobre 2025 à 15h26. Une nouvelle évaluation des modèles d’intelligence artificielle révèle des divergences significatives dans les méthodes d’évaluation et les données utilisées, soulevant des questions sur la fiabilité des classements et la transparence du secteur. Des acteurs majeurs comme DeepSeek et OpenAI sont concernés par ces observations.
- Le Centre pour les normes et l’innovation en IA (CAISI) a publié un rapport mettant en évidence des incohérences dans l’évaluation du modèle DeepSeek 3.1 par rapport aux modèles propriétaires.
- Des divergences importantes ont été constatées dans les données de téléchargement des modèles, remettant en question la validité des statistiques disponibles sur des plateformes comme Hugging Face.
- OpenAI, avec ses modèles GPT-OSS, gagne en popularité, surpassant certains modèles concurrents et suscitant un intérêt croissant au sein de la communauté.
Le rapport du CAISI souligne un écart entre les performances auto-déclarées de DeepSeek 3.1 et les résultats obtenus lors de tests standardisés. Si les scores sur les benchmarks MMLU-Pro, GPQA et HLE sont conformes aux attentes, les résultats sur le benchmark SWE (Software Engineering) présentent des anomalies significatives. Ces anomalies sont attribuées à un manque de rigueur dans l’environnement de test utilisé pour ce benchmark, comme l’explique cette analyse d’Epoch AI : l’infrastructure logicielle utilisée pour les tests a un impact aussi important que le modèle lui-même.
En conséquence, le rapport du CAISI pourrait sous-estimer les capacités réelles de DeepSeek sur un benchmark crucial pour l’évaluation des modèles récents, notamment celui utilisé par Anthropic pour le développement de Claude.
Par ailleurs, des disparités notables ont été observées dans les chiffres de téléchargement des modèles d’IA. Le rapport du CAISI présente des données qui diffèrent considérablement de celles disponibles sur atomproject.ai et même de celles publiées par Hugging Face. Ces divergences sont dues à des différences dans les méthodes de collecte et de nettoyage des données. Le projet ATOM, par exemple, ne prend en compte que les modèles publiés après ChatGPT et classés comme de véritables LLM (Large Language Models), excluant ainsi des modèles plus anciens comme GPT-2 ou des architectures différentes comme BERT et SigLIP.
En outre, le projet ATOM applique un filtrage rigoureux pour éliminer les valeurs aberrantes dans les données de téléchargement, notamment celles liées à des pics d’activité inhabituels, comme celui observé pour le modèle Qwen2.5 1.5B, qui a enregistré plus de 10 millions de téléchargements. De plus, les versions quantifiées des modèles (FP8, MLX, GGUF) sont également exclues pour éviter de fausser les statistiques.
Du côté d’OpenAI, l’adoption de ses modèles GPT-OSS (20B et 120B) est en forte croissance, avec respectivement 5,6 millions et 3,2 millions de téléchargements le mois dernier. Ces modèles surpassent désormais certains concurrents populaires, tels que Qwen3 4B ou Qwen3-VL-30B-A3B-Instruct. La communauté a également exprimé un fort intérêt pour ces modèles, comme en témoigne cette évaluation rapide sur les réseaux sociaux.
Parmi les autres développements récents, le modèle granite-4.0-h-small d’IBM se distingue par sa qualité, comparable à celle des modèles SmolLM3, et son approche équilibrée en termes de ton et de style. IBM prévoit également de publier un modèle de raisonnement distinct plus tard dans l’année. De même, la série Qwen VL a été mise à jour avec des modèles denses et MoE (Mixture of Experts) de différentes tailles, notamment l’option 8B, qui présente des améliorations significatives par rapport à la version précédente. Enfin, le modèle GLM-4.6 de Zhipu AI est considéré par certains comme une alternative performante à Sonnet ou Haiku, tandis que le modèle Ling-1T d’Inclusion AI se distingue par sa taille impressionnante (1T paramètres) et son approche innovante.
En conclusion, le paysage des modèles d’IA open source est en constante évolution, avec une prolifération de nouveaux modèles et une complexité croissante des méthodes d’évaluation. La transparence et la rigueur dans la collecte et l’analyse des données sont essentielles pour garantir la fiabilité des classements et favoriser l’innovation dans ce domaine.
