Claude 4 : Anthropic lance ses nouveaux modèles d’IA… mais avec des limites stratégiques

Anthropic, la start-up basée à San Francisco, a récemment dévoilé la quatrième génération de ses modèles Claude AI, marquant une nouvelle étape dans la course à l’intelligence artificielle. Alors que Google et OpenAI continuent d’étendre les capacités de leurs systèmes en introduisant des modèles multimodaux et des fenêtres de contexte dépassant le million de tokens, Anthropic adopte une stratégie bien différente : elle reste fidèle à un plafond de 200 000 tokens et à un traitement exclusivement textuel. Un choix qui, à première vue, la distingue de manière inhabituelle dans un paysage technologique en pleine évolution.

Cette sortie n’est pas anodine. Elle coïncide avec l’annonce par Google de sa nouvelle gamme Gemini et le lancement par OpenAI d’un nouvel agent de codage reposant sur son modèle Codex. De son côté, Anthropic propose des modèles hybrides capables de passer dynamiquement d’un mode raisonnement à un mode non-raisonnement selon la nature des tâches demandées — une approche qui anticipe certaines promesses du futur GPT-5.

Mais un détail important attire l’attention des développeurs : cette montée en gamme s’accompagne de tarifs premium. L’abonnement Claude Max reste à 20 dollars par mois pour les utilisateurs de chatbot, mais grimpe à 200 dollars pour les professionnels, avec des limites d’utilisation multipliées par 20.

Écriture créative : Claude brille toujours

Dans les tests d’écriture créative, où les modèles sont évalués sur leur capacité à produire des récits captivants, Claude reste une référence. Nous avons confronté Claude Sonnet 4 et Claude Opus 4 sur une histoire impliquant un voyageur temporel dont les tentatives de changer le passé s’avèrent être à l’origine du futur qu’il voulait éviter.

Claude Sonnet 4 s’est distingué par sa prose vivante, ses descriptions immersives et sa profondeur psychologique. Malgré une fin légèrement différente de celle demandée, le récit était solide, bien rythmé et philosophiquement riche.

Note : 9/10. Une amélioration notable par rapport à Sonnet 3.7.

Claude Opus 4, quant à lui, a offert un récit plus long et solidement ancré dans un contexte historique crédible, incluant des références aux sociétés précolombiennes. Toutefois, le développement narratif s’est essoufflé vers le milieu, rendant la conclusion prévisible.

Note : 8/10. Un très bon effort, mais Sonnet conserve l’avantage.

Il est à noter qu’Anthropic ne semble pas avoir mis l’accent sur l’amélioration des capacités créatives dans cette nouvelle version, privilégiant d’autres domaines.

Codage : Claude surpasse Gemini sur la jouabilité

L’évaluation en programmation est cruciale pour les développeurs. Claude Opus 4 a été confronté à Gemini 2.5 Pro sur la création d’un jeu vidéo où un robot doit éviter des journalistes pour fusionner avec un ordinateur et atteindre l’AGI.

Claude a proposé un jeu furtif en vue de dessus avec une logique de détection sonore, des états d’IA complexes, et une génération procédurale de niveaux. Une réalisation technique impressionnante et jouable.

Note : 8/10.

Gemini, en revanche, a produit un jeu de plateforme en défilement horizontal avec une architecture plus propre et plus lisible. Cependant, le jeu n’était pas fonctionnel après deux itérations.

Verdict : Claude gagne sur la jouabilité, mais Gemini séduit les développeurs par la clarté de son code.

Raisonnement mathématique : transparence vs exactitude

Nous avons posé aux modèles une question tirée du benchmark FrontierMath : construire un polynôme complexe répondant à plusieurs contraintes et calculer sa valeur en 19.

Claude Opus 4 a fourni un raisonnement détaillé, permettant de suivre chaque étape, même si la réponse finale était incorrecte. Cette transparence est précieuse dans les domaines éducatifs et scientifiques.

En revanche, le modèle o3 d’OpenAI a donné des réponses parfaitement correctes mais sans exposer le raisonnement, empêchant toute vérification ou apprentissage du processus.

Verdict : OpenAI gagne sur la précision, mais Claude conserve un net avantage pédagogique.

Communication stratégique : Claude convainc

Pour tester la capacité à formuler des stratégies de communication complexes, nous avons demandé aux modèles d’écrire un message unifié à cinq groupes d’intérêt dans un hôpital victime d’une cyberattaque.

Claude a élaboré une stratégie à trois piliers — sécurité, réponse active, avenir renforcé — avec des détails précis comme une allocation d’urgence de 2,3 millions de dollars et des adaptations culturelles pour un public multilingue.

ChatGPT a aussi bien performé, mais avec moins de détails pratiques et d’éléments logistiques.

Verdict : Claude remporte l’épreuve par la profondeur de sa réflexion stratégique.

Extraction d’information : une limite importante

Enfin, nous avons testé la capacité des modèles à retrouver une information précise dans de très longs documents, selon la méthode de l’« aiguille dans une botte de foin ».

Claude Sonnet 4 et Opus 4 ont réussi à retrouver les informations dans des documents de 85 000 tokens, en fournissant des réponses précises avec contexte. Mais à 200 000 tokens, la limite de contexte a été atteinte, empêchant toute réponse.

Pendant ce temps, Gemini, avec sa capacité à gérer plus d’un million de tokens, surclasse largement Claude sur cette tâche.

Verdict : Gemini est plus adapté pour les analyses de documents longs.

Claude 4, un modèle en mutation

Avec cette nouvelle génération, Anthropic semble réorienter Claude vers un usage plus technique et professionnel. Les améliorations en écriture créative sont marginales, mais les avancées en codage, en communication stratégique et en transparence du raisonnement sont notables.

Cependant, ses limites techniques — notamment la fenêtre de contexte restée à 200 000 tokens — pourraient rebuter ceux qui traitent de vastes volumes d’informations, comme les juristes, chercheurs ou analystes.