Anthropic a annoncé ce 16 avril Claude Opus 4.7, successeur d’Opus 4.6 au sommet de la gamme. Même prix, même contexte, mais un saut de capacité que Ben Lafferty (Senior Staff Engineer) compare au passage de Sonnet 3.7 à Claude 4. Le vrai changement est ailleurs que sur les benchmarks habituels.
Ce qui change concrètement côté capacités
Sur les benchmarks internes publiés par Anthropic, Opus 4.7 creuse l’écart sur les tâches agentic et le code complexe. Le delta le plus parlant : 70 % sur CursorBench contre 58 % pour Opus 4.6, et un benchmark interne de 93 tâches de code sur lequel 4.7 résout 4 tâches qu’aucun modèle Claude précédent (ni Opus 4.6 ni Sonnet 4.6) ne parvenait à boucler. Sur Rakuten-SWE-Bench, 3 fois plus de tâches de production sont résolues par rapport à Opus 4.6, avec des gains à deux chiffres sur la qualité du code et des tests.
Côté sécurité offensive, une précision importante : le score CyberGym d’Opus 4.6 a été réévalué de 66,6 à 73,8 après mise à jour des paramètres de test par Anthropic. Les scores CyberGym comparatifs d’Opus 4.7 sont visibles dans le graphique officiel de l’annonce, qui montre un gain supplémentaire. Des safeguards automatiques renforcés bloquent les requêtes cyber à risque. Sur Terminal-Bench 2.0, le modèle passe 3 tâches que les modèles Claude précédents échouaient systématiquement.
Le vrai step-change : la vision
Le chiffre qui retient l’attention : selon les mesures internes de la société de pen-testing autonome XBOW (Oege de Moor, CEO), Opus 4.7 atteint 98,5 % sur leur benchmark interne de visual acuity contre 54,5 % pour Opus 4.6. Le modèle ne rate quasiment plus rien de ce qu’il voit. Et la résolution supportée passe à 2 576 pixels sur le bord long (~3,75 mégapixels), trois fois plus qu’Opus 4.6.
Pour moi, c’est le vrai tournant de cette release. On parle maintenant d’un modèle capable de lire des diagrammes techniques complexes, des structures chimiques, des schémas d’archi SaaS avec une précision qui rend les workflows OCR + raisonnement réellement utilisables en prod. Jusqu’ici, la vision Claude était un « nice to have » dégradé dès qu’on sortait d’un screenshot de texte propre. Là, ça devient un outil de production.
Effort levels et raisonnement : ce qui change côté API
Un changement à surveiller si tu as des stacks matures sur Opus 4.6. La documentation technique Anthropic liste Opus 4.7 avec « adaptive thinking » au lieu de l’extended thinking proposé par les modèles précédents. L’annonce officielle ne détaille pas les implications exactes de ce changement, mais le signal dans la doc est clair : la façon dont le modèle gère son budget de raisonnement a évolué.
Ce qu’Anthropic confirme explicitement : l’instruction following est nettement plus strict sur 4.7 (le modèle exécute plus littéralement ce que tu lui demandes). Si tu codes côté API et que tu avais calibré tes prompts sur le comportement d’Opus 4.6, un sprint de tests de non-régression est recommandé avant de basculer en production. Le guide de migration officiel d’Anthropic précise les points de vigilance.
Les nouveautés côté Claude Code et effort levels
Trois changements pratiques à noter si tu utilises Claude Code au quotidien :
- Un nouveau niveau d’effort
xhigharrive entrehighetmax. Utile pour les tâches oùhighne suffit pas mais oùmaxbrûle trop de tokens. - Une slash command
/ultrareviewdédiée aux sessions de code review. 3 utilisations gratuites pour les abonnés Pro et Max au lancement. - L’Auto Mode (permissions d’agent autonome pour des actions sans confirmation) est étendu aux utilisateurs Max, alors qu’il était réservé à un cercle plus restreint jusqu’ici.
Et une fonctionnalité en public beta côté API : les Task Budgets, qui permettent de guider la dépense de tokens sur une tâche donnée sans passer par les effort levels classiques. C’est exactement ce qui manquait pour industrialiser des pipelines agentic avec du contrôle de coût fin.
Pricing et disponibilité
Pas de surprise côté facture : Opus 4.7 garde le prix d’Opus 4.6, soit 5 $ en input et 25 $ en output par million de tokens. Contexte toujours à 1M tokens, max output à 128K tokens.
Un piège à connaître : le tokenizer a été mis à jour, et le même input produit 1,0 à 1,35 fois plus de tokens qu’avec Opus 4.6. Plus Opus 4.7 génère des outputs plus longs dans les settings agentic. Concrètement, le tokenizer étant plus verbeux, l’impact réel dépendra de tes cas d’usage. Anthropic indique que sur ses benchmarks internes de code, l’efficacité token globale est améliorée, mais chaque workload est différent. Mesure avant de basculer.
Disponible sur la Claude API, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry. Opus 4.6 reste accessible (la documentation technique le classe désormais dans la section « Legacy models »), sans date de retirement annoncée.
Ce que ça change pour toi, concrètement
Trois conséquences immédiates selon ton profil :
- Si tu construis des agents de code ou des workflows multi-step, l’upgrade vaut probablement le re-tuning de prompts. Les gains sur l’instruction following et la auto-vérification (le modèle « attrape ses propres fautes logiques pendant la phase de planification », dixit Anthropic) réduisent le taux d’échec des boucles longues. Prévoir quand même un sprint de tests de non-régression.
- Si tu utilises la vision pour autre chose que du screenshot de texte, le jump de 54 à 98 % sur XBOW change ton use case. Ce qui n’était pas viable en prod (OCR de documents complexes, analyse de schémas, lecture de diagrammes techniques) devient faisable.
- Si tu es sur une stack pricing-sensitive, le tokenizer plus verbeux peut impacter tes coûts par tâche. Anthropic affirme que l’efficacité token globale est améliorée sur les benchmarks de code, mais ton workload n’est pas un benchmark. Mon conseil : rouler 4.7 en A/B avec 4.6 sur une semaine pour mesurer le coût réel avant de basculer.
Et pour ceux qui se demandaient où passait Claude Mythos Preview dévoilé il y a quelques jours : les deux modèles coexistent. Mythos reste un modèle research preview, invitation-only, orienté cybersécurité défensive dans le cadre de Project Glasswing. Opus 4.7, c’est le modèle généraliste grand public. Pas le même produit.
Pour une mise en perspective avec le reste de l’écosystème, notre guide de tous les modèles IA en 2026 sera mis à jour dans la semaine avec les chiffres Opus 4.7 intégrés. Et si tu veux un comparatif direct avec ce que propose OpenAI côté frontier, notre comparatif ChatGPT vs Gemini donne les repères sur les principaux concurrents.
La question qui reste ouverte : à quelle vitesse les concurrents (GPT-5.4, Gemini 2.5 Pro, Grok 4) vont-ils répondre ? Anthropic a positionné Opus 4.7 comme le modèle généraliste le plus capable « on the market » — c’est une phrase qui, dans l’industrie IA 2026, a rarement une durée de vie supérieure à 4-8 semaines.