OpenAI a publié le 8 janvier 2026 un retour d’expérience sur Netomi et le passage à l’échelle de ses systèmes agentiques en entreprise. Le sujet n’est pas le énième démo qui marche en sandbox, mais ce qui casse quand tu mets des agents IA en production face à des clients réels. Et c’est là que ça devient intéressant pour quiconque a déjà tenté de sortir un agent du stade prototype.
Le constat de départ est connu de tous ceux qui bossent sur le sujet : un agent qui répond bien à une requête isolée n’a rien à voir avec un agent qui doit encaisser des milliers de conversations en parallèle, sans dérailler, sans halluciner une action irréversible, et en restant traçable. Netomi, qui construit des agents IA pour les entreprises, partage justement les briques qui lui ont permis de tenir cette charge.
Ce que Netomi a changé pour tenir la production
D’après OpenAI, l’approche de Netomi repose sur trois piliers : la concurrence (faire tourner beaucoup d’agents en simultané), la gouvernance (encadrer ce que l’agent a le droit de faire), et le raisonnement multi-étapes (décomposer une demande complexe en sous-tâches enchaînées). Pris séparément, chacun de ces mots sonne comme du buzzword. Mis ensemble, ils décrivent exactement le fossé entre un chatbot et un agent fiable.
La concurrence, c’est le problème que personne ne voit venir tant qu’on teste à un utilisateur. En production, des centaines de conversations partagent les mêmes ressources, les mêmes appels API, les mêmes limites de débit. Tenir ça sans dégrader la latence ni mélanger les contextes est un problème d’ingénierie autant que d’IA.
La gouvernance, c’est l’autre angle mort. Un agent qui peut déclencher des actions — rembourser, modifier une commande, accéder à des données — doit avoir des garde-fous explicites. Sans ça, tu n’as pas un assistant, tu as une faille opérationnelle qui répond poliment.
GPT-4.1 et GPT-5.2 selon le modèle de la tâche
Côté technique, OpenAI indique que Netomi combine GPT-4.1 et GPT-5.2 dans ses workflows de production. C’est un point que je trouve plus parlant que n’importe quel benchmark : en pratique, les équipes sérieuses n’utilisent pas un seul modèle pour tout. Elles router les tâches. Un modèle plus rapide et moins cher pour les requêtes simples ou massives, un modèle plus capable pour le raisonnement multi-étapes qui justifie le surcoût. Cette logique de routage est exactement ce qu’on retrouve sur les plateformes d’orchestration d’agents (voir notre guide des modèles IA en 2026).
Cette logique de « bon modèle pour la bonne tâche » est, à mon sens, la vraie leçon d’architecture cachée derrière l’article. Le réflexe du débutant est de tout balancer sur le modèle le plus puissant et de payer la facture. Le réflexe d’une équipe qui scale est de mesurer où le raisonnement complexe est réellement nécessaire, et de réserver la puissance à ces moments-là. OpenAI présente le combo GPT-4.1 / GPT-5.2 comme une réponse à la fiabilité des « production workflows », pas comme une course à la performance brute.
Ce que ça change pour toi si tu construis des agents
Si tu bricoles un agent IA pour ton business ou pour un client, le retour de Netomi te donne une checklist implicite avant de parler de « mise en prod » : choisir la bonne plateforme d’orchestration aide aussi (voir notre comparatif des plateformes d’orchestration d’agents IA).
- La concurrence : ton agent tient combien de sessions simultanées avant de ramer ou de planter ? Si tu ne l’as jamais testé, tu n’es pas en production, tu es en démo.
- La gouvernance : qu’est-ce que ton agent a le droit de faire sans validation humaine ? Tant que tu n’as pas écrit cette liste noir sur blanc, tu pilotes à l’aveugle.
- Le raisonnement multi-étapes : tes tâches complexes sont-elles découpées proprement, ou tu pries pour que le modèle « comprenne » d’un coup ?
- Le routage de modèles : utilises-tu un seul modèle pour tout, ou adaptes-tu le modèle au coût et à la difficulté de chaque étape ?
Ces questions ne demandent pas un budget OpenAI Enterprise pour être utiles. Elles s’appliquent dès que tu mets un agent entre les mains d’autres personnes que toi.
Mon avis : cet article confirme une bascule que je vois s’installer dans tout l’écosystème. Le sujet n’est plus « est-ce que le modèle est assez bon », mais « est-ce que ton infrastructure autour du modèle est assez sérieuse ». OpenAI met en avant Netomi parce que l’histoire intéressante n’est pas la qualité de GPT-5.2, c’est tout ce qu’il a fallu construire autour pour que ça tienne face à de vrais clients. Pour quiconque veut vendre de l’agentique en 2026, c’est exactement là que se joue la crédibilité, et c’est aussi là que la plupart des projets vont se casser les dents. Reste une limite que l’article ne lève pas : on a la logique d’architecture, pas les chiffres de fiabilité réels ni les coûts associés. À prendre comme un retour d’expérience cadré par OpenAI, donc, pas comme un audit indépendant.
