Databricks intègre GPT-5.5 dans ses workflows d’agents pour l’entreprise. Le partenariat a été annoncé par Databricks le 23 avril 2026, à la sortie de GPT-5.5, et consolidé par OpenAI dans une customer story publiée le 15 mai 2026. L’annonce s’appuie sur un argument précis : le nouveau modèle a établi un état de l’art sur le benchmark OfficeQA Pro, conçu pour évaluer les capacités des modèles sur des tâches métier réelles.
Pour le contexte : Databricks est devenu en quelques années une des plateformes de référence pour faire tourner de l’IA en entreprise, à côté de Snowflake et des hyperscalers. Le fait qu’ils rendent GPT-5.5 disponible nativement comme moteur d’agent sur leurs workflows enterprise, gouverné via Unity AI Gateway, n’est pas anodin. C’est un signal côté adoption : OpenAI ne se contente plus de vendre du chat, le modèle s’installe directement dans la couche d’orchestration des grandes entreprises.
Ce que dit OpenAI sur le déploiement
Selon la page officielle d’OpenAI, Databricks utilise GPT-5.5 pour ses workflows d’agents en entreprise. L’argument central mis en avant : la performance du modèle sur OfficeQA Pro, un benchmark construit à partir de 89 000 pages de bulletins du Trésor américain (U.S. Treasury Bulletins), dont la version Pro étend l’évaluation aux PDF scannés, fichiers legacy et documents long-contexte — testant parsing, retrieval, raisonnement grounded et calcul sur tables.
OpenAI parle d’un nouveau « state of the art » sur ce benchmark, et les chiffres sont publics et précis. Sur OfficeQA Pro Agent Harness (le modèle doit trouver les documents, les parser et calculer la réponse via le harness Codex), GPT-5.5 atteint 52,63 % contre 36,10 % pour GPT-5.4 — soit une réduction d’erreurs de 46 % et le premier passage de la barre des 50 %. Sur OfficeQA Pro avec Oracle PDF + Web Search (récupération déjà gérée), GPT-5.5 grimpe à 64,66 % contre 57,14 % pour GPT-5.4. Évaluation réalisée sur 133 questions OfficeQA Pro. Ce qui manque côté communiqué : la latence, le coût par requête et le volume de tâches en production.
Workflows d’agents : ce que ça recouvre concrètement
Un « workflow d’agent » chez Databricks, c’est typiquement une chaîne de tâches automatisées qui combine :
- Lecture de documents ou de tables (Delta Lake, notebooks, fichiers internes)
- Raisonnement et planification par le LLM
- Appel à des outils (SQL, API internes, code Python)
- Génération d’un livrable structuré (rapport, requête, action)
C’est exactement le terrain où un benchmark comme OfficeQA Pro a du sens. Là où ChatGPT en interface conversationnelle évalue surtout la qualité de réponse, OfficeQA mesure la capacité à chaîner des actions dans un environnement métier. Si GPT-5.5 décroche le haut du classement, ça veut dire qu’il gère mieux les tâches longues, le suivi d’instructions complexes et la manipulation de contexte étendu.
La part exacte du workflow qui passe par GPT-5.5 versus d’autres modèles n’est pas précisée dans le communiqué. Databricks a historiquement une approche multi-modèles, avec DBRX en interne et Llama, Claude (Anthropic) et Gemini (Google) accessibles via Mosaic AI Model Serving, donc l’intégration de GPT-5.5 ne signifie pas exclusivité.
Ce que ça change si tu construis avec l’IA
Si tu bosses sur des projets d’automatisation en entreprise, deux choses à retenir.
D’abord, GPT-5.5 devient une option crédible pour les workflows d’agent sérieux. Le fait qu’un acteur comme Databricks le valide après benchmark interne est un signal plus fort qu’un papier de recherche. Ces équipes ont leurs propres jeux d’évaluation et leurs propres exigences de coût/latence. Si le modèle passe leur filtre, il devrait passer le tien.
Ensuite, l’angle « agent » prend le pas sur l’angle « chatbot » dans le discours enterprise. La valeur ne vient plus du modèle qui répond mieux, mais du modèle qui exécute mieux. Pour un freelance ou un dev qui propose des solutions IA à ses clients, c’est le moment de monter en compétence sur les frameworks d’orchestration (LangGraph, Mosaic AI Agent Framework, OpenAI Agents SDK) plutôt que sur le prompting pur.
Mon analyse : l’intérêt de l’annonce tient moins au benchmark, largement documenté côté Databricks, qu’à ce qui reste opaque côté production — coût par requête, latence en charge réelle, volume effectif de tâches traitées. L’intégration reste un signal d’adoption concret, plus probant que dix papiers académiques quand il s’agit de mesurer l’usage réel de l’IA en entreprise. À suivre quand Databricks publiera ses propres métriques d’usage côté production.