Actualités IA

Databricks adopte GPT-5.5 pour ses workflows d’agents en entreprise

· · 3 min de lecture

Databricks intègre GPT-5.5 dans ses workflows d’agents pour l’entreprise. Le partenariat a été annoncé par Databricks le 23 avril 2026, à la sortie de GPT-5.5, et consolidé par OpenAI dans une customer story publiée le 15 mai 2026. L’annonce s’appuie sur un argument précis : le nouveau modèle a établi un état de l’art sur le benchmark OfficeQA Pro, conçu pour évaluer les capacités des modèles sur des tâches métier réelles.

Pour le contexte : Databricks est devenu en quelques années une des plateformes de référence pour faire tourner de l’IA en entreprise, à côté de Snowflake et des hyperscalers. Le fait qu’ils rendent GPT-5.5 disponible nativement comme moteur d’agent sur leurs workflows enterprise, gouverné via Unity AI Gateway, n’est pas anodin. C’est un signal côté adoption : OpenAI ne se contente plus de vendre du chat, le modèle s’installe directement dans la couche d’orchestration des grandes entreprises.

Ce que dit OpenAI sur le déploiement

Selon la page officielle d’OpenAI, Databricks utilise GPT-5.5 pour ses workflows d’agents en entreprise. L’argument central mis en avant : la performance du modèle sur OfficeQA Pro, un benchmark construit à partir de 89 000 pages de bulletins du Trésor américain (U.S. Treasury Bulletins), dont la version Pro étend l’évaluation aux PDF scannés, fichiers legacy et documents long-contexte — testant parsing, retrieval, raisonnement grounded et calcul sur tables.

OpenAI parle d’un nouveau « state of the art » sur ce benchmark, et les chiffres sont publics et précis. Sur OfficeQA Pro Agent Harness (le modèle doit trouver les documents, les parser et calculer la réponse via le harness Codex), GPT-5.5 atteint 52,63 % contre 36,10 % pour GPT-5.4 — soit une réduction d’erreurs de 46 % et le premier passage de la barre des 50 %. Sur OfficeQA Pro avec Oracle PDF + Web Search (récupération déjà gérée), GPT-5.5 grimpe à 64,66 % contre 57,14 % pour GPT-5.4. Évaluation réalisée sur 133 questions OfficeQA Pro. Ce qui manque côté communiqué : la latence, le coût par requête et le volume de tâches en production.

Workflows d’agents : ce que ça recouvre concrètement

Un « workflow d’agent » chez Databricks, c’est typiquement une chaîne de tâches automatisées qui combine :

  • Lecture de documents ou de tables (Delta Lake, notebooks, fichiers internes)
  • Raisonnement et planification par le LLM
  • Appel à des outils (SQL, API internes, code Python)
  • Génération d’un livrable structuré (rapport, requête, action)

C’est exactement le terrain où un benchmark comme OfficeQA Pro a du sens. Là où ChatGPT en interface conversationnelle évalue surtout la qualité de réponse, OfficeQA mesure la capacité à chaîner des actions dans un environnement métier. Si GPT-5.5 décroche le haut du classement, ça veut dire qu’il gère mieux les tâches longues, le suivi d’instructions complexes et la manipulation de contexte étendu.

La part exacte du workflow qui passe par GPT-5.5 versus d’autres modèles n’est pas précisée dans le communiqué. Databricks a historiquement une approche multi-modèles, avec DBRX en interne et Llama, Claude (Anthropic) et Gemini (Google) accessibles via Mosaic AI Model Serving, donc l’intégration de GPT-5.5 ne signifie pas exclusivité.

Ce que ça change si tu construis avec l’IA

Si tu bosses sur des projets d’automatisation en entreprise, deux choses à retenir.

D’abord, GPT-5.5 devient une option crédible pour les workflows d’agent sérieux. Le fait qu’un acteur comme Databricks le valide après benchmark interne est un signal plus fort qu’un papier de recherche. Ces équipes ont leurs propres jeux d’évaluation et leurs propres exigences de coût/latence. Si le modèle passe leur filtre, il devrait passer le tien.

Ensuite, l’angle « agent » prend le pas sur l’angle « chatbot » dans le discours enterprise. La valeur ne vient plus du modèle qui répond mieux, mais du modèle qui exécute mieux. Pour un freelance ou un dev qui propose des solutions IA à ses clients, c’est le moment de monter en compétence sur les frameworks d’orchestration (LangGraph, Mosaic AI Agent Framework, OpenAI Agents SDK) plutôt que sur le prompting pur.

Mon analyse : l’intérêt de l’annonce tient moins au benchmark, largement documenté côté Databricks, qu’à ce qui reste opaque côté production — coût par requête, latence en charge réelle, volume effectif de tâches traitées. L’intégration reste un signal d’adoption concret, plus probant que dix papiers académiques quand il s’agit de mesurer l’usage réel de l’IA en entreprise. À suivre quand Databricks publiera ses propres métriques d’usage côté production.

Article relu le 21 mai 2026. Signaler une erreur.

Tristan Cavel

Développeur full-stack · Spécialiste APIs et agents IA

Tristan bidouille du code depuis le collège et construit des produits dessus depuis 2016. Il est passé par deux startups (une en edtech lyonnaise, une en fintech parisienne), et depuis 2022 il est freelance full-stack depuis Bordeaux, avec une spécialisation LLM et agents IA qui s'est imposée naturellement : c'était soit apprendre à utiliser l'API OpenAI, soit continuer à coder des formulaires de contact. Sa première intégration sérieuse d'un LLM date de janvier 2023, sur un prototype de bot de support pour une scale-up SaaS B2B lyonnaise. Depuis, il a poussé en prod chez huit clients différents : chatbots spécialisés, pipelines RAG avec bases vectorielles, agents autonomes avec n8n et LangChain, et récemment des intégrations Claude Code dans des workflows de dev. Il teste chaque nouvel outil dans son lab perso avant de le recommander à un client, c'est devenu son réflexe. Sur Zoom IA, il écrit les guides techniques qui ne trichent pas : API ChatGPT pour les vrais devs, comparatifs n8n vs Make avec le retour d'expérience honnête, installation d'agents autonomes, LangChain vs LangGraph sous l'angle ce qui pète en prod. Il signe aussi les benchmarks de modèles avec du code testé, pas des scores recopiés des papers. Son parti-pris éditorial : montrer le code, citer les versions exactes, donner les commandes qui marchent, et ne pas cacher ce qui est cassé dans les outils. Il maintient un repo GitHub perso avec les scripts qu'il partage.

Ne rate rien de l'actu IA

Le Brief IA, chaque semaine dans ta boite. Gratuit, concret, sans spam.