API ChatGPT OpenAI guide démarrage Python 2026
Outils IA

API ChatGPT : guide pratique pour bien démarrer en 2026

· · · 10 min de lecture

Mon premier appel API, c’était en novembre 2023. Je bossais sur un side project de résumé automatique de newsletters, et je me souviens avoir passé plus de temps à chercher ou générer ma clé qu’à écrire le code. Trois lignes de Python, un pip install openai, et la réponse du modèle s’affichait dans mon terminal. J’ai eu le sourire bête du dev qui vient de connecter deux trucs ensemble pour la première fois. Depuis, j’ai fait tourner cette API sur une quinzaine de projets, et je peux te dire que l’essentiel tient en 30 minutes de lecture.

Ce guide, c’est celui que j’aurais voulu trouver à l’époque. Pas la doc exhaustive d’OpenAI (elle fait 400 pages), mais le strict nécessaire pour lancer ton premier appel, comprendre les modèles, et ne pas te retrouver avec une facture surprise a la fin du mois.

L’API ChatGPT n’est pas ChatGPT (clarification importante)

Premier piège. Quand les gens tapent « api chatgpt » dans Google, la plupart pensent qu’ils vont connecter ChatGPT tel quel à leur application. Non.

ChatGPT, c’est le produit grand public d’OpenAI. L’interface web, l’app mobile, les abonnements à 20 $/mois. L’API OpenAI, c’est un service séparé. Tu paies au token (j’y reviens), tu n’as pas d’interface graphique, et tu interagis uniquement par requêtes HTTP.

Concrètement, les différences :

  • ChatGPT retient tes conversations. L’API est stateless : chaque requête est indépendante, sauf si tu renvoies toi-même l’historique
  • ChatGPT a un abonnement fixe. L’API facture à l’usage (au token)
  • ChatGPT inclut la recherche web, DALL-E, les GPTs custom. L’API te donne accès aux modèles bruts, et tu construis ce que tu veux par-dessus

L’API est faite pour les développeurs qui veulent intégrer un LLM dans leur propre application, automatisation ou workflow. Si tu veux juste chatter avec un modèle, reste sur ChatGPT avec un bon starter pack de prompts.

Créer ton compte et ta clé API en 5 minutes

Rien de compliqué. Voila les étapes :

  1. Va sur platform.openai.com et crée un compte (ou connecte-toi si tu as déjà un compte ChatGPT, c’est le même)
  2. Dans le dashboard, va dans Settings > API keys
  3. Clique « Create new secret key », donne-lui un nom descriptif (« mon-projet-test »), et copie la clé immédiatement

La clé commence par sk- et ressemble à ça : sk-proj-abc123.... Tu ne pourras plus la revoir après l’avoir fermée. Si tu la perds, il faut en regénérer une.

Deux trucs que j’ai appris à mes dépens :

Ne colle jamais ta clé en dur dans ton code. Stocke-la dans une variable d’environnement. La lib Python d’OpenAI cherche automatiquement la variable OPENAI_API_KEY, donc tu n’as même pas besoin de la passer explicitement au client.

Deuxième chose : mets un budget limit. Dans Settings > Limits, tu peux définir un plafond mensuel. Je mets systématiquement 50 $ sur mes projets perso pour éviter les mauvaises surprises. Si le plafond est atteint, l’API renvoie une erreur (typiquement HTTP 429 avec code insufficient_quota) au lieu de continuer à facturer.

OpenAI offre un crédit gratuit aux nouveaux comptes pour tester l’API. Le montant varie selon les périodes, mais ça te laisse largement de quoi expérimenter pendant quelques jours.

Ton premier appel en Python (code fonctionnel)

Installe la librairie :

pip install openai

Puis, dans un fichier test_api.py :

from openai import OpenAI

client = OpenAI()  # utilise OPENAI_API_KEY depuis l'env

response = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
        {"role": "system", "content": "Tu es un assistant concis."},
        {"role": "user", "content": "Explique les API REST en 3 phrases."}
    ]
)

print(response.choices[0].message.content)

Ça fait exactement 10 lignes. Exécute avec python test_api.py, et tu obtiens ta première réponse. J’ai choisi gpt-4o-mini parce que c’est le modèle le moins cher qui produit des réponses de qualité correcte pour du test.

Tu remarques la structure messages avec des rôles : system pour les instructions globales, user pour la question. Il existe aussi le rôle assistant (pour simuler un historique de conversation) et developer (introduit avec les modèles de raisonnement et désormais le rôle d’instructions recommandé sur les modèles récents). Pour un premier test, system + user suffisent.

OpenAI pousse aussi une nouvelle API appelée Responses API, qui simplifie certains cas d’usage et devient l’interface recommandée pour les nouveaux projets. Le Chat Completions endpoint reste largement supporté et c’est celui que tu trouveras dans la plupart des tutos et projets open source. Pour un premier test, l’un comme l’autre fait l’affaire.

Les modèles disponibles : lequel choisir

C’est le moment où ça devient stratégique. OpenAI propose une dizaine de modèles via l’API, mais quatre familles couvrent 90 % des cas d’usage :

GPT-4o et GPT-4o-mini

GPT-4o est le modèle polyvalent d’OpenAI. Multimodal (texte, images, audio), fenêtre de contexte de 128K tokens, bon pour à peu près tout. GPT-4o-mini est sa version allégée : moins performant sur les tâches complexes, mais 15 fois moins cher. Pour du classement, de l’extraction de données ou des résumés simples, mini fait le job.

GPT-4.1, GPT-4.1-mini, GPT-4.1-nano

La série 4.1 est optimisée pour le code et les instructions longues, avec une fenêtre de contexte d’1 million de tokens (bien plus large que les 128K de GPT-4o). Si tu construis un agent qui doit suivre un prompt system de 3 000 tokens a la lettre, GPT-4.1 sera plus fiable que 4o. Le nano est le modèle le moins cher de la gamme GPT-4.1 (0,10 $ par million de tokens en input). Je l’utilise beaucoup pour les tâches de classification binaire oui/non ou c’est du gaspillage d’appeler un gros modèle.

o3 et o4-mini (modèles de raisonnement)

Les modèles « o » sont différents. Ils « réfléchissent » avant de répondre, en générant une chaîne de raisonnement interne. Ca les rend meilleurs sur les problèmes de maths, de logique ou de programmation complexe. En contrepartie, ils sont plus lents et plus chers (tu paies les tokens de raisonnement en plus). Je les réserve aux cas où un modèle généraliste se trompe de manière répétée sur un problème logique.

Mon conseil

Commence avec GPT-4o-mini pour itérer vite et pas cher. Monte sur GPT-4o ou GPT-4.1 quand la qualité de mini ne suffit pas. Utilise o3 uniquement pour les cas où le raisonnement complexe fait une vraie différence. Et si tu veux le bleeding edge, GPT-5.5 est le dernier modèle phare annoncé par OpenAI (avril 2026), avec GPT-5.4 juste en dessous, mais leur pricing API est plus élevé.

Combien ca coûte : pricing par token avec exemples concrets

L’API facture au token. Un token, c’est environ 0,75 mot en anglais et un peu moins en français (compte plutôt 1 mot ≈ 1,5 token en français, le tokenizer OpenAI étant optimisé pour l’anglais). Chaque requête a un coût d’input (ce que tu envoies) et un coût d’output (ce que le modèle génère).

Modèle Input ($/1M tokens) Output ($/1M tokens) Quand l’utiliser
GPT-4o 2,50 $ 10,00 $ Modèle principal polyvalent
GPT-4o-mini 0,15 $ 0,60 $ Tâches simples, gros volumes
GPT-4.1 2,00 $ 8,00 $ Code, instructions longues
GPT-4.1-mini 0,40 $ 1,60 $ Compromis qualité/coût
GPT-4.1-nano 0,10 $ 0,40 $ Classification, extraction légère
o3 2,00 $ 8,00 $ Raisonnement avancé
o4-mini 1,10 $ 4,40 $ Raisonnement économique

En concret, ça donne quoi ?

Exemple 1 : un chatbot support client. Tu envoies un prompt system de 300 tokens + la question du client de 100 tokens. Le modèle répond en 200 tokens. Avec GPT-4o-mini, ça te coûte : (400 x 0,00000015) + (200 x 0,0000006) = 0,000018 $. Soit 18 millionièmes de dollar. Pour 10 000 requêtes par jour, tu arrives a 5,40 $ par mois.

Exemple 2 : un pipeline de résumé d’articles. Tu envoies un article de 2 000 mots (environ 2 700 tokens d’input) et tu demandes un résumé de 300 mots (400 tokens d’output). Avec GPT-4o : (2700 x 0,0000025) + (400 x 0,00001) = 0,0107 $. Pour 100 articles par jour, ça fait 32 $ par mois. Avec GPT-4o-mini, le même pipeline tombe a 1,65 $ par mois.

J’ai fait l’erreur une fois de lancer un prototype sur GPT-4o sans calculer, puis de réaliser deux semaines plus tard que GPT-4o-mini donnait des résultats quasi identiques sur mon cas d’usage. Calcule toujours avant de choisir le modèle.

Streaming, function calling, JSON mode : 3 features a utiliser tout de suite

Le streaming

Par défaut, l’API attend que le modèle ait fini de générer toute sa réponse avant de te la renvoyer. Avec le streaming, tu reçois les tokens au fur et à mesure. Pour un chatbot, ça change tout : l’utilisateur voit le texte apparaître en temps réel au lieu d’attendre 3-5 secondes dans le vide.

stream = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": "Raconte-moi une histoire courte."}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

Ajouter stream=True, itérer sur les chunks. C’est tout.

Le function calling

C’est la feature qui transforme un LLM en agent capable d’agir. Tu déclares des « fonctions » que le modèle peut appeler (chercher dans une base de données, envoyer un email, récupérer la météo), et le modèle décide quand les invoquer en fonction de la conversation. Il ne les exécute pas lui-même : il te renvoie un JSON avec le nom de la fonction et les arguments, et c’est ton code qui l’exécute.

J’utilise ça sur pratiquement tous mes projets. Un exemple type : un assistant qui peut chercher dans une base de connaissances interne. L’utilisateur pose une question, le modèle appelle search_knowledge_base(query="..."), ton code fait la recherche, tu renvoies le résultat au modèle, et il formule une réponse naturelle.

Le JSON mode et les Structured Outputs

Si tu veux que le modèle te renvoie du JSON valide (pas du texte libre avec du JSON approximatif au milieu), tu as deux options :

  • response_format={"type": "json_object"} : force une sortie JSON valide. Simple mais pas de validation de schema
  • Structured Outputs : tu définis un JSON Schema exact, et le modèle est garanti de le respecter. Plus strict, plus fiable, indispensable quand tu pipeline la sortie dans un autre système

Pour l’extraction de données structurées (parser des CV, extraire des infos de factures, classifier des tickets), les Structured Outputs m’ont fait gagner des heures de regex et de post-processing bancal.

Les limites a connaître avant de scaler

L’API n’est pas un buffet à volonté. Trois types de limites a avoir en tête :

Les rate limits. OpenAI organise ses utilisateurs en tiers (de Free a Tier 5). Plus tu dépenses, plus tes limites montent. Sur le tier gratuit, tu es limité à quelques requêtes par minute. Sur Tier 1 (après avoir ajouté un moyen de paiement, dépensé 5 $ et attendu environ 7 jours), les limites deviennent confortables pour la plupart des projets. Les limites portent sur trois axes : requêtes par minute (RPM), tokens par minute (TPM), et requêtes par jour (RPD).

Les limites de contexte. Chaque modèle a une fenêtre de contexte maximale. GPT-4o accepte 128 000 tokens en entrée (environ 96 000 mots), tandis que GPT-4.1 monte jusqu’à 1 million de tokens. Ça paraît énorme, mais si tu fais du RAG avec des documents longs, tu peux l’atteindre. Et attention : plus le contexte est long, plus la requête coûte cher et plus le modèle met du temps a répondre.

La content policy. L’API refuse de générer certains contenus (violence explicite, contenu sexuel, désinformation, etc.). Si ta requête est bloquée, tu reçois une erreur 400 avec un message explicite. C’est rarement un problème pour des cas d’usage business, mais ça peut surprendre si tu développes un outil créatif sans filtres.

Mon retour après deux ans d’utilisation : les rate limits ne sont un vrai problème que si tu fais du batch processing massif (des milliers d’appels simultanés). Pour un chatbot, un outil interne ou un workflow d’automatisation classique, les limites Tier 1 suffisent largement.

Alternatives API : Claude, Gemini, Mistral

Note de mise à jour : ce comparatif référence GPT-4o et Gemini 2.5 Flash, désormais datés. OpenAI a depuis publié la famille GPT-5 (GPT-5.5 comme modèle phare, sorti en avril 2026) et Google la génération Gemini 3.x. Les ordres de grandeur de prix et de positionnement restent indicatifs, mais consultez les pages de tarifs officielles pour les chiffres à jour.

L’API OpenAI n’est pas la seule option. J’utilise aussi celles d’Anthropic, Google et Mistral selon les projets. Comparatif rapide :

API Modèle phare Input ($/1M tokens) Output ($/1M tokens) Point fort
OpenAI GPT-4o 2,50 $ 10,00 $ Ecosystème le plus mature, function calling robuste
Anthropic Claude Sonnet 4.6 3,00 $ 15,00 $ Suivi d’instructions long, code, sécurité
Google Gemini 2.5 Flash 0,30 $ 2,50 $ Le moins cher, multimodal natif
Mistral Mistral Large 3 0,50 $ 1,50 $ Open-weight, hébergement possible en local

Si le prix est ta priorité absolue, Gemini 2.5 Flash est imbattable. Si tu veux le meilleur suivi d’instructions longues et la meilleure sécurité, l’API Claude d’Anthropic est un choix solide (j’ai d’ailleurs migré deux projets d’OpenAI vers Claude l’année dernière). Si tu veux rester dans l’écosystème le plus riche en outils tiers et en documentation communautaire, OpenAI reste le choix par défaut.

Un conseil : la plupart des frameworks (LangChain, LlamaIndex, Vercel AI SDK) supportent tous ces providers avec un changement de deux lignes. Ne te marie pas avec un seul fournisseur. J’ai un fichier de config dans mes projets où je peux basculer de GPT-4o a Claude Sonnet en changeant une variable d’environnement.

Par ou commencer maintenant

Si tu as lu jusqu’ici, tu as 80 % de ce qu’il faut pour démarrer. Voici mon plan en 3 étapes :

  1. Crée ta clé API sur platform.openai.com, mets un budget limit a 10 $, et lance le code Python de la section 3. Ça prend 5 minutes
  2. Itère sur ton cas d’usage avec GPT-4o-mini. Teste différents prompts, ajuste le system message. Quand le résultat te convient, calcule le coût par requête et décide si tu dois monter de modèle
  3. Ajoute le streaming si c’est un chatbot, ou les Structured Outputs si tu extrais des données. C’est là que l’API devient vraiment utile par rapport à du copier-coller depuis ChatGPT

Le piège classique du développeur qui débute avec l’API, c’est de vouloir utiliser le plus gros modèle « au cas où ». J’ai fait cette erreur. Commence petit, mesure, et monte en gamme uniquement quand les résultats l’exigent.

Et si tu veux aller plus loin sur la manière de formuler tes prompts pour obtenir de meilleures réponses, que ce soit via l’API ou via l’interface, j’ai écrit un guide starter pack ChatGPT qui couvre les techniques essentielles. Pour le côté budget, mon article sur combien coûte ChatGPT détaille tous les plans et les coûts cachés.

Article relu le 20 avril 2026. Signaler une erreur.

Tristan Cavel

Développeur full-stack · Spécialiste APIs et agents IA

Tristan bidouille du code depuis le collège et construit des produits dessus depuis 2016. Il est passé par deux startups (une en edtech lyonnaise, une en fintech parisienne), et depuis 2022 il est freelance full-stack depuis Bordeaux, avec une spécialisation LLM et agents IA qui s'est imposée naturellement : c'était soit apprendre à utiliser l'API OpenAI, soit continuer à coder des formulaires de contact. Sa première intégration sérieuse d'un LLM date de janvier 2023, sur un prototype de bot de support pour une scale-up SaaS B2B lyonnaise. Depuis, il a poussé en prod chez huit clients différents : chatbots spécialisés, pipelines RAG avec bases vectorielles, agents autonomes avec n8n et LangChain, et récemment des intégrations Claude Code dans des workflows de dev. Il teste chaque nouvel outil dans son lab perso avant de le recommander à un client, c'est devenu son réflexe. Sur Zoom IA, il écrit les guides techniques qui ne trichent pas : API ChatGPT pour les vrais devs, comparatifs n8n vs Make avec le retour d'expérience honnête, installation d'agents autonomes, LangChain vs LangGraph sous l'angle ce qui pète en prod. Il signe aussi les benchmarks de modèles avec du code testé, pas des scores recopiés des papers. Son parti-pris éditorial : montrer le code, citer les versions exactes, donner les commandes qui marchent, et ne pas cacher ce qui est cassé dans les outils. Il maintient un repo GitHub perso avec les scripts qu'il partage.

Ne rate rien de l'actu IA

Le Brief IA, chaque semaine dans ta boite. Gratuit, concret, sans spam.