Glossaire IA – Zoom IA

Glossaire IA : 50+ Termes Essentiels

Le vocabulaire de l’intelligence artificielle peut être intimidant. Ce glossaire vous donne des définitions claires, des exemples concrets et des liens vers nos articles pour approfondir.

Agent IA

Concepts

Un programme autonome capable d’effectuer des tâches complexes en utilisant l’IA pour prendre des décisions. Contrairement à un simple chatbot, un agent peut utiliser des outils, interagir avec des APIs et accomplir des objectifs multi-étapes.

Exemple : Un agent IA qui réserve automatiquement vos voyages en analysant vos emails, comparant les prix et gérant les réservations.

API (Application Programming Interface)

Technique

Interface qui permet à différents logiciels de communiquer. Dans le contexte IA, les APIs permettent d’intégrer des modèles comme GPT-4 dans vos applications sans gérer l’infrastructure.

Exemple : L’API OpenAI vous permet d’envoyer du texte et recevoir une réponse générée par GPT-4 en quelques lignes de code.

Biais Algorithmique

Éthique

Tendance d’un modèle IA à produire des résultats systématiquement injustes envers certains groupes, souvent due à des données d’entraînement déséquilibrées ou à des choix de conception problématiques.

Exemple : Un algorithme de recrutement qui défavorise systématiquement les candidatures féminines car entraîné sur des données historiques sexistes.

Chatbot

Applications

Programme conversationnel capable de dialoguer avec des humains via texte ou voix. Les chatbots modernes comme ChatGPT utilisent des LLMs pour générer des réponses contextuelles.

Exemple : ChatGPT, Claude, ou les assistants virtuels de service client sur les sites e-commerce.

Computer Vision

Domaines

Branche de l’IA qui permet aux ordinateurs d’interpréter et comprendre le contenu visuel (images, vidéos). Utilise des réseaux de neurones convolutifs (CNN).

Exemple : La reconnaissance faciale, la détection d’objets dans les voitures autonomes, ou l’analyse médicale d’images radiologiques.

Dataset (Jeu de Données)

Technique

Collection organisée de données utilisée pour entraîner, valider ou tester un modèle d’IA. La qualité et la taille du dataset influencent directement les performances du modèle.

Exemple : ImageNet (14M d’images annotées), Common Crawl (texte web), ou vos propres données clients pour un modèle personnalisé.

Deep Learning

Concepts

Sous-ensemble du machine learning utilisant des réseaux de neurones à multiples couches. « Deep » fait référence au nombre de couches (profondeur). Particulièrement efficace pour images, texte et audio.

Exemple : GPT-4 utilise des dizaines de milliards de paramètres répartis sur de nombreuses couches pour comprendre et générer du texte.

Embedding

Technique

Représentation numérique (vecteur) d’un mot, phrase ou concept qui capture sa signification sémantique. Permet aux modèles de mesurer la similarité entre textes.

Exemple : Les mots « roi » et « reine » auront des embeddings proches car sémantiquement liés, contrairement à « roi » et « banane ».

Fine-Tuning

Technique

Processus d’adaptation d’un modèle pré-entraîné à une tâche spécifique en l’entraînant sur un dataset ciblé. Plus rapide et moins coûteux que l’entraînement from scratch.

Exemple : Adapter GPT-4 à la rédaction de documents légaux en le fine-tunant sur des milliers de contrats.

GAN (Generative Adversarial Network)

Modèles

Architecture où deux réseaux s’affrontent : un générateur crée des données synthétiques, un discriminateur tente de les distinguer des vraies. Le générateur s’améliore jusqu’à tromper le discriminateur.

Exemple : Création de visages humains ultra-réalistes (ThisPersonDoesNotExist.com), génération d’images artistiques.

GPT (Generative Pre-trained Transformer)

Modèles

Famille de modèles de langage développés par OpenAI. Pré-entraînés sur d’énormes corpus de texte, capables de générer du texte cohérent et de comprendre le contexte.

Exemple : GPT-4, GPT-3.5 Turbo utilisés dans ChatGPT, ou GPT-4V qui analyse aussi les images.

Hallucination

Limites

Phénomène où un LLM génère des informations fausses ou inventées présentées avec confiance comme si elles étaient vraies. Problème majeur de fiabilité des IA génératives.

Exemple : ChatGPT invente des références bibliographiques inexistantes ou cite des statistiques erronées en semblant certain.

Inférence

Technique

Phase d’utilisation d’un modèle entraîné pour faire des prédictions sur de nouvelles données. Contrairement à l’entraînement, l’inférence est rapide et peu coûteuse.

Exemple : Quand vous discutez avec ChatGPT, le modèle est en phase d’inférence — il ne s’entraîne pas, il applique ce qu’il a appris.

LLM (Large Language Model)

Modèles

Modèle de langage entraîné sur des milliards de mots pour comprendre et générer du texte. « Large » fait référence au nombre de paramètres (souvent >1B).

Exemple : GPT-4 (OpenAI), Claude (Anthropic), Gemini (Google), Llama (Meta).

Machine Learning

Concepts

Sous-domaine de l’IA où les algorithmes apprennent à partir de données plutôt que d’être explicitement programmés. Inclut le deep learning, les arbres de décision, SVM, etc.

Exemple : Un filtre anti-spam qui apprend à reconnaître les emails indésirables en analysant des milliers d’exemples.

Multimodal

Capacités

Modèle capable de traiter plusieurs types de données (texte, image, audio, vidéo) simultanément. Les modèles multimodaux comprennent les relations entre modalités.

Exemple : GPT-4V analyse une photo et répond à des questions dessus, Gemini peut comprendre vidéo + audio + texte ensemble.

NLP (Natural Language Processing)

Domaines

Traitement automatique du langage naturel. Permet aux machines de comprendre, interpréter et générer le langage humain (écrit ou parlé).

Exemple : Traduction automatique, analyse de sentiment, résumé de texte, extraction d’entités nommées.

Neural Network (Réseau de Neurones)

Technique

Architecture inspirée du cerveau humain composée de neurones artificiels organisés en couches. Chaque neurone effectue un calcul simple, mais l’ensemble peut apprendre des patterns complexes.

Exemple : Un réseau de neurones peut apprendre à reconnaître des chats en analysant des milliers d’images annotées.

Overfitting (Surapprentissage)

Limites

Phénomène où un modèle performe excellemment sur les données d’entraînement mais échoue sur de nouvelles données car il a mémorisé au lieu d’apprendre des patterns généralisables.

Exemple : Un modèle qui reconnaît parfaitement 1000 images de chats vues à l’entraînement mais échoue sur de nouvelles photos de chats.

Paramètre

Technique

Valeur interne du modèle ajustée pendant l’entraînement. Plus un modèle a de paramètres, plus il peut être puissant (mais aussi coûteux et lent).

Exemple : GPT-3 a 175 milliards de paramètres, GPT-4 en aurait plus de 1000 milliards (non confirmé officiellement).

Prompt

Usage

Instruction textuelle donnée à un LLM pour obtenir une réponse. La qualité du prompt influence directement la qualité de la sortie (d’où le « prompt engineering »).

Exemple : « Résume ce texte en 3 points » est un prompt simple. « Analyse ce contrat et liste les clauses risquées pour le vendeur » est plus spécifique.

RAG (Retrieval-Augmented Generation)

Technique

Méthode combinant recherche de documents pertinents et génération de texte. Le modèle cherche d’abord des informations dans une base de connaissance avant de générer sa réponse.

Exemple : Un chatbot qui cherche dans la documentation de votre entreprise avant de répondre aux questions, réduisant les hallucinations.

Reinforcement Learning

Concepts

Apprentissage par essai-erreur où un agent reçoit des récompenses/punitions pour ses actions. Utilisé pour les jeux, robotique, et affiner les LLMs (RLHF).

Exemple : AlphaGo a battu les champions de Go en jouant des millions de parties et en apprenant quelles stratégies mènent à la victoire.

Supervised Learning (Apprentissage Supervisé)

Concepts

Méthode d’entraînement où le modèle apprend à partir de données labellisées (entrées avec réponses correctes connues). Opposé à l’apprentissage non supervisé.

Exemple : Entraîner un classificateur d’emails spam avec 10 000 emails déjà marqués « spam » ou « légitime ».

Token

Technique

Unité de texte traitée par un LLM (mot, sous-mot ou caractère). Les APIs IA facturent souvent au nombre de tokens. 1 token ≈ 0.75 mot en anglais, moins en français.

Exemple : « Intelligence artificielle » = 3 tokens. GPT-4 peut traiter jusqu’à 128 000 tokens en une fois (environ 96 000 mots).

Transformer

Architecture

Architecture de réseau de neurones révolutionnaire (2017) utilisant des mécanismes d’attention. Base de tous les LLMs modernes (GPT, BERT, T5, etc.).

Exemple : Le « T » dans GPT signifie Transformer. Cette architecture permet de traiter le contexte entier d’un texte simultanément.

Vector Database

Infrastructure

Base de données optimisée pour stocker et rechercher des embeddings vectoriels. Essentielle pour RAG, recherche sémantique et systèmes de recommandation IA.

Exemple : Pinecone, Weaviate, ChromaDB permettent de trouver rapidement les documents les plus similaires à une requête utilisateur.

Zero-Shot Learning

Capacités

Capacité d’un modèle à effectuer une tâche sans avoir été spécifiquement entraîné dessus. Les LLMs excellent en zero-shot grâce à leur pré-entraînement massif.

Exemple : Demander à GPT-4 de traduire en swahili alors qu’il n’a jamais vu d’exemples de traduction vers cette langue pendant son entraînement.

Vous ne trouvez pas un terme? Suggérez-le nous et nous l’ajouterons au glossaire.

Pour aller plus loin: Consultez nos ressources externes pour des cours complets, papers académiques et datasets.