Glossaire IA : 50+ Termes Essentiels
Le vocabulaire de l’intelligence artificielle peut être intimidant. Ce glossaire vous donne des définitions claires, des exemples concrets et des liens vers nos articles pour approfondir.
Un programme autonome capable d’effectuer des tâches complexes en utilisant l’IA pour prendre des décisions. Contrairement à un simple chatbot, un agent peut utiliser des outils, interagir avec des APIs et accomplir des objectifs multi-étapes.
Interface qui permet à différents logiciels de communiquer. Dans le contexte IA, les APIs permettent d’intégrer des modèles comme GPT-4 dans vos applications sans gérer l’infrastructure.
Tendance d’un modèle IA à produire des résultats systématiquement injustes envers certains groupes, souvent due à des données d’entraînement déséquilibrées ou à des choix de conception problématiques.
Programme conversationnel capable de dialoguer avec des humains via texte ou voix. Les chatbots modernes comme ChatGPT utilisent des LLMs pour générer des réponses contextuelles.
Branche de l’IA qui permet aux ordinateurs d’interpréter et comprendre le contenu visuel (images, vidéos). Utilise des réseaux de neurones convolutifs (CNN).
Collection organisée de données utilisée pour entraîner, valider ou tester un modèle d’IA. La qualité et la taille du dataset influencent directement les performances du modèle.
Sous-ensemble du machine learning utilisant des réseaux de neurones à multiples couches. « Deep » fait référence au nombre de couches (profondeur). Particulièrement efficace pour images, texte et audio.
Représentation numérique (vecteur) d’un mot, phrase ou concept qui capture sa signification sémantique. Permet aux modèles de mesurer la similarité entre textes.
Processus d’adaptation d’un modèle pré-entraîné à une tâche spécifique en l’entraînant sur un dataset ciblé. Plus rapide et moins coûteux que l’entraînement from scratch.
Architecture où deux réseaux s’affrontent : un générateur crée des données synthétiques, un discriminateur tente de les distinguer des vraies. Le générateur s’améliore jusqu’à tromper le discriminateur.
Famille de modèles de langage développés par OpenAI. Pré-entraînés sur d’énormes corpus de texte, capables de générer du texte cohérent et de comprendre le contexte.
Phénomène où un LLM génère des informations fausses ou inventées présentées avec confiance comme si elles étaient vraies. Problème majeur de fiabilité des IA génératives.
Phase d’utilisation d’un modèle entraîné pour faire des prédictions sur de nouvelles données. Contrairement à l’entraînement, l’inférence est rapide et peu coûteuse.
Modèle de langage entraîné sur des milliards de mots pour comprendre et générer du texte. « Large » fait référence au nombre de paramètres (souvent >1B).
Sous-domaine de l’IA où les algorithmes apprennent à partir de données plutôt que d’être explicitement programmés. Inclut le deep learning, les arbres de décision, SVM, etc.
Modèle capable de traiter plusieurs types de données (texte, image, audio, vidéo) simultanément. Les modèles multimodaux comprennent les relations entre modalités.
Traitement automatique du langage naturel. Permet aux machines de comprendre, interpréter et générer le langage humain (écrit ou parlé).
Architecture inspirée du cerveau humain composée de neurones artificiels organisés en couches. Chaque neurone effectue un calcul simple, mais l’ensemble peut apprendre des patterns complexes.
Phénomène où un modèle performe excellemment sur les données d’entraînement mais échoue sur de nouvelles données car il a mémorisé au lieu d’apprendre des patterns généralisables.
Valeur interne du modèle ajustée pendant l’entraînement. Plus un modèle a de paramètres, plus il peut être puissant (mais aussi coûteux et lent).
Instruction textuelle donnée à un LLM pour obtenir une réponse. La qualité du prompt influence directement la qualité de la sortie (d’où le « prompt engineering »).
Méthode combinant recherche de documents pertinents et génération de texte. Le modèle cherche d’abord des informations dans une base de connaissance avant de générer sa réponse.
Apprentissage par essai-erreur où un agent reçoit des récompenses/punitions pour ses actions. Utilisé pour les jeux, robotique, et affiner les LLMs (RLHF).
Méthode d’entraînement où le modèle apprend à partir de données labellisées (entrées avec réponses correctes connues). Opposé à l’apprentissage non supervisé.
Unité de texte traitée par un LLM (mot, sous-mot ou caractère). Les APIs IA facturent souvent au nombre de tokens. 1 token ≈ 0.75 mot en anglais, moins en français.
Architecture de réseau de neurones révolutionnaire (2017) utilisant des mécanismes d’attention. Base de tous les LLMs modernes (GPT, BERT, T5, etc.).
Base de données optimisée pour stocker et rechercher des embeddings vectoriels. Essentielle pour RAG, recherche sémantique et systèmes de recommandation IA.
Capacité d’un modèle à effectuer une tâche sans avoir été spécifiquement entraîné dessus. Les LLMs excellent en zero-shot grâce à leur pré-entraînement massif.
Vous ne trouvez pas un terme? Suggérez-le nous et nous l’ajouterons au glossaire.
Pour aller plus loin: Consultez nos ressources externes pour des cours complets, papers académiques et datasets.