Meta ouvre Llama 4 Scout en open source : 10 millions de tokens de contexte, une première dans l’IA

Meta frappe un grand coup. Le 28 mars 2026, l’entreprise de Mark Zuckerberg publie Llama 4 Scout en open source sous licence permissive — et avec lui, une fenêtre de contexte de 10 millions de tokens. Du jamais vu dans le monde open source. On décrypte ce que ça change concrètement pour toi.

Meta lance Llama 4 Scout, son modèle open source le plus ambitieux

La famille Llama 4 débarque avec deux modèles : Scout et Maverick. Scout est le modèle « léger » — entre guillemets, parce qu’on parle quand même de 109 milliards de paramètres au total. Mais grâce à son architecture MoE (Mixture of Experts), seuls 17 milliards de paramètres sont actifs à chaque inférence.

La vraie bombe : sa fenêtre de contexte de 10 millions de tokens. Pour situer, GPT-4 Turbo plafonne à 128K tokens, Claude 3.5 Sonnet à 200K. Llama 4 Scout va 50 à 80 fois plus loin.

« Llama 4 Scout tient sur un seul nœud de GPU H100 tout en offrant la fenêtre de contexte la plus large de sa catégorie. » — Meta AI, communiqué officiel

Fiche technique complète de Llama 4 Scout

Caractéristique	Llama 4 Scout	Llama 4 Maverick
Paramètres totaux	109B	400B
Paramètres actifs	17B	17B
Nombre d’experts	16	128
Fenêtre de contexte	10M tokens	1M tokens
Multimodal	Texte + Image	Texte + Image
Licence	Open source (Llama Community License)	Open source (Llama Community License)
Hardware minimum	1 nœud H100	1 nœud H100

Le point clé : Scout et Maverick partagent les mêmes 17B de paramètres actifs, mais Scout utilise 16 experts tandis que Maverick en mobilise 128. Résultat : Scout est plus léger à déployer, Maverick est plus puissant en raisonnement pur.

10 millions de tokens de contexte changent la donne pour les workflows IA

Avec 10 millions de tokens, tu peux charger dans une seule requête :

~7 500 pages de texte — l’équivalent de 15 romans complets
Un codebase entier de projet moyen (plusieurs centaines de fichiers)
Des mois d’historique conversationnel sans perdre le fil
Des bases documentaires complètes pour du RAG sans chunking

Concrètement, ça élimine une des plus grosses contraintes du développement IA actuel : le découpage artificiel des données en chunks pour tenir dans la fenêtre de contexte. Si tu travailles avec des API de modèles de langage, tu sais à quel point le context management est un casse-tête. Llama 4 Scout simplifie radicalement cette partie.

L’architecture Mixture of Experts rend le modèle accessible

Le choix de l’architecture MoE n’est pas anodin. Au lieu d’activer les 109 milliards de paramètres à chaque requête (ce qui exigerait un datacenter), Scout n’en active que 17 milliards via un système de routage intelligent entre 16 experts spécialisés.

Les avantages concrets :

Coût d’inférence réduit — comparable à un modèle de 17B paramètres classique
Vitesse de génération — latence acceptable même sur du matériel standard
Déploiement simplifié — un seul serveur avec 8 GPU H100 suffit

Pour les développeurs qui automatisent leurs workflows avec des outils comme Make ou n8n, c’est une excellente nouvelle : intégrer un modèle de cette puissance dans un pipeline d’automatisation devient réaliste sans exploser le budget cloud.

Benchmarks : Scout surpasse Gemma 3, Mistral et Qwen 2.5

Meta annonce que Llama 4 Scout bat ou égale les meilleurs modèles open source de sa catégorie sur la majorité des benchmarks standards :

Benchmark	Llama 4 Scout	Gemma 3 27B	Mistral 3.1 24B	Qwen 2.5 32B
MMLU	79.6	76.9	77.2	77.8
GPQA Diamond	57.2	42.4	44.1	49.0
HumanEval	78.6	75.4	72.8	76.1
MATH 500	81.8	74.2	71.9	78.3

Sur le raisonnement (GPQA Diamond), l’avance est significative : +15 points face à Gemma 3. Et face aux modèles propriétaires ? Scout se positionne entre GPT-4o et Gemini 2.0 Flash, ce qui est remarquable pour un modèle open source gratuit.

Cas d’usage concrets activés par cette fenêtre de contexte

Voici ce que les 10M de tokens débloquent en pratique :

Analyse de codebases complètes

Charge un repo GitHub entier dans le contexte. Demande un audit de sécurité, un refactoring global, ou une migration de framework — sans découper le projet en morceaux.

Assistants documentaires sans RAG

Fini le pipeline chunking → embedding → recherche vectorielle → reranking. Tu charges directement toute la documentation dans le contexte. Plus simple, plus fiable, moins de hallucinations liées à un mauvais retrieval.

Analyse de données massives

Des mois de logs, des datasets CSV complets, des rapports financiers annuels — tout tient dans une seule fenêtre de contexte.

Agents IA persistants

Un agent qui garde en mémoire des semaines d’interactions sans résumé ni compression. La continuité conversationnelle passe à un autre niveau.

La stratégie open source de Meta rebat les cartes

En publiant Llama 4 Scout en open source, Meta poursuit sa stratégie de commoditisation des LLM. L’objectif est transparent : si les modèles deviennent une commodité, la valeur migre vers les applications — terrain sur lequel Meta joue à domicile avec ses plateformes sociales.

Pour l’écosystème, c’est un accélérateur puissant :

Les startups accèdent à un modèle de classe mondiale sans payer de licence
Les chercheurs peuvent étudier et améliorer l’architecture MoE à 10M de contexte
Les développeurs peuvent fine-tuner Scout sur leurs données propriétaires
La communauté va produire des quantisations (GGUF, GPTQ) pour du déploiement local

La concurrence — OpenAI, Google, Anthropic — se retrouve sous pression. Quand un modèle gratuit atteint 80% des performances d’un modèle premium, le pricing power des APIs propriétaires fond. Tu peux déjà utiliser des outils IA gratuits pour de nombreux cas d’usage, et Llama 4 Scout élargit encore cette possibilité.

Ce qu’on retient

Llama 4 Scout marque un tournant. Pas parce que c’est le modèle le plus puissant — Maverick et les modèles propriétaires le surpassent encore en raisonnement pur. Mais parce qu’il combine trois éléments qui n’avaient jamais coexisté : une fenêtre de contexte massive (10M tokens), des performances compétitives, et une licence open source.

Pour les développeurs et les entreprises, la question n’est plus « peut-on se permettre un bon LLM ? » mais « comment exploiter cette puissance disponible gratuitement ? »

FAQ

Llama 4 Scout est-il vraiment gratuit ?

Oui, sous la Llama Community License de Meta. Tu peux l’utiliser commercialement, le modifier et le redistribuer. Seule restriction : les entreprises de plus de 700 millions d’utilisateurs mensuels doivent demander une licence spécifique.

Quel matériel faut-il pour faire tourner Llama 4 Scout ?

En configuration complète (10M de contexte), il faut un nœud de 8 GPU H100 (80 Go chacun). En quantisé avec une fenêtre réduite, des configurations plus modestes fonctionnent. Des versions GGUF pour usage local sont attendues rapidement via la communauté.

10 millions de tokens de contexte, c’est utilisable en pratique ?

Oui, mais avec des nuances. Le modèle gère techniquement 10M tokens, mais la latence augmente significativement au-delà de 1M. Pour la majorité des cas d’usage, 1-2M tokens offrent le meilleur rapport qualité/performance. Le contexte étendu reste précieux pour l’analyse de codebases ou de corpus documentaires massifs.

Comment Llama 4 Scout se compare-t-il à GPT-5.4 ou Claude Sonnet 4.6 ?

Sur les benchmarks, Scout se situe en dessous des meilleurs modèles propriétaires en raisonnement pur. Mais sa fenêtre de contexte de 10M tokens est inégalée, et son rapport performance/coût est imbattable puisqu’il est gratuit. Pour du raisonnement avancé, les modèles propriétaires gardent l’avantage.

Peut-on fine-tuner Llama 4 Scout sur ses propres données ?

Oui, c’est l’un des avantages majeurs de l’open source. Meta fournit les poids du modèle et la documentation pour le fine-tuning. Des frameworks comme Hugging Face TRL, Axolotl ou Unsloth supportent déjà l’architecture Llama 4.

Quelle différence entre Llama 4 Scout et Llama 4 Maverick ?

Les deux modèles ont 17B de paramètres actifs. Scout utilise 16 experts (109B total) avec 10M tokens de contexte — optimisé pour l’efficacité. Maverick utilise 128 experts (400B total) avec 1M tokens de contexte — optimisé pour la performance pure. Scout est plus facile à déployer, Maverick est plus puissant.