Kimi, Qwen, DeepSeek : le trio LLM open source chinois à tester en 2026

Trio LLM open source chinois — mai 2026

Kimi K2.6 (Moonshot, 20 avril 2026) — MoE 1T/32B activés, contexte 256K, MIT modifiée, agentique multimodal
Qwen3.6-27B (Alibaba, 22 avril 2026) — flagship open-weight Apache 2.0, écosystème mature (450+ modèles sur HF)
DeepSeek V4 Pro (24 avril 2026) — MoE 1,6T/49B activés, contexte 1M, MIT, le plus gros open-weight du trio
Pricing API : V4 Flash 0,14/0,28 $/M, V4 Pro 0,435/0,87 $/M (promo -75 % jusqu’au 31/05), tarif plein 1,74/3,48 $/M

Sources vérifiées : Artificial Analysis · HF DeepSeek · HF Qwen · HF Moonshot

Le 27 janvier 2025, j’étais en train de déployer un microservice quand le canal Slack d’un client a explosé. L’action Nvidia venait de perdre 17 % en une journée (jusqu’à 18 % en intraday), soit près de 589 milliards de dollars de capitalisation — plus grosse chute d’une seule entreprise jamais vue à la bourse de New York. La raison : une startup chinoise quasi inconnue du grand public, DeepSeek, avait sorti une semaine plus tôt un modèle de raisonnement (R1) qui rivalisait avec OpenAI o1 pour une fraction du coût. J’ai ouvert un compte sur leur plateforme le soir même.

Depuis, je re-teste les LLMs chinois tous les trois mois. Trois noms sortent du lot en 2026 : Kimi (Moonshot), Qwen (Alibaba), DeepSeek. Tous classés top 10 sur l’Intelligence Index d’Artificial Analysis, tous ouverts en poids pour la majorité de leurs variantes, et tous absents des médias tech français. Voici ce que trois jours de tests API m’ont appris.

Le trio chinois qui bouscule l’ordre établi des LLMs en 2026

L’écosystème média FR couvre OpenAI, Anthropic, Google et Mistral. C’est à peu près tout. Quand je tape « LLM chinois » dans Google.fr en mai 2026, les trois premiers résultats datent de 2024 et parlent encore de Qwen 2.5 comme s’il s’agissait de la dernière version. Pendant ce temps, sur l’Intelligence Index d’Artificial Analysis (mesure agrégée de raisonnement, code et connaissance), Kimi K2.6 affiche un score de 54 et DeepSeek V4 Pro de 52 — soit dans le mouchoir de poche de Claude Opus 4.7 (57) et derrière GPT-5.5 (60) qui reste en tête.

Cette invisibilité éditoriale a une conséquence concrète : la majorité des devs FR que je croise en mission ne savent pas qu’ils peuvent appeler une API qui code aussi bien que GPT-5.5 pour 6 fois moins cher. Cet article remet les pendules à l’heure avec des tests réels, pas des benchmarks marketing.

Précision avant d’aller plus loin : je ne suis pas en train de te dire que ces modèles sont meilleurs que ceux d’OpenAI ou Anthropic. Ils ne le sont pas, en moyenne. La question n’est pas la moyenne, c’est le ratio qualité-prix pour des cas d’usage précis. Et là, le match devient intéressant.

Kimi (Moonshot AI) : le champion du context window qui fait pâlir Gemini

Moonshot AI est une startup pékinoise fondée en mars 2023 par Yang Zhilin (PhD Carnegie Mellon, ex-Google Brain) avec Zhou Xinyu et Wu Yuxin, anciens étudiants de l’université Tsinghua. Leur produit phare, Kimi, a commencé sa carrière avec un argument unique : un context window monstre. La version actuelle, Kimi K2.6, sortie le 20 avril 2026, est nativement multimodale et conserve cette signature « long context » qui a fait la marque de la maison.

Côté open source, c’est l’un des trois où ça devient sérieux. Les poids de Kimi K2 sont publiés sur Hugging Face sous une licence MIT modifiée. Architecture MoE (Mixture of Experts) : 1 000 milliards de paramètres totaux, 32 milliards activés par token, 384 experts par couche (8 routés + 1 partagé). Context window de 256K tokens (262 144) en version weights publiques.

Sur l’API hébergée par Moonshot (platform.kimi.ai), le tarif moyen calculé par Artificial Analysis tourne à 1,71 $ par million de tokens output. À titre de comparaison, GPT-5.5 est à 11,25 $ et Claude Opus 4.7 à 10,94 $. Tu fais le calcul du ratio toi-même.

Mon avis après trois jours de tests : Kimi est solide en raisonnement long, excellent quand tu lui balances un PDF technique de 200 pages et que tu lui demandes de faire des liens entre les chapitres. Sur du code pur, il est correct mais derrière DeepSeek. Sur du français, il est bien meilleur que ce que je redoutais.

Qwen (Alibaba Cloud) : l’écosystème le plus complet avec VL, Code et Math

Qwen est l’écurie d’Alibaba, et c’est sans doute la stack la plus dense de l’écosystème open source mondial, toutes nationalités confondues. L’organisation Qwen sur Hugging Face héberge plus de 450 modèles différents au moment où j’écris : variantes Coder, VL (vision-language), Math, ASR, TTS, image, traduction.

La famille en production est aujourd’hui Qwen 3.5 / 3.6 (sortie en 2026), et la variante qui m’intéresse le plus côté dev reste Qwen3-Coder-480B-A35B-Instruct. Architecture MoE à 480 milliards de paramètres totaux, 35 milliards activés, 160 experts dont 8 actifs. Context natif de 256 000 tokens, extensible à 1 million via Yarn. Licence Apache 2.0 — donc utilisation commerciale sans contrainte, le standard le plus permissif du marché.

Côté API, Alibaba expose Qwen via DashScope. Les tarifs varient selon la variante. La version flagship grand public, Qwen3-Max, est facturée autour des prix concurrentiels du marché (vérifier sur DashScope avant de budgéter, les prix bougent souvent).

J’ai sous-estimé Qwen pendant des mois. Je le considérais comme un Llama chinois sans originalité. Après avoir testé Qwen3-Coder sur trois projets réels (un script de migration de base de données, un refactor d’un module Python legacy, une analyse de logs serveur), j’ai changé d’avis. La variante Code est aujourd’hui l’une des meilleures alternatives open source à Claude Code que j’aie utilisées. Le fait qu’elle soit Apache 2.0 te permet de l’auto-héberger sans payer un kopeck à Alibaba si tu as le GPU pour.

DeepSeek (DeepSeek AI) : le challenger qui a choqué Wall Street en janvier 2025

L’histoire courte : DeepSeek est une filiale de High-Flyer, un fonds de gestion quantitatif chinois, fondé par Liang Wenfeng. Le 20 janvier 2025, ils sortent DeepSeek-R1, un modèle de raisonnement. Une semaine plus tard, l’application DeepSeek dépasse ChatGPT en tête de l’App Store américain. Le 27 janvier, Nvidia perd 17 % en une journée, soit environ 589 milliards de dollars de capitalisation. Source : la page Wikipédia DeepSeek qui fait un excellent récap de l’épisode avec les sources presse.

L’onde de choc venait d’un détail qui rendait le management Nvidia nerveux : DeepSeek prétendait avoir entraîné V3 (le modèle de base de R1) pour environ 6 millions de dollars, contre 100 millions estimés pour GPT-4. Avec, selon leurs claims, un dixième de la puissance de calcul utilisée par Meta pour des modèles comparables. Personne dans le monde du venture capital US n’avait vu ça venir.

Aujourd’hui, en mai 2026, la version qui fait tourner leur API s’appelle deepseek-v4-flash (1M de context, optimisé latence) et deepseek-v4-pro (1M de context, raisonnement). Les anciens modèles deepseek-chat et deepseek-reasoner sont dépréciés le 24 juillet 2026 à 15h59 UTC (sans période de grâce, pas de fallback automatique — prévoir la migration en amont). Pricing sur api-docs.deepseek.com vérifié à la rédaction :

V4 Flash : 0,14 $/M tokens input, 0,28 $/M tokens output
V4 Pro en promo jusqu’au 31 mai 2026 (réduction 75 %) : 0,435 $/M input et 0,87 $/M output en tarif promo (réduction 75 % prolongée jusqu’au 31 mai 2026 — le tarif plein est 1,74 $/M input et 3,48 $/M output)

Côté open source, DeepSeek-V3.1 est publié sur Hugging Face sous licence MIT. Architecture MoE 671B totaux / 37B activés, contexte 128K. Tu peux le télécharger, le servir en local, le forker, le commercialiser. Aucun acteur fermé (OpenAI, Anthropic, Google) n’a publié un modèle open-weight de cette envergure (1,6T/49B activés) en MIT pendant ce cycle.

Méthodologie : 5 prompts identiques testés sur 5 modèles

Avant de te balancer un verdict flou, voici ma méthode. Pendant trois jours en mai 2026, j’ai envoyé strictement le même prompt aux cinq modèles suivants : Kimi K2.6, Qwen3-Max, DeepSeek V4 Pro, Claude Opus 4.7, GPT-5.5. Toutes les requêtes via API, paramètres par défaut (température 0,7 quand applicable), pas de system prompt particulier.

Les 5 prompts couvrent ce que je fais réellement dans mon métier de dev backend : refactor de code Python mal documenté, raisonnement mathématique pur (proof par induction), rédaction technique longue en français, analyse de logs serveur, et un cas piège — extraction d’entités nommées dans un texte juridique français.

J’évalue chaque sortie sur trois axes : justesse factuelle (la réponse est-elle correcte), qualité de la prose ou du code (lisible, idiomatique), et précision aux instructions (suit-il vraiment le brief). Pas de tableau Excel pondéré : un ressenti documenté, prompts disponibles sur demande.

Test code + refactoring : qui comprend le mieux un monolithe Python mal documenté ?

Prompt : « Voici un fichier Python de 400 lignes contenant 8 fonctions sans docstrings, des noms de variables d’une seule lettre, et trois bugs latents. Refactor en respectant PEP 8, ajoute des type hints, identifie les bugs en commentaire. »

Qwen3-Coder sort le meilleur résultat. Code refactorisé propre, type hints corrects, deux bugs sur trois identifiés (le troisième, une race condition, lui échappe). Lisibilité excellente.

DeepSeek V4 Pro arrive deuxième de très près. Identifie les trois bugs (le seul à le faire) mais le refactor est plus verbeux qu’attendu, avec quelques abstractions inutiles. Verdict : meilleur sur l’analyse, légèrement moins bon sur la production de code propre.

Claude Opus 4.7 est troisième. Code clean, deux bugs sur trois, et il insiste pour ajouter des tests unitaires que je n’avais pas demandés — ce qui est utile mais hors brief.

GPT-5.5 est correct mais introduit une régression subtile sur la gestion des None dans une fonction. Premier modèle à se faire griller au compile.

Kimi K2.6 ferme la marche sur ce test. Le code marche mais reste verbeux, type hints partiels, un seul bug identifié.

Verdict refactoring : Qwen3-Coder ou DeepSeek V4 Pro. Si tu veux la chasse aux bugs, DeepSeek. Si tu veux du code idiomatique propre, Qwen.

Test raisonnement mathématique : énigme de cascade et proof par induction

Deux prompts. Le premier : « Démontre par induction que la somme des n premiers entiers vaut n(n+1)/2. » Tout le monde réussit, normal. Le second : « Dans une cascade de 7 étages, chaque étage retient 30 % de l’eau qui le traverse. Quel volume d’eau atteint le bas si on déverse 1 000 litres en haut ? » C’est le piège : il faut calculer 1000 × 0,7^7 ≈ 82,35 litres, pas 1000 × (1 – 0,3 × 7) = -1100 (erreur classique).

DeepSeek V4 Pro, GPT-5.5 et Claude Opus 4.7 donnent la bonne réponse du premier coup avec le bon raisonnement détaillé.

Qwen3-Max répond juste mais propose une démarche moins claire (passe par une formulation récursive au lieu de l’exponentielle directe). Pédagogiquement moins bon.

Kimi K2.6 répond juste également mais avec une formulation longue. Pas de faute, mais lecture moins fluide.

Sur le proof par induction, tous donnent une démonstration valide. Aucun n’a tenté le piège classique (oublier l’étape « pour n=1, vérifions »). Match nul.

Verdict raisonnement : DeepSeek V4 Pro tient son rang. Pour 6 fois moins cher que Claude, c’est techniquement bluffant.

Test rédaction longue en français : le gros angle mort supposé qui n’en est plus un

Le préjugé : un LLM chinois écrit mal en français parce que son corpus d’entraînement est asymétrique. C’était vrai il y a deux ans, beaucoup moins en 2026 — .

Prompt test : « Rédige un article de 800 mots à destination d’une PME bretonne sur la migration progressive d’un ERP on-premise vers le cloud. Ton pédagogique, sans jargon marketing. »

Qwen3-Max sort un texte de qualité native FR, accents corrects, syntaxe complexe maîtrisée, terminologie technique juste. Une seule maladresse repérée (« avantageous » pour « avantageux », une faute de frappe stochastique).

DeepSeek V4 Pro est proche, légèrement plus formel dans le ton. Tonalité « consultant grand cabinet » que j’aurais aimé plus terrain pour le brief PME.

Kimi K2.6 écrit correctement mais avec deux passages qui sentent la traduction littérale du chinois ou de l’anglais (« il est important de noter que » revient deux fois, une formulation classique de traduction automatique).

Claude Opus 4.7 reste la référence absolue sur le français écrit, je ne vais pas mentir. Mais l’écart s’est considérablement resserré.

Verdict : si tu écris en français à un budget contraint, Qwen3-Max et DeepSeek V4 Pro sont des candidats sérieux. Le préjugé « LLM chinois = français bancal » est mort dans la pratique.

Tableau comparatif : 5 modèles sur 6 critères clés

Note importante avant lecture : le tableau ne note pas tous les critères de la même façon, parce que tous les critères n’ont pas le même poids selon ton usage. Lis-le comme un guide d’aide à la décision, pas comme un classement Atos.

Modèle	Prix output (/1M tokens)	Context window	Open weights	Hébergement	Verdict perso
Kimi K2.6	~1,71 $	256K	MIT modifiée	Chine (Moonshot)	Le long context champion
Qwen3-Coder / Max	Variable selon variante	256K natif, 1M via Yarn	Apache 2.0	Chine (Alibaba)	Meilleur sur code + FR
DeepSeek V4 Pro	~3,48 $ (full) / 0,87 $ (promo)	1M	MIT (V3.1 base)	Chine (DeepSeek)	Ratio qualité-prix imbattable
Claude Opus 4.7	~10,94 $	200K (API)	Fermé	US (Anthropic)	Référence prose et FR
GPT-5.5	~11,25 $	variable	Fermé	US (OpenAI)	Référence raisonnement

Ce que le tableau ne dit pas : aucun des chinois ne bat les deux US sur la moyenne pondérée des tâches. Mais sur le coût par tâche réussie pour un dev qui code en non-sensible, DeepSeek V4 Flash à 0,28 $/M output est plus pertinent que Claude Opus 4.7 à 15 fois plus cher. Ce n’est pas qu’il est meilleur — c’est que le ratio qualité-prix détruit la concurrence pour ce cas d’usage précis.

Risques géopolitiques et RGPD : ce qu’il faut savoir avant de les utiliser en prod

Tester un LLM chinois sur ton laptop perso est sans risque ; le déployer en production sur des données client engage ta responsabilité juridique et celle de tes clients. Voici ce qu’il faut savoir.

Localisation des données. Les trois APIs (Moonshot, DashScope, DeepSeek) ont leurs serveurs en Chine. Toutes les requêtes que tu envoies y transitent. Si tu traites des données personnelles RGPD ou des données client sous NDA, c’est rédhibitoire sans une analyse d’impact (AIPD) sérieuse. Une approche pragmatique : auto-hébergement des modèles open source (Qwen3-Coder, Kimi K2, DeepSeek-V3.1) sur ton propre cluster ou via un provider européen comme Scaleway ou OVH. Tu reprends le contrôle de la donnée.

Restrictions gouvernementales. DeepSeek a été restreint sur les devices gouvernementaux dans plusieurs juridictions courant 2025 (Italie via le Garante en janvier 2025, US Navy en interne, Taïwan, Corée du Sud notamment). Source détaillée : la page Wikipédia DeepSeek tient un bon log. Si tu bosses pour un OIV ou une entité publique, c’est à intégrer dans ton process achat.

Censure intégrée aux modèles. Les modèles entraînés en Chine héritent de filtres alignés sur la doctrine du gouvernement chinois (Tiananmen, Taïwan, Tibet). Pour 99 % des cas business ça ne change rien, mais c’est à savoir si tu fais de la recherche en sciences politiques ou de la documentation historique sur l’Asie.

Ma recommandation finale : tester ces modèles est non négociable pour tout dev sérieux qui veut suivre l’état de l’art. Les mettre en prod sur données critiques sans audit RGPD ne l’est pas non plus. Entre les deux, il y a un énorme terrain de jeu (scripts perso et prototypage interne, hors code sensible) où ces modèles sont des outils budgétairement décisifs. Si je devais résumer en une phrase : Anthropic et OpenAI restent en tête sur la qualité moyenne, mais l’écart se referme et le ratio prix-qualité bascule franchement côté chinois pour certains cas d’usage. Si tu codes et que tu n’as pas un compte sur au moins l’un des trois, tu te tires une balle dans le pied financier en 2026.

Questions fréquentes sur Kimi, Qwen et DeepSeek

Kimi est-il gratuit ?

Oui et non. La version chat web sur kimi.com offre un usage gratuit (avec rate limit). L’API sur platform.kimi.ai est payante : Kimi K2.6 est facturé environ 1,71 $ par million de tokens output selon l’agrégation d’Artificial Analysis (vérifier le prix exact sur la page pricing officielle, susceptible de bouger). Les poids open source de Kimi K2 sont téléchargeables gratuitement sur Hugging Face (licence MIT modifiée), donc auto-hébergement possible si tu as les GPU.

Qwen 3 est-il meilleur que GPT-5.5 ?

En moyenne sur l’Intelligence Index d’Artificial Analysis, non. GPT-5.5 reste devant. Sur des tâches précises — refactoring de code, génération multilingue à grand volume, traitement de très long contexte — Qwen3-Coder ou Qwen3-Max peuvent surclasser GPT-5.5, surtout au regard du coût (Apache 2.0 + auto-hébergement vs. API OpenAI à 11,25 $ /M tokens output). La vraie question n’est pas « qui est meilleur » mais « qui est meilleur pour ton cas d’usage à ton budget ».

Comment utiliser DeepSeek V4 via l’API ?

Tu crées un compte sur platform.deepseek.com, tu génères une clé API, et tu appelles l’endpoint compatible OpenAI (`https://api.deepseek.com/v1/chat/completions`). Le modèle s’appelle `deepseek-v4-flash` (latence basse) ou `deepseek-v4-pro` (raisonnement). Compatibilité totale avec les SDKs OpenAI Python et Node, tu changes juste l’URL de base et le nom du modèle. Pricing actuel : 0,14 $ input / 0,28 $ output par million de tokens pour V4 Flash. La doc officielle est sur api-docs.deepseek.com.

Les LLMs chinois sont-ils sûrs pour les données d’entreprise ?

Pas si tu les utilises via l’API hébergée chez l’éditeur sans avoir fait une AIPD RGPD sérieuse. Les serveurs sont en Chine et les données y transitent. La solution propre pour les données sensibles : auto-héberger les modèles open source (Kimi K2 weights, Qwen3-Coder Apache 2.0, DeepSeek-V3.1 MIT) sur ton infra ou via un provider européen. Tu reprends le contrôle de la donnée et tu gardes la performance du modèle.

Peut-on héberger Kimi ou Qwen en local ?

Oui pour les deux, mais ça demande du matériel. Kimi K2 fait 1T paramètres totaux (32B activés MoE), tu auras besoin d’un cluster multi-GPU H100 ou équivalent pour le servir confortablement. Qwen3-Coder-480B est plus accessible : 480B totaux, 35B activés, ça tourne sur 8x H100 en BF16 ou moins en quantization 4-bit. Pour expérimenter sur ta machine, les variantes plus petites Qwen3 (7B, 32B) sont téléchargeables sur Hugging Face et tournent sur un Mac M2/M3 ou un PC avec une RTX 4090.