Veille & Actualités

Z.ai et GLM-5 : L'IA Chinoise qui Défie ChatGPT et DeepSeek en 2026

Z.ai (ex-Zhipu AI) vient de lancer GLM-5 : 744B paramètres MoE, contexte 200K, SWE-bench 77.8%. L'IA chinoise qui rivalise sérieusement avec GPT-5 et DeepSeek.

Rh1nux

19 mars 2026 — 12 min read

En 2026, la course mondiale à l'intelligence artificielle ne s'est jamais autant intensifiée. Si ChatGPT et Claude dominent encore les conversations en Occident, une nouvelle vague de modèles chinois déferle sur la scène internationale. Après le tsunami DeepSeek début 2025, c'est au tour de Z.ai (anciennement Zhipu AI) de frapper fort avec GLM-5, un modèle aux capacités impressionnantes sorti le 11 février 2026. Contexte 200K tokens, 744 milliards de paramètres en architecture MoE, score SWE-bench de 77,8%... Les chiffres font tourner les têtes.

Ce n'est pas un hasard si Z.ai fait parler d'elle maintenant. L'entreprise a bénéficié de plusieurs années de développement en relative discrétion, construisant une expertise solide avant de sortir sur la scène internationale. GLM-5 est le résultat de cette maturation : un modèle qui ne cherche pas à copier les approches occidentales mais à proposer sa propre vision technique, avec notamment l'adoption des techniques d'attention sparse développées par DeepSeek. Mais qu'est-ce que Z.ai exactement, et GLM-5 vaut-il vraiment le déplacement pour un sysadmin ? On fait le tour complet.

C'est quoi Z.ai ? L'histoire de Zhipu AI

Z.ai, c'est avant tout une histoire qui commence en 2019 dans les couloirs de l'Université Tsinghua à Pékin, l'une des meilleures universités techniques au monde. Fondée sous le nom Zhipu AI (智谱AI), l'entreprise se spécialise dès le départ dans la recherche et le développement de grands modèles de langage.

Contrairement à beaucoup de startups IA qui naissent dans des garages, Zhipu AI est directement adossée à l'excellence académique chinoise. Son PDG, Zhang Peng, est lui-même issu de Tsinghua. Cette proximité avec la recherche fondamentale se ressent dans l'approche technique de l'entreprise : moins de marketing tapageur, plus de publications techniques et de résultats reproductibles.

La série GLM (General Language Model) est la colonne vertébrale de Z.ai depuis le début. Les premières versions du modèle remontent à 2021, et chaque itération a apporté des améliorations substantielles. GLM-4 marquait déjà une étape importante avec son passage à l'open source — GLM-5 franchit un nouveau cap en termes de performances pures.

Des investisseurs de poids

En 2023, Zhipu AI lève 2,5 milliards de yuans (environ 340 millions d'euros) avec un tour de table qui ressemble à un who's who de la tech chinoise : Alibaba, Tencent, Meituan, Ant Group et Xiaomi. Ce soutien massif permet à l'entreprise d'accélérer considérablement son développement et d'investir dans des clusters GPU de grande envergure.

En 2025, l'entreprise se rebrande Z.ai — un nom plus court, plus international — et entre en bourse à Hong Kong (SEHK: 2513). Selon le cabinet IDC, Z.ai est désormais le 3e acteur IA en Chine, derrière Baidu et Alibaba/DAMO Academy. Ses sites officiels : z.ai et zhipuai.cn.

La blacklist américaine

Ombre au tableau : en janvier 2025, Z.ai (alors encore Zhipu AI) est blacklistée par le US Commerce Department. Cette inscription sur la Entity List américaine reflète les tensions géopolitiques autour de l'IA et soulève des questions légitimes sur l'utilisation des données — on y reviendra dans la section controverse. Pour l'instant, notons que cette blacklist n'interdit pas aux entreprises non-américaines d'utiliser Z.ai, mais complique les partenariats avec des acteurs américains.

GLM-5 : Architecture et performances techniques

GLM-5 est sorti le 11 février 2026. C'est le modèle flagship de Z.ai, et ses caractéristiques techniques sont ambitieuses à plus d'un titre.

744 milliards de paramètres en MoE

GLM-5 repose sur une architecture MoE (Mixture of Experts) avec 744 milliards de paramètres au total. Le principe du MoE : au lieu d'activer l'intégralité des paramètres pour chaque token, le modèle ne sollicite qu'un sous-ensemble d'experts spécialisés selon la nature de la requête. Résultat : une capacité théorique massive tout en maintenant des coûts d'inférence raisonnables — une économie substantielle par rapport à un modèle dense de taille équivalente.

C'est le même pari qu'ont fait Mixtral, DeepSeek V3 ou encore GPT-4 (probablement). L'avantage est double : efficacité computationnelle et spécialisation des experts sur différents types de tâches. En pratique, un expert MoE peut être particulièrement performant sur le code Python pendant qu'un autre excelle sur l'analyse de texte en mandarin.

Contexte 200K tokens : la fenêtre qui change tout

GLM-5 supporte un contexte de 200 000 tokens (200K). Pour se donner une idée concrète : 200K tokens représentent environ 150 000 mots, soit 2 à 3 romans entiers, ou plusieurs milliers de lignes de code. Pour un sysadmin, ça se traduit concrètement : vous pouvez coller l'intégralité d'un fichier de logs nginx de plusieurs dizaines de Mo et demander une analyse complète en une seule requête. Plus besoin de découper, de résumer, ou de faire des allers-retours fastidieux.

Pour gérer ce contexte gigantesque sans exploser le coût en calcul (qui serait quadratique avec une attention standard — O(n²) où n est la longueur du contexte), Z.ai a intégré la DeepSeek Sparse Attention (DSA). Cette technique réduit la complexité de l'attention en ne calculant les interactions qu'entre les tokens les plus pertinents, et non entre tous les tokens par paires. Le résultat est une complexité sub-quadratique qui rend le traitement de 200K tokens économiquement viable.

SWE-bench : 77,8% pour les agents

Le benchmark SWE-bench mesure la capacité d'un modèle à résoudre de vrais bugs GitHub en autonomie — il lit le code, comprend le contexte du projet, génère un patch et le soumet. GLM-5 obtient 77,8%, un score excellent qui le place en compétition directe avec les meilleurs modèles actuels pour les tâches de programmation agentique. À titre de comparaison, GPT-3.5 était autour de 1,7% sur ce même benchmark il y a deux ans — l'évolution est spectaculaire.

GLM-5 fonctionne selon deux modes distincts :

Mode Chat : conversation classique, questions-réponses, rédaction, analyse, traduction
Mode Agent : exécution autonome de tâches complexes, utilisation d'outils, génération et exécution de code, planification multi-étapes

C'est ce mode Agent qui justifie en grande partie le score SWE-bench élevé. En mode Agent, GLM-5 peut appeler des outils externes, itérer sur son code jusqu'à obtenir un résultat valide, et gérer des workflows complexes en plusieurs étapes — exactement ce qu'on attend d'un assistant sysadmin capable.

Points forts de GLM-5

Voici ce qui rend GLM-5 genuinement intéressant pour un usage technique :

Contexte 200K : Analyse de logs volumineux, bases de code entières, documents longs — en une seule requête. Un game-changer pour l'analyse d'incidents complexes.
SWE-bench 77,8% : Excellent pour la génération et la correction de code en mode agentique. Un vrai copilote technique qui génère du code fonctionnel du premier coup dans la grande majorité des cas.
Quota API gratuit : Z.ai propose un quota d'utilisation gratuit pour tester l'API, sans engagement immédiat. Idéal pour évaluer avant d'investir.
Multilingue natif FR/EN/ZH : Le modèle gère le français, l'anglais et le mandarin nativement, avec une qualité supérieure en mandarin comparé à la plupart des modèles occidentaux.
Open source pour GLM-4 : Les versions GLM-4 et antérieures sont disponibles en open source (licences MIT/Apache), ce qui permet un déploiement local sans dépendance cloud.
Famille de modèles complète : GLM-5 n'est pas seul — Z.ai propose une gamme cohérente incluant des modèles vision, speech et reconnaissance vocale, adaptée à différents cas d'usage.
Vending Bench : Score de 4432$ sur le Vending Bench, un benchmark mesurant les capacités d'agents commerciaux autonomes — pertinent pour les scénarios d'automatisation complexes.

Points faibles et limites à connaître

Soyons honnêtes — GLM-5 n'est pas parfait et il est important de connaître ses limites avant de l'intégrer dans un workflow :

Cloud uniquement : GLM-5 n'est pas disponible en téléchargement local. Impossible de le faire tourner sur votre propre hardware. Vous dépendez entièrement de l'infrastructure Z.ai, ce qui crée une dépendance forte.
Blacklist US : L'inscription sur la Entity List américaine soulève des questions légitimes sur la confidentialité des données, surtout pour les entreprises ayant des obligations réglementaires (RGPD, NIS2, données sensibles secteur défense ou santé).
Interface principale en chinois : chatglm.cn est conçu pour le marché chinois. Naviguer sans parler mandarin, c'est sportif. L'interface z.ai internationale est plus accessible mais moins riche en fonctionnalités.
Benchmarks auto-publiés : Les scores communiqués (SWE-bench, Vending Bench) sont ceux publiés par Z.ai eux-mêmes. Comme pour tous les acteurs IA, les évaluations indépendantes manquent encore à ce stade pour une comparaison totalement objective.
Compte obligatoire pour l'API : Même pour le quota gratuit, une inscription est nécessaire — avec vérification d'identité pour les quotas élevés.
Latence variable : Comme tout service cloud externe, la latence peut varier selon la charge des serveurs et la géographie. Les requêtes depuis l'Europe vers des datacenters en Chine peuvent souffrir d'une latence plus élevée.

Comparaison avec la concurrence

Pour situer GLM-5 dans le paysage actuel, voici une comparaison avec ses principaux concurrents :

Modèle	Paramètres	Contexte	SWE-bench	Local ?	Open Source ?	Origine
GLM-5	744B MoE	200K	77,8%	❌	❌ (GLM-4 oui)	🇨🇳 Chine
DeepSeek V3	671B MoE	128K	~42%	✅ (quant.)	✅ MIT	🇨🇳 Chine
GPT-5	N/A (fermé)	128K+	>80%	❌	❌	🇺🇸 USA
Claude Opus 4.5	N/A (fermé)	200K	>72%	❌	❌	🇺🇸 USA
Gemini 3 Pro	N/A (fermé)	1M+	~65%	❌	❌	🇺🇸 USA

Note : les scores SWE-bench varient selon les versions évaluées et les conditions de test. À prendre comme ordre de grandeur. Les données pour GPT-5, Claude Opus 4.5 et Gemini 3 Pro sont des estimations basées sur les annonces officielles.

GLM-5 se positionne comme un concurrent sérieux de GPT-5 et Claude Opus sur le code et les agents, avec l'avantage d'un contexte 200K comparable à Claude. Son principal avantage face aux modèles américains est la disponibilité d'un quota gratuit généreux. Son principal désavantage face à DeepSeek V3 reste l'absence de version locale.

Comment accéder à Z.ai et GLM-5

Via l'interface web

Deux options pour accéder à GLM-5 via une interface graphique :

chatglm.cn : l'interface principale, orientée marché chinois. Fonctionnel, mais entièrement en mandarin. Nécessite un compte avec numéro de téléphone chinois. Déconseillé pour la plupart des utilisateurs occidentaux.
z.ai : l'interface internationale, plus accessible pour les non-sinophones. Interface plus claire, inscription avec email suffisant. C'est le point d'entrée recommandé pour les sysadmins européens.

Via l'API Python

C'est la voie recommandée pour les sysadmins et développeurs qui veulent intégrer GLM-5 dans leurs outils. Z.ai fournit un SDK Python officiel :

pip install zhipuai

Exemple d'utilisation basique pour démarrer rapidement :

from zhipuai import ZhipuAI

client = ZhipuAI(api_key="YOUR_API_KEY")
response = client.chat.completions.create(
    model="glm-5",
    messages=[
        {"role": "user", "content": "Explique le fonctionnement d'un réseau de neurones"}
    ]
)
print(response.choices[0].message.content)

L'API est compatible avec le format OpenAI Chat Completions, ce qui facilite l'intégration dans des outils existants qui supportent déjà OpenAI. La clé API s'obtient sur open.bigmodel.cn (tableau de bord développeur de Z.ai). La création de compte est gratuite et un quota initial est offert sans carte bancaire.

Via des proxies API compatibles OpenAI

Pour éviter de créer un compte directement chez Z.ai, plusieurs agrégateurs d'API proposent GLM-5 avec une interface compatible OpenAI. Aucun compte chinois requis. Pratique pour des tests rapides ou pour centraliser la facturation de plusieurs modèles, mais moins recommandé pour de la production sérieuse où vous voulez contrôler exactement avec qui vous parlez.

Utiliser les modèles GLM en local avec Ollama

Bonne nouvelle pour les adeptes de la souveraineté : si GLM-5 lui-même n'est pas disponible en local, les versions GLM-4 sont open-source et disponibles sur Ollama. C'est une excellente option pour garder le contrôle total sur ses données, sans dépendance cloud.

# Télécharger le modèle GLM-4
ollama pull glm4

# Lancer en mode interactif
ollama run glm4

# Ou en one-shot depuis le terminal
ollama run glm4 "Génère un script bash pour surveiller l'espace disque"

GLM-4 en local tourne correctement sur une machine avec 16 Go de VRAM minimum (version quantifiée Q4_K_M). Avec 8 Go, vous pourrez utiliser les versions plus petites mais les performances seront limitées. Ce n'est pas GLM-5, mais pour beaucoup de cas d'usage sysadmin courants — génération de scripts, documentation, analyse de configurations — c'est largement suffisant. Et surtout, vos données restent chez vous.

Note importante : sur Ollama Hub, vous trouverez aussi une entrée glm5 qui est en réalité un proxy vers l'API cloud Z.ai, pas un vrai modèle local. Les requêtes partent bien vers les serveurs Z.ai. Vérifiez toujours la description et le fichier Modelfile du modèle avant de l'utiliser si la confidentialité est un critère.

Cas d'usage concrets pour les sysadmins

Théorie c'est bien, pratique c'est mieux. Voici où GLM-5 (ou GLM-4 en local) peut concrètement vous faire gagner du temps au quotidien :

Analyse de logs volumineux

Avec 200K tokens de contexte, vous pouvez coller directement un fichier de logs nginx, Apache, ou systemd complet et demander une analyse structurée. Fini le découpage manuel :

from zhipuai import ZhipuAI

client = ZhipuAI(api_key="YOUR_API_KEY")

with open("/var/log/nginx/error.log", "r") as f:
    logs = f.read()

response = client.chat.completions.create(
    model="glm-5",
    messages=[
        {"role": "system", "content": "Tu es un expert en administration système Linux."},
        {"role": "user", "content": f"Analyse ces logs nginx, identifie les erreurs critiques, les patterns suspects (tentatives d'intrusion, 4xx/5xx anormaux) et donne des recommandations concrètes :

{logs}"}
    ]
)
print(response.choices[0].message.content)

Génération de scripts d'automatisation

GLM-5 excelle dans la génération de scripts bash et Python pour l'automatisation système. Son score SWE-bench de 77,8% se traduit par du code fonctionnel dans la grande majorité des cas — avec souvent moins d'itérations correctrices nécessaires que sur d'autres modèles :

# Exemple via CLI avec ollama + glm4 (version locale)
ollama run glm4 "Écris un script bash qui :
- Vérifie l'espace disque sur tous les points de montage
- Envoie une alerte par email si un FS dépasse 85%
- Logge le résultat dans /var/log/disk-check.log avec timestamp ISO 8601
- Gère proprement les erreurs avec exit codes"

Audit de configuration et documentation

Donnez-lui un fichier de configuration nginx, Apache, HAProxy ou Kubernetes YAML et demandez un audit de sécurité, une documentation automatique, ou des recommandations d'optimisation. Le contexte 200K permet d'inclure toute la config d'une infrastructure complexe en une seule requête — y compris les includes et les fichiers de virtualhost multiples.

Quelques cas d'usage testés avec de bons résultats :

Génération de playbooks Ansible à partir d'une description en langage naturel
Revue de sécurité de configurations SSH ou firewall
Création de dashboards Grafana en JSON depuis une description fonctionnelle
Documentation automatique de scripts legacy sans commentaires

La controverse : blacklist, données et souveraineté

Il serait malhonnête de parler de Z.ai sans aborder l'éléphant dans la pièce. En janvier 2025, le US Commerce Department a inscrit Zhipu AI (devenue Z.ai) sur sa Entity List. Cette liste regroupe des entités considérées comme contraires aux intérêts de sécurité nationale américains — la même liste qui a touché Huawei ou certaines entités de DeepSeek.

Pour les utilisateurs européens, cette inscription soulève plusieurs questions concrètes :

Où sont stockées les données ? Z.ai est une entreprise chinoise soumise au droit chinois, incluant les lois sur la cybersécurité (2017) et le renseignement national (2017) qui peuvent obliger à coopérer avec les autorités chinoises sans obligation d'en informer les utilisateurs étrangers.
Compatibilité RGPD ? L'utilisation d'une API cloud chinoise pour traiter des données personnelles de citoyens européens pose des questions légales sérieuses. La Chine n'est pas reconnue comme pays offrant une protection adéquate des données personnelles par la Commission européenne.
Usage professionnel sensible : Pour des données confidentielles d'entreprise, des logs contenant des IP clients, des configurations réseau ou des informations sur des infrastructures critiques, la prudence s'impose — indépendamment de toute suspicion malveillante envers Z.ai.

Recommandation pragmatique : Pour des tests, de l'apprentissage, de la veille technologique, ou le traitement de données non sensibles, Z.ai est tout à fait utilisable. Pour de la production avec des données personnelles ou sensibles, préférez soit GLM-4 en local via Ollama, soit des alternatives avec hébergement européen certifié.

La même logique s'applique d'ailleurs à l'ensemble des modèles cloud américains (OpenAI, Anthropic, Google). Z.ai rend la question de la souveraineté des données plus visible à cause du contexte géopolitique, mais le problème est universel. Le vrai débat, c'est "cloud de confiance ou local ?" — pas "US vs Chine".

Les modèles disponibles chez Z.ai

Z.ai ne propose pas que GLM-5. La gamme complète disponible en 2026 couvre différents cas d'usage :

GLM-5 (flagship, 744B MoE) — le modèle star, cloud uniquement, pour les tâches les plus complexes
GLM-4.7 et GLM-4.7 Flash — bon rapport qualité/coût, Flash pour la rapidité et les applications temps-réel
GLM-4.6V et GLM-4.6V Flash — versions multimodales avec vision (analyse d'images, screenshots, diagrammes)
GLM-4.0 (open-source) — speech LLM, disponible localement, pour les pipelines voix
GLM-ASR-2512 — reconnaissance vocale (équivalent Whisper) avec bonne gestion du mandarin et du français

Pour la plupart des cas d'usage sysadmin ne nécessitant pas le contexte 200K, GLM-4.7 Flash offre un excellent équilibre vitesse/qualité/coût. Réservez GLM-5 pour les tâches vraiment volumineuses ou les agents autonomes complexes.

Ressources et liens utiles

Conclusion

Z.ai et GLM-5 représentent une étape importante dans la montée en puissance de l'IA chinoise sur la scène internationale. Les chiffres sont réels et vérifiables : 744B paramètres MoE, contexte 200K tokens, SWE-bench 77,8%. Ce n'est pas du marketing vide — GLM-5 est un concurrent sérieux pour des tâches de code, d'analyse et d'automatisation, qu'il faut désormais considérer au même titre que GPT-5 ou Claude Opus.

Pour un sysadmin, l'attrait principal est le binôme contexte 200K + mode Agent. La capacité à ingérer des logs ou des configurations entières en une seule requête, combinée à un score SWE-bench qui traduit de vraies capacités de coding agentique, change réellement la manière de travailler sur des tâches d'analyse et d'automatisation. Et si vous préférez rester en local pour des raisons de confidentialité, GLM-4 via Ollama reste une option solide, souveraine, et gratuite.

La blacklist américaine et les questions de souveraineté méritent d'être prises au sérieux — pas pour diaboliser Z.ai, mais pour choisir en connaissance de cause et adapter l'usage au niveau de sensibilité des données. En 2026, la course à l'IA est résolument mondiale, et Z.ai prouve que la Chine n'est plus seulement un suiveur — elle innove, parfois en avance sur des aspects techniques précis. À surveiller de très près.