Llama 4 Scout 8B sur Ollama 0.22 — 10 millions de tokens de contexte en local
Meta a sorti Llama 4 Scout 8B avec 10 millions de tokens de contexte — assez pour avaler un repo entier en une seule requête. Le tuto pour le faire tourner en local avec Ollama 0.22.
Si tu as déjà essayé de faire analyser un projet entier à un LLM, tu connais le mur : la fenêtre de contexte. 8 K, 32 K, 128 K tokens — ça paraît énorme, mais quand tu balances un repo Git de taille moyenne, c'est plié en quelques secondes. Tu coupes, tu résumes, tu fais des allers-retours. Pénible.
Meta vient de pousser le curseur très loin. Llama 4 Scout 8B, sorti en mars 2026, embarque un contexte de 10 millions de tokens. Et depuis le 17 avril, il est dispo en preview dans la bibliothèque Ollama. Concrètement : tu peux ingérer un repo de 50 000 lignes de code, ou 6 mois de logs serveur, en une seule requête, en local, sans rien envoyer à OpenAI ou Anthropic.
Ce tuto, c'est l'install pas-à-pas, les prérequis honnêtes, et trois cas d'usage sysadmin où ça change vraiment la donne.
Ce que change Llama 4 Scout
Llama 4 est la première famille MoE (Mixture of Experts) de Meta. Scout est le plus léger : 8 milliards de paramètres actifs, mais une architecture qui scale jusqu'à 109 B au total via les experts. Le truc qui claque :
- 10M tokens de contexte — environ 7,5 millions de mots, soit 15 000 pages
- Format MoE — seulement 8B actifs en inférence, donc rapide
- Multimodal natif — texte + images dans la même requête
- Licence Llama 4 — usage commercial OK sous 700M MAU, ce qui couvre 99 % des cas
En face, Claude Sonnet 4.6 plafonne à 1M, GPT-5 Pro à 400 K. Llama 4 Scout joue dans une autre catégorie sur le contexte pur — au prix d'une qualité de raisonnement légèrement en retrait sur les benchmarks comme MMLU-Pro.
Prérequis matériels (sois honnête avec toi-même)
Le 10M de contexte, c'est la promesse marketing. Dans la vraie vie, plus tu charges le contexte, plus la VRAM explose. Voici ce qui passe vraiment :
- Inférence basique (8K context) — 16 Go VRAM (RTX 4080, RTX 5070) ou 32 Go RAM CPU-only
- Contexte 128K — 32 Go VRAM (RTX 5090, A6000) recommandé
- Contexte 1M+ — 80 Go VRAM (H100, MI300X) ou setup multi-GPU
- Le full 10M — réservé aux racks H100/H200, pas pour ton homelab
Pour un sysadmin qui veut tester sérieusement sur du matos accessible, 32 Go de RAM système + 16 Go de VRAM te donne une expérience déjà excellente jusqu'à 128 K tokens. C'est largement assez pour digérer un repo Django ou un dump de logs nginx d'une semaine.
Installer Ollama 0.22
La 0.22.0 est sortie le 28 avril 2026 et apporte le support natif de Llama 4 Scout, plus quelques optimisations CUDA pour les GPU Blackwell. Sur Debian/Ubuntu :
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
Vérifie que tu es bien en 0.22 ou plus récent. Si ton install précédente est antérieure, force la mise à jour :
sudo systemctl stop ollama
curl -fsSL https://ollama.com/install.sh | sh
sudo systemctl start ollama
ollama --version
Récupérer Llama 4 Scout
Le modèle est dans la bibliothèque Ollama sous le tag llama4:scout. Le pull fait dans les 8 Go en quantization Q4_K_M par défaut :
ollama pull llama4:scout
ollama list
Si tu veux la version Q8 (qualité supérieure, ~16 Go) :
ollama pull llama4:scout-q8_0
Premier test
Lance une session interactive et teste sur quelque chose de concret. Par exemple, file-lui le contenu d'un fichier de conf pour l'auditer :
ollama run llama4:scout "Audite ce sshd_config pour la conformité CIS Benchmark, signale chaque écart et propose la correction. $(cat /etc/ssh/sshd_config)"
Pour une session avec contexte étendu, passe l'option dès le lancement :
OLLAMA_CONTEXT_LENGTH=131072 ollama run llama4:scout
Trois cas d'usage qui changent vraiment la donne
1. Auditer un repo entier d'un coup
Plus besoin de découper. Concatène tout le code source pertinent et balance-le :
find ./src -name "*.py" -exec cat {} + | ollama run llama4:scout "Identifie toutes les vulnérabilités OWASP Top 10 dans ce code Python. Format : fichier, ligne, type, criticité, correction."
2. Analyser une semaine de logs nginx
Détection d'anomalies sur volume réel, sans envoyer tes logs à un service tiers :
cat /var/log/nginx/access.log | ollama run llama4:scout "Analyse ces logs et liste : pics de trafic anormaux, IPs suspectes, tentatives d'exploitation, taux d'erreur par endpoint."
3. Documenter du code legacy
Tu hérites d'un projet sans doc ? Génère-la d'un coup :
find ./legacy -name "*.php" -exec cat {} + | ollama run llama4:scout "Génère une documentation Markdown complète de ce projet PHP : architecture, flux de données, points d'entrée, dépendances, dette technique."
Limites à connaître
Trois pièges classiques qu'on rencontre vite :
- Le contexte coûte de la VRAM linéairement — doubler le contexte double les besoins en mémoire. Surveille avec
nvidia-smi -l 1 - La qualité chute au-delà de 1M tokens — Meta annonce 10M, mais les benchmarks "needle in haystack" montrent une perte significative au-delà de 2M. Reste raisonnable
- Le multimodal en CLI Ollama est encore basique — pour l'analyse d'images sérieuse, passe par l'API HTTP avec un wrapper
Liens utiles
Si tu veux aller plus loin, le prochain article couvrira l'expo d'Ollama derrière nginx avec authentification, pour partager une instance entre plusieurs machines de ton homelab. À très vite.