Intelligence Artificielle

Llama 4 Scout 8B sur Ollama 0.22 — 10 millions de tokens de contexte en local

Meta a sorti Llama 4 Scout 8B avec 10 millions de tokens de contexte — assez pour avaler un repo entier en une seule requête. Le tuto pour le faire tourner en local avec Ollama 0.22.

Rh1nux

29 avr. 2026 — 3 min read

Si tu as déjà essayé de faire analyser un projet entier à un LLM, tu connais le mur : la fenêtre de contexte. 8 K, 32 K, 128 K tokens — ça paraît énorme, mais quand tu balances un repo Git de taille moyenne, c'est plié en quelques secondes. Tu coupes, tu résumes, tu fais des allers-retours. Pénible.

Meta vient de pousser le curseur très loin. Llama 4 Scout 8B, sorti en mars 2026, embarque un contexte de 10 millions de tokens. Et depuis le 17 avril, il est dispo en preview dans la bibliothèque Ollama. Concrètement : tu peux ingérer un repo de 50 000 lignes de code, ou 6 mois de logs serveur, en une seule requête, en local, sans rien envoyer à OpenAI ou Anthropic.

Ce tuto, c'est l'install pas-à-pas, les prérequis honnêtes, et trois cas d'usage sysadmin où ça change vraiment la donne.

Ce que change Llama 4 Scout

Llama 4 est la première famille MoE (Mixture of Experts) de Meta. Scout est le plus léger : 8 milliards de paramètres actifs, mais une architecture qui scale jusqu'à 109 B au total via les experts. Le truc qui claque :

10M tokens de contexte — environ 7,5 millions de mots, soit 15 000 pages
Format MoE — seulement 8B actifs en inférence, donc rapide
Multimodal natif — texte + images dans la même requête
Licence Llama 4 — usage commercial OK sous 700M MAU, ce qui couvre 99 % des cas

En face, Claude Sonnet 4.6 plafonne à 1M, GPT-5 Pro à 400 K. Llama 4 Scout joue dans une autre catégorie sur le contexte pur — au prix d'une qualité de raisonnement légèrement en retrait sur les benchmarks comme MMLU-Pro.

Prérequis matériels (sois honnête avec toi-même)

Le 10M de contexte, c'est la promesse marketing. Dans la vraie vie, plus tu charges le contexte, plus la VRAM explose. Voici ce qui passe vraiment :

Inférence basique (8K context) — 16 Go VRAM (RTX 4080, RTX 5070) ou 32 Go RAM CPU-only
Contexte 128K — 32 Go VRAM (RTX 5090, A6000) recommandé
Contexte 1M+ — 80 Go VRAM (H100, MI300X) ou setup multi-GPU
Le full 10M — réservé aux racks H100/H200, pas pour ton homelab

Pour un sysadmin qui veut tester sérieusement sur du matos accessible, 32 Go de RAM système + 16 Go de VRAM te donne une expérience déjà excellente jusqu'à 128 K tokens. C'est largement assez pour digérer un repo Django ou un dump de logs nginx d'une semaine.

Installer Ollama 0.22

La 0.22.0 est sortie le 28 avril 2026 et apporte le support natif de Llama 4 Scout, plus quelques optimisations CUDA pour les GPU Blackwell. Sur Debian/Ubuntu :

curl -fsSL https://ollama.com/install.sh | sh
ollama --version

Vérifie que tu es bien en 0.22 ou plus récent. Si ton install précédente est antérieure, force la mise à jour :

sudo systemctl stop ollama
curl -fsSL https://ollama.com/install.sh | sh
sudo systemctl start ollama
ollama --version

Récupérer Llama 4 Scout

Le modèle est dans la bibliothèque Ollama sous le tag llama4:scout. Le pull fait dans les 8 Go en quantization Q4_K_M par défaut :

ollama pull llama4:scout
ollama list

Si tu veux la version Q8 (qualité supérieure, ~16 Go) :

ollama pull llama4:scout-q8_0

Premier test

Lance une session interactive et teste sur quelque chose de concret. Par exemple, file-lui le contenu d'un fichier de conf pour l'auditer :

ollama run llama4:scout "Audite ce sshd_config pour la conformité CIS Benchmark, signale chaque écart et propose la correction. $(cat /etc/ssh/sshd_config)"

Pour une session avec contexte étendu, passe l'option dès le lancement :

OLLAMA_CONTEXT_LENGTH=131072 ollama run llama4:scout

Trois cas d'usage qui changent vraiment la donne

1. Auditer un repo entier d'un coup

Plus besoin de découper. Concatène tout le code source pertinent et balance-le :

find ./src -name "*.py" -exec cat {} + | ollama run llama4:scout "Identifie toutes les vulnérabilités OWASP Top 10 dans ce code Python. Format : fichier, ligne, type, criticité, correction."

2. Analyser une semaine de logs nginx

Détection d'anomalies sur volume réel, sans envoyer tes logs à un service tiers :

cat /var/log/nginx/access.log | ollama run llama4:scout "Analyse ces logs et liste : pics de trafic anormaux, IPs suspectes, tentatives d'exploitation, taux d'erreur par endpoint."

3. Documenter du code legacy

Tu hérites d'un projet sans doc ? Génère-la d'un coup :

find ./legacy -name "*.php" -exec cat {} + | ollama run llama4:scout "Génère une documentation Markdown complète de ce projet PHP : architecture, flux de données, points d'entrée, dépendances, dette technique."

Limites à connaître

Trois pièges classiques qu'on rencontre vite :

Le contexte coûte de la VRAM linéairement — doubler le contexte double les besoins en mémoire. Surveille avec nvidia-smi -l 1
La qualité chute au-delà de 1M tokens — Meta annonce 10M, mais les benchmarks "needle in haystack" montrent une perte significative au-delà de 2M. Reste raisonnable
Le multimodal en CLI Ollama est encore basique — pour l'analyse d'images sérieuse, passe par l'API HTTP avec un wrapper

Liens utiles

Si tu veux aller plus loin, le prochain article couvrira l'expo d'Ollama derrière nginx avec authentification, pour partager une instance entre plusieurs machines de ton homelab. À très vite.

Llama 4 Scout 8B sur Ollama 0.22 — 10 millions de tokens de contexte en local

Rh1nux

Ce que change Llama 4 Scout

Prérequis matériels (sois honnête avec toi-même)

Installer Ollama 0.22

Récupérer Llama 4 Scout

Premier test

Trois cas d'usage qui changent vraiment la donne

1. Auditer un repo entier d'un coup

2. Analyser une semaine de logs nginx

3. Documenter du code legacy

Limites à connaître

Liens utiles

Read more

Tailscale sur VPS OVH avec exit node : le tuto complet de A à Z

Meshtastic : la communication off-grid open source qui fonctionne sans réseau

UniGetUI — le gestionnaire de paquets unifié pour Windows que tu attendais

Windows Server 2025 passe au NVMe natif — comment l’activer et ce que ça change

Ce que change Llama 4 Scout

Prérequis matériels (sois honnête avec toi-même)

Installer Ollama 0.22

Récupérer Llama 4 Scout

Premier test

Trois cas d'usage qui changent vraiment la donne

1. Auditer un repo entier d'un coup

2. Analyser une semaine de logs nginx

3. Documenter du code legacy

Limites à connaître

Liens utiles

Read more

Tailscale sur VPS OVH avec exit node : le tuto complet de A à Z

Meshtastic : la communication off-grid open source qui fonctionne sans réseau

UniGetUI — le gestionnaire de paquets unifié pour Windows que tu attendais

Windows Server 2025 passe au NVMe natif — comment l’activer et ce que ça change

🍪 Ce site utilise des cookies

Paramètres des cookies