Comment éviter le context rot dans Claude Code ?

Éviter le context rot dans Claude Code passe par des réinitialisations ciblées, la compaction de l’historique et l’usage de skills allégés. Cet article explique pourquoi le phénomène survient, comment le détecter et quelles interventions pratiques appliquer pour garder vos sessions précises et productives.

Pourquoi l’agent commence-t-il à se tromper ?

Je constate que l’agent se trompe parce que l’historique de la session accumule du bruit, des essais ratés et des instructions contradictoires qui brouillent le signal utile pour vous.

Un modèle de langage large ( LLM pour Large Language Model) reconstruit le contexte à chaque appel en lisant la séquence de « tokens » fournie par l’historique. Un token est une unité de texte (morceau de mot, mot ou ponctuation) utilisée par le modèle pour encodage. La fenêtre de contexte (context window) est la limite de tokens que le modèle peut ingérer d’un coup. Selon la documentation d’Anthropic, certaines versions de Claude Code proposent une fenêtre de contexte allant jusqu’à environ 200 000 tokens, mais cette valeur varie selon la version et l’usage.

Chaque nouvelle requête répète la lecture de tout l’historique utile et non utile. Toute information non pertinente — essais infructueux, logs de debug, fragments de code commentés, instructions contradictoires — s’ajoute au flux de tokens et réduit la « bande passante » mentale du modèle pour le signal réellement important. Résultat : le modèle doit arbitrer entre beaucoup d’éléments et peut privilégier des indices anciens ou bruyants au lieu des derniers objectifs clairs.

Scénario court : Vous lancez une session de debug. Vous envoyez trois versions d’une fonction, des prints, des erreurs et des diagnostics. Vous corrigez puis testez en laissant les anciens messages. Au bout de dix échanges, l’agent commence à réintroduire une ancienne approche abandonnée, ou à ignorer la dernière contrainte que vous avez ajoutée. Pourquoi ? Parce que l’historique contient plus de « preuves » contradictoires que de signal cohérent.

Conséquences pratiques : Réponses plus vagues ou génériques qui demandent des clarifications.
Conséquences pratiques : Apparition de contradictions entre réponses successives.
Conséquences pratiques : Réapparition d’idées ou de solutions que vous aviez déjà rejetées.

Cause du bruit	Effet observable
Multiples essais et logs	Réponses qui réintroduisent anciennes versions
Instructions contradictoires	Comportement incohérent ou hésitant

Ce comportement est attendu au niveau architectural : ce n’est pas un bug isolé mais la conséquence des limites de mémoire contextuelle et d’allocation d’attention. Enchaînons maintenant sur la fenêtre de contexte technique pour comprendre les seuils et stratégies d’atténuation.

Comment fonctionne la fenêtre de contexte ?

La fenêtre de contexte est la mémoire active que Claude lit intégralement à chaque requête, puis priorise les tokens récents tandis que les anciens sont dépriorisés ou perdent leur influence.

Implications pour le code et le debug : Copier-coller excessif de fragments, répétitions inutiles et accumulation de tentatives ratées alourdissent la fenêtre, rendant les corrections antérieures moins influentes et augmentant le risque d’incohérences lors du debug.

Le modèle lit l’historique de façon séquentielle, transforme le texte en tokens (unités de sous-mot utilisées par le modèle), puis calcule un coût mémoire proportionnel au nombre de tokens. Claude Code propose une fenêtre connue de 200 000 tokens. Un token représente en moyenne ~4 caractères en anglais, mais la taille varie selon la langue et le code. À titre indicatif, quelques centaines de lignes de code peuvent représenter entre 3 000 et 15 000 tokens selon la densité et les commentaires ; vérifier les conversions exactes dans la documentation Anthropic si nécessaire (docs.anthropic.com).

Lecture séquentielle : Le modèle parcourt tout l’historique token par token, ce qui coûte en latence et mémoire.
Tokenisation : Les mots, ponctuations et segments de code sont découpés en tokens non uniformes.
Priorisation temporelle : Les tokens récents reçoivent plus d’influence ; les plus anciens sont dépriorisés ou « s’effacent » progressivement.

Les causes techniques de dégradation incluent la dé-priorisation des anciens messages, les contradictions entre approches successives et l’accumulation d’exemples partiels ou d’essais ratés qui brouillent le signal principal.

Mini-guide pour estimer quand la fenêtre est pleine : surveiller la taille totale de l’historique en caractères, compter le nombre moyen de tokens par message (texte dense ≈ 1 token/4 caractères), et repérer des signes mesurables comme augmentation des hallucinations, perte d’instructions antérieures, ou réponses incohérentes.

# Estimation simple en Python
def estimer_tokens(text):
    return max(1, int(len(text) / 4))  # approximation, vérifier via docs Anthropic

État ancien	Effet actuel
Instructions d’architecture d’il y a 50 messages	Moindre influence, risques d’oublis ou contradictions
Exemples de code répétés	Répétitions inutiles et inflation du contexte

Pour aller plus loin, consulter la documentation Anthropics Claude (docs.anthropic.com), les articles techniques sur les limites de contexte (OpenAI blog, articles arXiv sur long-context transformers) afin d’affiner les stratégies de gestion de fenêtre et la détection précoce du context rot.

Quels signes annoncent le context rot ?

Réponse courte : La réapparition d’idées abandonnées, des réponses floues ou contradictoires, plus d’allers‑retours pour des tâches simples et la résurgence d’erreurs prétendument corrigées sont les signes qui montrent que le contexte pour Claude Code pourrit.

Détection pragmatique :

Réapparition d’anciens patterns de code : Le modèle recollecte et réintroduit un pattern qu’on avait explicitement retiré, par exemple revenir à un singleton ou à un try/catch précédent. Exemple concret : le refactor nommé « useDependencyInjection » est annulé et le code reprend la factory initiale.
Instructions de refactorings annulés : Le modèle propose de « revenir en arrière » ou ignore un refactoring récent présenté comme fait.
Réponses floues ou contradictoires : Le modèle donne deux réponses incompatibles sur la même API en moins de 5 messages.
Comportement trop prudent : Le modèle donne des formulations vagues (« peut‑être », « il faudrait ») au lieu d’actions précises quand le contexte était clair.
Résurgence d’erreurs corrigées : Un bug que vous aviez fait disparaître revient dans le code généré.

Métriques et heuristiques simples à surveiller :

Nombre de messages dans la session : Au‑delà de 50 à 100 tours, risque accru de drift.
Fréquence des corrections : Taux de corrections > 15% des réponses indique un problème.
Latence cognitive : Temps pour obtenir une réponse correcte ; si > 30 à 60 secondes en moyenne, on suspecte de la confusion.
Taux d’échecs sur tâches simples : Plus de 10% d’échecs sur checks unitaires ou questions de contrôle est critique.

Checklist opérationnelle avant de prolonger une session :

Relire les 5 derniers messages pour détecter contradictions explicites.
Tester une question de contrôle simple (ex : « Montre la signature de la fonction X »).
Vérifier que les refactorings récents sont toujours présents dans le code généré.
Compacter le contexte en supprimant les anciennes instructions redondantes.

Scénarios d’urgence où agir immédiatement :

Le modèle introduit des bugs dans du code produit ou modifie des tests verts.
Le modèle réintroduit des secrets ou des données sensibles.
Le modèle commence à produire des incohérences de sécurité ou de conformité.

Gravité	Action recommandée
Faible	Compacter le contexte et continuer
Moyenne	Alléger les skills, relire 10 derniers messages, faire un test de contrôle
Haute	Clear immédiat de la session ou nouvelle session avec prompt minimal

Comment corriger et prévenir le context rot ?

Réponse courte : Je préconise trois leviers complémentaires pour corriger et prévenir le context rot : la commande /clear pour repartir proprement, la commande /compact pour réduire le bruit tout en conservant l’essentiel, et l’utilisation de fichiers de skills allégés pour garder un état canonique et partageable.

/clear — Quand l’utiliser, conséquences et checklist.

Utiliser /clear quand la conversation contient des contradictions persistantes, des dérives de style ou quand l’historique dépasse les limites de tokens (unités utilisées pour mesurer la taille du contexte).

Conséquences : Réinitialisation complète de l’état conversationnel, perte de mémoire locale non exportée.

Checklist avant exécution :

Sauvegarder prompts importants et décisions clés.
Exporter snippets réutilisables dans un fichier de skills.
Notifier les collaborateurs si la session est partagée.

/compact — Rôle, différence avec /clear et exemples.

/compact résume et filtre l’historique pour conserver l’état essentiel sans tout effacer. Différence : /clear supprime tout l’état, /compact réduit le bruit tout en gardant le contexte utile.

Exemples d’usage : Compacter toutes les 50 itérations dans un debug long, ou compacter automatiquement quand le total de tokens dépasse 8k.

Fichiers de skills allégés — Définition, structure et exemple.

Définition : Fichier léger qui contient règles, snippets et paramètres essentiels pour réinitialiser un agent sans charger tout l’historique.

Structure recommandée : id, name, description, triggers, snippets, context_summary.

{
  "id": "skill_bugfix_01",
  "name": "Debug long",
  "description": "Règles et snippets pour session de debug prolongée",
  "triggers": ["error","timeout"],
  "snippets": {
    "checklist": "Vérifier logs → Reproduire → Isoler module"
  },
  "context_summary": "Etat: backend API OK; point d'échec: auth"
}

Chaque champ : Id identifie le skill. Name est lisible. Description explique l’objectif. Triggers liste mots-clés pour activation automatique. Snippets contient prompts réutilisables. Context_summary résume l’état minimal.

Workflows pratiques :

Debug long : Compacter toutes les N itérations (par ex. N=50). Utiliser /clear seulement si des contradictions persistent.
Passage recherche → exécution : Faire /clear entre phases pour éviter que les hypothèses de recherche biaisent l’exécution.
Sessions collaboratives : Charger un fichier de skills allégé comme état canonique partagé.

Automatisation et prévention : Mettre des checkpoints réguliers, extraire prompts réutilisables, et lancer un script qui exécute /compact quand tokens > seuil. Penser à journaliser chaque /clear pour traçabilité.

Intervention	Quand l’utiliser	Avantages	Risques
/clear	Contradictions, changement de phase	Etat propre, suppression de biais	Perte d’historique non sauvegardé
/compact	Accumulation de bruit, tokens élevés	Conserve l’essentiel, réduit taille	Risque d’omission d’un détail utile
Skills allégés	Partage et réinitialisation contrôlée	Etat canonique, réutilisable	Nécessite maintenance

FAQ

Quelle est la différence essentielle entre /clear et /compact ? /Clear efface tout l’état, /compact résume et filtre pour conserver le noyau utile.

Comment sauvegarder rapidement mes prompts ? Exporter les snippets dans un fichier de skills JSON et versionner via Git ou stockage partagé.

Sources : Documentation d’Anthropic et bonnes pratiques de product teams (ex. principes SRE — Site Reliability Engineering).

Prêt à garder vos agents IA précis et efficaces ?

Le context rot survient quand l’historique d’une session devient plus nuisible qu’utile : bruit, contradictions et fragments de code finissent par brouiller la prise de décision de Claude Code. En combinant détections simples, remises à zéro stratégiques (/clear), compactage de l’historique (/compact) et skills allégés, on restaure rapidement la clarté de la session. Ces pratiques réduisent le temps perdu en itérations inutiles et augmentent la fiabilité des réponses — bénéfice direct : productivité et confiance retrouvées dans vos agents IA.

FAQ

Qu’est‑ce que le context rot ?
Le context rot est la dégradation progressive de la qualité des réponses d’un agent IA due à l’accumulation d’un historique de session chargé de bruit, instructions contradictoires ou essais ratés qui brouillent le signal pertinent.
Quels sont les premiers signes à surveiller ?
Surveillez la réapparition d’idées abandonnées, des réponses floues ou contradictoires, une augmentation des allers‑retours pour tâches simples et la résurgence d’erreurs prétendument corrigées.
Quelle est la différence entre /clear et /compact ?
/clear réinitialise totalement la session en effaçant l’historique. /compact réduit et condense l’historique pour conserver l’essentiel tout en éliminant le bruit — utile quand on veut garder le contexte sans ses déchets.
À quelle fréquence doit‑on réinitialiser une session ?
Il n’y a pas de règle fixe : réinitialisez lors d’un changement de tâche important, après trop d’essais infructueux ou dès que vous observez les signes du context rot. En pratique, planifiez des checkpoints et utilisez /compact entre eux.
Les fichiers de skills peuvent‑ils remplacer les remises à zéro ?
Ils ne remplacent pas toujours /clear mais aident à prévenir le context rot en stockant un état canonique et léger de compétences et instructions réutilisables, réduisant le besoin de conserver un long historique en session.

A propos de l’auteur

Franck Scandolera — j’accompagne les entreprises sur le tracking server‑side avancé, Analytics Engineering, automatisation No/Low Code (n8n) et intégration de l’IA en production. Responsable de l’agence webAnalyste et de l’organisme Formations Analytics, j’ai travaillé pour Logis Hôtel, Yelloh Village, BazarChic, Fédération Française de Football, Texdecor. Dispo pour aider vos équipes => contactez moi.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.