
Votre IA oublie tout au bout d'une heure — voici comment l'empêcher
ChatGPT, Claude, Copilot : pourquoi l'IA perd le fil en pleine session et comment nous avons construit un système de surveillance du contexte en temps réel.
Une Tesla sait quand ses caméras ne voient plus la route. Un drone sait quand sa batterie tombe sous le seuil critique. Un serveur Netflix sait quand il va crasher. Mais quand vous parlez à ChatGPT pendant deux heures, personne ne vous prévient qu'il a oublié la première heure. Nous avons décidé de résoudre ce problème.
Un angle mort que l'industrie automobile a résolu — mais pas l'IA conversationnelle
Cet article fait partie de notre dossier intelligence-artificielle › automatisation.
Le self-monitoring est un principe mature en ingénierie. Les voitures autonomes de Waymo attribuent un confidence score à chaque capteur : quand la confiance baisse, le véhicule ralentit ou rend la main au conducteur. Les bras robotiques industriels mesurent leur couple en temps réel et s'arrêtent avant de casser. Les systèmes distribués de Google utilisent des circuit breakers depuis vingt ans.
Mais les IA conversationnelles — ChatGPT, Claude, Gemini, Copilot — n'ont aucun équivalent. Elles fonctionnent avec une fenêtre de contexte : une mémoire de travail mesurée en tokens. Tout ce que vous dites, tout ce qu'elles répondent, chaque fichier lu, chaque recherche effectuée — tout rentre dans cette fenêtre.
Quand la fenêtre est pleine, l'IA fait ce que font les humains fatigués : elle oublie le début. Sauf qu'elle ne vous prévient pas. Elle continue de répondre avec assurance, mais en ayant perdu le contexte de vos premières instructions. Le résultat : des incohérences, des contradictions, des suggestions qui ignorent ce que vous avez déjà dit.
Posez-vous la question : accepteriez-vous de monter dans une voiture autonome qui ne sait pas quand elle ne voit plus la route ? Alors pourquoi acceptez-vous une IA qui ne sait pas quand elle ne se souvient plus de votre conversation ?
Les chiffres que les éditeurs ne mettent pas en avant
| Modèle | Fenêtre de contexte | Durée réelle avant dégradation |
|---|---|---|
| ChatGPT (GPT-4o) | 128K tokens | ~50-80 messages |
| Claude Sonnet | 200K tokens | ~100-150 messages |
| Claude Opus (1M) | 1 000 000 tokens | ~500+ messages |
| Gemini Pro | 1M tokens | Variable |
Le piège : 128K tokens semble énorme — c'est environ 300 pages de texte. Mais en pratique, chaque message consomme des tokens dans les deux sens (votre question + la réponse de l'IA). Une conversation intensive de 2 heures peut facilement atteindre la limite.
Pourquoi votre IA « oublie »
Quand la fenêtre de contexte approche de sa limite, le système applique une compression : il résume les anciens messages pour faire de la place aux nouveaux. C'est invisible pour l'utilisateur. Vous ne recevez aucune alerte. L'IA ne dit jamais : « Attention, j'ai oublié les 30 premières minutes de notre conversation. »
C'est exactement ce qui se passe quand vous parlez de votre bébé à ChatGPT toute la journée :
- Le matin : l'IA se souvient de tout — prénom, âge, allergies, dernière visite pédiatre
- L'après-midi : les détails du matin sont compressés — elle retient « un bébé de 3 mois » mais plus les détails
- Le soir : elle peut redemander le prénom ou confondre des informations
La « mémoire » de ChatGPT (le système Memory) ne résout pas ce problème. Il stocke quelques phrases isolées entre les conversations, pas le contexte riche d'une session.
Notre solution : un système de conscience de soi pour l'IA
Au sein du Synedre — notre conseil de 30 agents IA spécialisés — nous avons construit un système qui résout ce problème. L'idée est simple : si l'IA ne sait pas qu'elle oublie, il faut lui donner un miroir.
Le modèle des 3 zones
Nous avons défini trois zones de consommation du contexte, inspirées des jauges de carburant :
| Zone | Budget estimé | Comportement |
|---|---|---|
| VERT | 0 – 150K tokens | Mémoire parfaite, zéro perte |
| ORANGE | 150K – 400K tokens | Compression commence, détails flous |
| ROUGE | 400K+ | Compression agressive, incohérences possibles |
Le tracking automatique
Chaque action de l'IA (lire un fichier, effectuer une recherche, exécuter une commande) est interceptée par un hook — un programme qui s'exécute automatiquement après chaque opération. Ce hook estime le coût en tokens de l'action et met à jour un compteur.
# Le hook reçoit le détail de chaque action sur stdinhook_input = json.load(sys.stdin)tool_name = hook_input['tool_name'] # Read, Grep, Bash...if tool_name == 'Read': lines = count_response_lines(hook_input['tool_response']) tokens = lines * 12 # ~12 tokens par ligne tracker.add(tokens)Le résultat : à tout moment, nous savons où nous en sommes.
VERT | 58K tokens (~23 fichiers) | Domaine: blog | Marge: 85%Les alertes automatiques
Quand le compteur passe d'une zone à l'autre, un log structuré est émis. L'agent Renoir — notre superviseur des automates — peut voir ces transitions dans son tableau de bord :
- VERT vers ORANGE : « Réduire les lectures, privilégier les sous-agents »
- ORANGE vers ROUGE : « Terminer le travail en cours, nouvelle session recommandée »
Pourquoi les sous-agents changent tout
Le levier le plus puissant de ce système est contre-intuitif : déléguer l'exploration à des sous-agents. Un sous-agent est une instance séparée de l'IA, avec son propre contexte. Il explore, cherche, lit des dizaines de fichiers — et ne renvoie qu'un résumé à l'agent principal.
C'est comme envoyer un assistant faire des recherches en bibliothèque au lieu d'y aller soi-même. Votre bureau reste dégagé.
| Approche | Coût contexte principal |
|---|---|
| Lire 15 fichiers soi-même | ~40K tokens |
| Déléguer à un sous-agent | ~2K tokens (le résumé) |
C'est une réduction de 95% du coût en contexte pour la même information.
Ce que cela change pour les utilisateurs professionnels
Si vous utilisez l'IA pour des tâches complexes — développement logiciel, analyse de données, rédaction longue — ce système change la donne :
- Vous savez quand l'IA dégrade — plus de surprise, plus de « pourquoi elle a oublié mon instruction »
- Vous optimisez votre session — charger les fichiers essentiels au début, pas tout le dossier « au cas où »
- Vous savez quand couper — une nouvelle session avec un bon résumé vaut mieux qu'une vieille session dégradée
Le principe constitutionnel
Ce système est ancré dans notre Constitution du Synedre. L'Article 15 — le Principe d'Économie — stipule que « le coût du dispatch ne doit jamais dépasser le coût de l'exécution ». Le tracker de contexte est l'outil qui rend cet article applicable.
L'Article 5 — chaque erreur corrigée devient une loi permanente — explique pourquoi ce système existe. Nous avons perdu le fil de sessions complexes. Nous avons vu l'IA se contredire après deux heures de travail. Au lieu de subir, nous avons construit un miroir.
Une IA qui ne sait pas qu'elle oublie est une IA dangereuse. Une IA qui surveille sa propre mémoire est une IA responsable.
Comment l'implémenter chez vous
Si vous utilisez Claude Code, le mécanisme est disponible immédiatement :
- Créez un script hook qui reçoit les données de chaque tool call sur stdin (JSON)
- Estimez les tokens : ~12 tokens par ligne de code, ~50K pour le boot initial
- Définissez vos seuils : VERT/ORANGE/ROUGE adaptés à votre fenêtre de contexte
- Configurez le hook dans
settings.jsonsur l'événementPostToolUse
Le code source complet est disponible dans notre dépôt. Ce n'est pas un secret — c'est une méthode. La valeur n'est pas dans le code, elle est dans les années passées à comprendre pourquoi il fallait le construire.
FAQ
- Qu'est-ce que la fenêtre de contexte d'une IA ?
- C'est la mémoire de travail de l'IA — tout ce qu'elle peut voir à un instant donné. Chaque message, chaque fichier lu, chaque réponse générée consomme une partie de cette fenêtre. Quand elle est pleine, les anciens éléments sont compressés ou supprimés.
- Pourquoi ChatGPT oublie-t-il ma conversation ?
- ChatGPT (GPT-4o) a une fenêtre de 128K tokens. Une conversation intensive de 2 heures peut la remplir. Quand c'est le cas, le système compresse silencieusement les anciens messages — vous ne recevez aucune alerte.
- C'est quoi un token ?
- Un token est l'unité de base du langage pour une IA. En français, un token représente environ 3-4 caractères, soit grossièrement un mot. Une page de texte fait environ 500 tokens. Le mot bonjour fait 2-3 tokens selon le modèle.
- Claude a-t-il le même problème que ChatGPT ?
- Claude a une fenêtre beaucoup plus grande (200K à 1M tokens selon le modèle). Le problème est le même mais survient plus tard. Avec 1M de contexte, une session de travail intensive de plusieurs heures reste confortable — mais la surveillance reste nécessaire.
- Qu'est-ce que la compression du contexte ?
- Quand la fenêtre se remplit, le système résume les anciens messages pour faire de la place. Un échange de 50 messages peut être compressé en quelques phrases. Les détails sont perdus, seul l'essentiel est conservé — selon ce que le système juge essentiel.
- La mémoire de ChatGPT ne résout pas ce problème ?
- Non. La fonctionnalité Memory de ChatGPT stocke quelques faits isolés entre les conversations. Elle ne préserve pas le contexte riche d'une session — les nuances, les instructions précises, le fil de la discussion.
- Comment savoir si mon IA a commencé à oublier ?
- Les signes : elle redemande une information déjà donnée, elle contredit une instruction précédente, elle propose une solution que vous avez déjà rejetée. Sans tracker, vous ne le voyez qu'après coup.
- Qu'est-ce qu'un hook PostToolUse ?
- C'est un mécanisme de Claude Code qui exécute automatiquement un script après chaque action de l'IA (lire un fichier, chercher du code, exécuter une commande). Le script reçoit les détails de l'action sur stdin au format JSON.
- Le tracking de contexte ralentit-il l'IA ?
- Non. Le script de tracking s'exécute en moins de 50 millisecondes — imperceptible. Il ne logge dans le système de logs structuré que lors des changements de zone, pas à chaque action.
- Pourquoi 12 tokens par ligne est une bonne estimation ?
- C'est une heuristique conservatrice basée sur la longueur moyenne d'une ligne de code ou de texte en français (~40-50 caractères) divisée par le ratio caractères/token (~3-4). En pratique, les lignes courtes coûtent moins et les lignes denses coûtent plus — 12 est une moyenne fiable.
- Qu'est-ce qu'un sous-agent et pourquoi économise-t-il du contexte ?
- Un sous-agent est une instance séparée de l'IA avec sa propre fenêtre de contexte. Il peut explorer 20 fichiers et renvoyer un résumé de 200 lignes. Le contexte principal est préservé.
- Peut-on appliquer ce système à ChatGPT ?
- Pas directement — ChatGPT n'expose pas de hooks ni de mécanisme d'interception. Mais le principe des 3 zones peut s'appliquer manuellement : après ~50 messages avec GPT-4o, considérez que vous êtes en zone ORANGE. Après ~100, commencez une nouvelle conversation avec un résumé.
- Quelle est la différence entre contexte et mémoire pour une IA ?
- Le contexte est la mémoire de travail — ce que l'IA voit maintenant, dans cette conversation. La mémoire est la persistance entre conversations — des faits stockés sur disque. Le contexte est riche mais éphémère. La mémoire est pauvre mais durable. Un bon système a les deux.
- Pourquoi les voitures autonomes ont ce monitoring mais pas les IA conversationnelles ?
- Parce que les conséquences sont différentes. Une voiture qui ne surveille pas ses capteurs peut tuer quelqu'un — le monitoring est obligatoire. Une IA qui oublie votre conversation n'a pas de conséquence physique. Mais pour un usage professionnel, les conséquences existent : instructions perdues, code incohérent, décisions prises sur des informations oubliées.
- Ce système est-il open source ?
- La méthode est publique — nous la documentons ici et dans l'Academy. Le code source spécifique est lié à notre écosystème (Claude Code + Python + hooks), mais le principe est reproductible par quiconque utilise un outil d'IA avec des hooks ou une API.
Approfondir dans l'Academy
Module : Maîtriser le contexte de votre IA — ne perdez plus jamais le fil →
Un projet PrestaShop ?
Discutons-en directement.
193 projets livrés

Alexandre Carette
Expert PrestaShop & Architecture E-commerce
Développeur PrestaShop freelance avec 10 ans d'expérience et 193 projets livrés. Je conçois des architectures headless Nuxt + PrestaShop, des pipelines DevOps Docker/CI-CD et des outils d'automatisation IA pour mes clients e-commerce.