
Votre IA oublie tout au bout d'une heure — voici comment l'empêcher
ChatGPT, Claude, Copilot : pourquoi l'IA perd le fil en pleine session et comment nous avons construit un système de surveillance du contexte en temps réel.
Une Tesla sait quand ses caméras ne voient plus la route. Un drone sait quand sa batterie tombe sous le seuil critique. Un serveur Netflix sait quand il va crasher. Mais quand vous parlez à ChatGPT pendant deux heures, personne ne vous prévient qu'il a oublié la première heure. Nous avons décidé de résoudre ce problème.
Un angle mort que l'industrie automobile a résolu — mais pas l'IA conversationnelle
Cet article fait partie de notre dossier intelligence-artificielle › automatisation.
Le self-monitoring est un principe mature en ingénierie. Les voitures autonomes de Waymo attribuent un confidence score à chaque capteur : quand la confiance baisse, le véhicule ralentit ou rend la main au conducteur. Les bras robotiques industriels mesurent leur couple en temps réel et s'arrêtent avant de casser. Les systèmes distribués de Google utilisent des circuit breakers depuis vingt ans.
Mais les IA conversationnelles — ChatGPT, Claude, Gemini, Copilot — n'ont aucun équivalent. Elles fonctionnent avec une fenêtre de contexte : une mémoire de travail mesurée en tokens. Tout ce que vous dites, tout ce qu'elles répondent, chaque fichier lu, chaque recherche effectuée — tout rentre dans cette fenêtre.
Quand la fenêtre est pleine, l'IA fait ce que font les humains fatigués : elle oublie le début. Sauf qu'elle ne vous prévient pas. Elle continue de répondre avec assurance, mais en ayant perdu le contexte de vos premières instructions. Le résultat : des incohérences, des contradictions, des suggestions qui ignorent ce que vous avez déjà dit.
Posez-vous la question : accepteriez-vous de monter dans une voiture autonome qui ne sait pas quand elle ne voit plus la route ? Alors pourquoi acceptez-vous une IA qui ne sait pas quand elle ne se souvient plus de votre conversation ?
Les chiffres que les éditeurs ne mettent pas en avant
| Modèle | Fenêtre de contexte | Durée réelle avant dégradation |
|---|---|---|
| ChatGPT (GPT-4o) | 128K tokens | ~50-80 messages |
| Claude Sonnet | 200K tokens | ~100-150 messages |
| Claude Opus (1M) | 1 000 000 tokens | ~500+ messages |
| Gemini Pro | 1M tokens | Variable |
Le piège : 128K tokens semble énorme — c'est environ 300 pages de texte. Mais en pratique, chaque message consomme des tokens dans les deux sens (votre question + la réponse de l'IA). Une conversation intensive de 2 heures peut facilement atteindre la limite.
Pourquoi votre IA « oublie »
Quand la fenêtre de contexte approche de sa limite, le système applique une compression : il résume les anciens messages pour faire de la place aux nouveaux. C'est invisible pour l'utilisateur. Vous ne recevez aucune alerte. L'IA ne dit jamais : « Attention, j'ai oublié les 30 premières minutes de notre conversation. »
C'est exactement ce qui se passe quand vous parlez de votre bébé à ChatGPT toute la journée :
- Le matin : l'IA se souvient de tout — prénom, âge, allergies, dernière visite pédiatre
- L'après-midi : les détails du matin sont compressés — elle retient « un bébé de 3 mois » mais plus les détails
- Le soir : elle peut redemander le prénom ou confondre des informations
La « mémoire » de ChatGPT (le système Memory) ne résout pas ce problème. Il stocke quelques phrases isolées entre les conversations, pas le contexte riche d'une session.
Notre solution : un système de conscience de soi pour l'IA
Au sein du Synedre — notre conseil de 30 agents IA spécialisés — nous avons construit un système qui résout ce problème. L'idée est simple : si l'IA ne sait pas qu'elle oublie, il faut lui donner un miroir.
Le modèle des 3 zones
Nous avons défini trois zones de consommation du contexte, inspirées des jauges de carburant :
| Zone | Budget estimé | Comportement |
|---|---|---|
| VERT | 0 – 150K tokens | Mémoire parfaite, zéro perte |
| ORANGE | 150K – 400K tokens | Compression commence, détails flous |
| ROUGE | 400K+ | Compression agressive, incohérences possibles |
Le tracking automatique
Chaque action de l'IA (lire un fichier, effectuer une recherche, exécuter une commande) est interceptée par un hook — un programme qui s'exécute automatiquement après chaque opération. Ce hook estime le coût en tokens de l'action et met à jour un compteur.
# Le hook reçoit le détail de chaque action sur stdinhook_input = json.load(sys.stdin)tool_name = hook_input['tool_name'] # Read, Grep, Bash...if tool_name == 'Read': lines = count_response_lines(hook_input['tool_response']) tokens = lines * 12 # ~12 tokens par ligne tracker.add(tokens)Le résultat : à tout moment, nous savons où nous en sommes.
VERT | 58K tokens (~23 fichiers) | Domaine: blog | Marge: 85%Les alertes automatiques
Quand le compteur passe d'une zone à l'autre, un log structuré est émis. L'agent Renoir — notre superviseur des automates — peut voir ces transitions dans son tableau de bord :
- VERT vers ORANGE : « Réduire les lectures, privilégier les sous-agents »
- ORANGE vers ROUGE : « Terminer le travail en cours, nouvelle session recommandée »
Pourquoi les sous-agents changent tout
Le levier le plus puissant de ce système est contre-intuitif : déléguer l'exploration à des sous-agents. Un sous-agent est une instance séparée de l'IA, avec son propre contexte. Il explore, cherche, lit des dizaines de fichiers — et ne renvoie qu'un résumé à l'agent principal.
C'est comme envoyer un assistant faire des recherches en bibliothèque au lieu d'y aller soi-même. Votre bureau reste dégagé.
| Approche | Coût contexte principal |
|---|---|
| Lire 15 fichiers soi-même | ~40K tokens |
| Déléguer à un sous-agent | ~2K tokens (le résumé) |
C'est une réduction de 95% du coût en contexte pour la même information.
Ce que cela change pour les utilisateurs professionnels
Si vous utilisez l'IA pour des tâches complexes — développement logiciel, analyse de données, rédaction longue — ce système change la donne :
- Vous savez quand l'IA dégrade — plus de surprise, plus de « pourquoi elle a oublié mon instruction »
- Vous optimisez votre session — charger les fichiers essentiels au début, pas tout le dossier « au cas où »
- Vous savez quand couper — une nouvelle session avec un bon résumé vaut mieux qu'une vieille session dégradée
Le principe constitutionnel
Ce système est ancré dans notre Constitution du Synedre. L'Article 15 — le Principe d'Économie — stipule que « le coût du dispatch ne doit jamais dépasser le coût de l'exécution ». Le tracker de contexte est l'outil qui rend cet article applicable.
L'Article 5 — chaque erreur corrigée devient une loi permanente — explique pourquoi ce système existe. Nous avons perdu le fil de sessions complexes. Nous avons vu l'IA se contredire après deux heures de travail. Au lieu de subir, nous avons construit un miroir.
Une IA qui ne sait pas qu'elle oublie est une IA dangereuse. Une IA qui surveille sa propre mémoire est une IA responsable.
Comment l'implémenter chez vous
Si vous utilisez Claude Code, le mécanisme est disponible immédiatement :
- Créez un script hook qui reçoit les données de chaque tool call sur stdin (JSON)
- Estimez les tokens : ~12 tokens par ligne de code, ~50K pour le boot initial
- Définissez vos seuils : VERT/ORANGE/ROUGE adaptés à votre fenêtre de contexte
- Configurez le hook dans
settings.jsonsur l'événementPostToolUse
Le code source complet est disponible dans notre dépôt. Ce n'est pas un secret — c'est une méthode. La valeur n'est pas dans le code, elle est dans les années passées à comprendre pourquoi il fallait le construire.
Questions fréquentes
Tout ce que vous devez savoir sur ce sujet.
Une question ?
Contactez-nous directement.
Discussion
Nos conseils liés à Intelligence-artificielle
Harnais Agent IA en Production : les 4 Piliers de la Fiabilité
Pourquoi 95 % des projets IA échouent en production et comment bâtir un harnais d'agent fiable. 4 piliers concrets pour un système qui apprend de ses erreurs.
Diviser par 49 ses tokens Claude Code : guide pratique
Comment réduire de 49x la consommation de tokens Claude Code grâce à CLAUDE.md, compact mode et subagents. Retour d'expérience multi-agents e-commerce.
IA e-commerce : 7 automatisations qui génèrent du CA 24/7
Découvrez 7 automatisations IA e-commerce qui génèrent du chiffre d'affaires en continu. Relance panier, pricing dynamique, recommandations : guide expert 2026.