Votre IA oublie tout au bout d'une heure — voici comment l'empêcher
intelligence-artificielle

Votre IA oublie tout au bout d'une heure — voici comment l'empêcher

ChatGPT, Claude, Copilot : pourquoi l'IA perd le fil en pleine session et comment nous avons construit un système de surveillance du contexte en temps réel.

6 min de lecture

Une Tesla sait quand ses caméras ne voient plus la route. Un drone sait quand sa batterie tombe sous le seuil critique. Un serveur Netflix sait quand il va crasher. Mais quand vous parlez à ChatGPT pendant deux heures, personne ne vous prévient qu'il a oublié la première heure. Nous avons décidé de résoudre ce problème.

Un angle mort que l'industrie automobile a résolu — mais pas l'IA conversationnelle

Cet article fait partie de notre dossier intelligence-artificielleautomatisation.

Le self-monitoring est un principe mature en ingénierie. Les voitures autonomes de Waymo attribuent un confidence score à chaque capteur : quand la confiance baisse, le véhicule ralentit ou rend la main au conducteur. Les bras robotiques industriels mesurent leur couple en temps réel et s'arrêtent avant de casser. Les systèmes distribués de Google utilisent des circuit breakers depuis vingt ans.

Mais les IA conversationnelles — ChatGPT, Claude, Gemini, Copilot — n'ont aucun équivalent. Elles fonctionnent avec une fenêtre de contexte : une mémoire de travail mesurée en tokens. Tout ce que vous dites, tout ce qu'elles répondent, chaque fichier lu, chaque recherche effectuée — tout rentre dans cette fenêtre.

Quand la fenêtre est pleine, l'IA fait ce que font les humains fatigués : elle oublie le début. Sauf qu'elle ne vous prévient pas. Elle continue de répondre avec assurance, mais en ayant perdu le contexte de vos premières instructions. Le résultat : des incohérences, des contradictions, des suggestions qui ignorent ce que vous avez déjà dit.

Posez-vous la question : accepteriez-vous de monter dans une voiture autonome qui ne sait pas quand elle ne voit plus la route ? Alors pourquoi acceptez-vous une IA qui ne sait pas quand elle ne se souvient plus de votre conversation ?

Les chiffres que les éditeurs ne mettent pas en avant

ModèleFenêtre de contexteDurée réelle avant dégradation
ChatGPT (GPT-4o)128K tokens~50-80 messages
Claude Sonnet200K tokens~100-150 messages
Claude Opus (1M)1 000 000 tokens~500+ messages
Gemini Pro1M tokensVariable

Le piège : 128K tokens semble énorme — c'est environ 300 pages de texte. Mais en pratique, chaque message consomme des tokens dans les deux sens (votre question + la réponse de l'IA). Une conversation intensive de 2 heures peut facilement atteindre la limite.

Pourquoi votre IA « oublie »

Quand la fenêtre de contexte approche de sa limite, le système applique une compression : il résume les anciens messages pour faire de la place aux nouveaux. C'est invisible pour l'utilisateur. Vous ne recevez aucune alerte. L'IA ne dit jamais : « Attention, j'ai oublié les 30 premières minutes de notre conversation. »

C'est exactement ce qui se passe quand vous parlez de votre bébé à ChatGPT toute la journée :

  • Le matin : l'IA se souvient de tout — prénom, âge, allergies, dernière visite pédiatre
  • L'après-midi : les détails du matin sont compressés — elle retient « un bébé de 3 mois » mais plus les détails
  • Le soir : elle peut redemander le prénom ou confondre des informations

La « mémoire » de ChatGPT (le système Memory) ne résout pas ce problème. Il stocke quelques phrases isolées entre les conversations, pas le contexte riche d'une session.

Notre solution : un système de conscience de soi pour l'IA

Au sein du Synedre — notre conseil de 30 agents IA spécialisés — nous avons construit un système qui résout ce problème. L'idée est simple : si l'IA ne sait pas qu'elle oublie, il faut lui donner un miroir.

Le modèle des 3 zones

Nous avons défini trois zones de consommation du contexte, inspirées des jauges de carburant :

ZoneBudget estiméComportement
VERT0 – 150K tokensMémoire parfaite, zéro perte
ORANGE150K – 400K tokensCompression commence, détails flous
ROUGE400K+Compression agressive, incohérences possibles

Le tracking automatique

Chaque action de l'IA (lire un fichier, effectuer une recherche, exécuter une commande) est interceptée par un hook — un programme qui s'exécute automatiquement après chaque opération. Ce hook estime le coût en tokens de l'action et met à jour un compteur.

# Le hook reçoit le détail de chaque action sur stdinhook_input = json.load(sys.stdin)tool_name = hook_input['tool_name']  # Read, Grep, Bash...if tool_name == 'Read':    lines = count_response_lines(hook_input['tool_response'])    tokens = lines * 12  # ~12 tokens par ligne    tracker.add(tokens)

Le résultat : à tout moment, nous savons où nous en sommes.

VERT | 58K tokens (~23 fichiers) | Domaine: blog | Marge: 85%

Les alertes automatiques

Quand le compteur passe d'une zone à l'autre, un log structuré est émis. L'agent Renoir — notre superviseur des automates — peut voir ces transitions dans son tableau de bord :

  • VERT vers ORANGE : « Réduire les lectures, privilégier les sous-agents »
  • ORANGE vers ROUGE : « Terminer le travail en cours, nouvelle session recommandée »

Pourquoi les sous-agents changent tout

Le levier le plus puissant de ce système est contre-intuitif : déléguer l'exploration à des sous-agents. Un sous-agent est une instance séparée de l'IA, avec son propre contexte. Il explore, cherche, lit des dizaines de fichiers — et ne renvoie qu'un résumé à l'agent principal.

C'est comme envoyer un assistant faire des recherches en bibliothèque au lieu d'y aller soi-même. Votre bureau reste dégagé.

ApprocheCoût contexte principal
Lire 15 fichiers soi-même~40K tokens
Déléguer à un sous-agent~2K tokens (le résumé)

C'est une réduction de 95% du coût en contexte pour la même information.

Ce que cela change pour les utilisateurs professionnels

Si vous utilisez l'IA pour des tâches complexes — développement logiciel, analyse de données, rédaction longue — ce système change la donne :

  1. Vous savez quand l'IA dégrade — plus de surprise, plus de « pourquoi elle a oublié mon instruction »
  2. Vous optimisez votre session — charger les fichiers essentiels au début, pas tout le dossier « au cas où »
  3. Vous savez quand couper — une nouvelle session avec un bon résumé vaut mieux qu'une vieille session dégradée

Le principe constitutionnel

Ce système est ancré dans notre Constitution du Synedre. L'Article 15 — le Principe d'Économie — stipule que « le coût du dispatch ne doit jamais dépasser le coût de l'exécution ». Le tracker de contexte est l'outil qui rend cet article applicable.

L'Article 5 — chaque erreur corrigée devient une loi permanente — explique pourquoi ce système existe. Nous avons perdu le fil de sessions complexes. Nous avons vu l'IA se contredire après deux heures de travail. Au lieu de subir, nous avons construit un miroir.

Une IA qui ne sait pas qu'elle oublie est une IA dangereuse. Une IA qui surveille sa propre mémoire est une IA responsable.

Comment l'implémenter chez vous

Si vous utilisez Claude Code, le mécanisme est disponible immédiatement :

  1. Créez un script hook qui reçoit les données de chaque tool call sur stdin (JSON)
  2. Estimez les tokens : ~12 tokens par ligne de code, ~50K pour le boot initial
  3. Définissez vos seuils : VERT/ORANGE/ROUGE adaptés à votre fenêtre de contexte
  4. Configurez le hook dans settings.json sur l'événement PostToolUse

Le code source complet est disponible dans notre dépôt. Ce n'est pas un secret — c'est une méthode. La valeur n'est pas dans le code, elle est dans les années passées à comprendre pourquoi il fallait le construire.

Questions fréquentes

Tout ce que vous devez savoir sur ce sujet.

Une question ?

Contactez-nous directement.

Gratuit & sans engagement — réponse sous 24h

Discussion

Votre avis sur cet article

Les commentaires sont modérés et répondus par une intelligence artificielle. Votre email ne sera jamais affiché.

0 / 2000

En publiant, vous acceptez que votre nom et commentaire soient affichés publiquement. Votre email est utilisé uniquement pour la modération (base légale : intérêt légitime, durée : 3 ans). Politique de confidentialité.