Qu'est-ce que la fenêtre de contexte d'une IA ?

C'est la mémoire de travail de l'IA — tout ce qu'elle peut voir à un instant donné. Chaque message, chaque fichier lu, chaque réponse générée consomme une partie de cette fenêtre. Quand elle est pleine, les anciens éléments sont compressés ou supprimés.

Pourquoi ChatGPT oublie-t-il ma conversation ?

ChatGPT (GPT-4o) a une fenêtre de 128K tokens. Une conversation intensive de 2 heures peut la remplir. Quand c'est le cas, le système compresse silencieusement les anciens messages — vous ne recevez aucune alerte.

C'est quoi un token en intelligence artificielle ?

Un token est l'unité de base du langage pour une IA. En français, un token représente environ 3-4 caractères, soit grossièrement un mot. Une page de texte fait environ 500 tokens. Le mot bonjour fait 2-3 tokens selon le modèle.

Claude a-t-il le même problème de mémoire que ChatGPT ?

Claude a une fenêtre beaucoup plus grande (200K à 1M tokens selon le modèle). Le problème est le même mais survient plus tard. Avec 1M de contexte, une session intensive de plusieurs heures reste confortable — mais la surveillance reste nécessaire.

Qu'est-ce que la compression du contexte IA ?

Quand la fenêtre se remplit, le système résume les anciens messages pour faire de la place. Un échange de 50 messages peut être compressé en quelques phrases. Les détails sont perdus, seul l'essentiel est conservé — selon ce que le système juge essentiel.

La mémoire de ChatGPT résout-elle le problème d'oubli ?

Non. La fonctionnalité Memory de ChatGPT stocke quelques faits isolés entre les conversations. Elle ne préserve pas le contexte riche d'une session — les nuances, les instructions précises, le fil de la discussion.

Comment savoir si mon IA a commencé à oublier ?

Les signes : elle redemande une information déjà donnée, elle contredit une instruction précédente, elle propose une solution que vous avez déjà rejetée. Sans tracker de contexte, vous ne le voyez qu'après coup.

Qu'est-ce qu'un hook PostToolUse dans Claude Code ?

C'est un mécanisme de Claude Code qui exécute automatiquement un script après chaque action de l'IA (lire un fichier, chercher du code, exécuter une commande). Le script reçoit les détails de l'action sur stdin au format JSON.

Le tracking de contexte ralentit-il l'IA ?

Non. Le script de tracking s'exécute en moins de 50 millisecondes — imperceptible. Il ne logge dans le système de logs structuré que lors des changements de zone, pas à chaque action.

Pourquoi 12 tokens par ligne est une bonne estimation ?

C'est une heuristique conservatrice basée sur la longueur moyenne d'une ligne de code ou de texte en français (~40-50 caractères) divisée par le ratio caractères/token (~3-4). En pratique, les lignes courtes coûtent moins et les lignes denses coûtent plus — 12 est une moyenne fiable.

Qu'est-ce qu'un sous-agent IA et pourquoi économise-t-il du contexte ?

Un sous-agent est une instance séparée de l'IA avec sa propre fenêtre de contexte. Il peut explorer 20 fichiers et renvoyer un résumé de 200 lignes. Le contexte principal est préservé — c'est une réduction de 95% du coût en tokens.

Peut-on appliquer ce système de surveillance mémoire à ChatGPT ?

Pas directement — ChatGPT n'expose pas de hooks ni de mécanisme d'interception. Mais le principe des 3 zones peut s'appliquer manuellement : après ~50 messages avec GPT-4o, considérez que vous êtes en zone ORANGE. Après ~100, commencez une nouvelle conversation avec un résumé.

Quelle est la différence entre contexte et mémoire pour une IA ?

Le contexte est la mémoire de travail — ce que l'IA voit maintenant, dans cette conversation. La mémoire est la persistance entre conversations — des faits stockés sur disque. Le contexte est riche mais éphémère. La mémoire est pauvre mais durable. Un bon système a les deux.

Pourquoi les voitures autonomes ont ce monitoring mais pas les IA conversationnelles ?

Parce que les conséquences sont différentes. Une voiture qui ne surveille pas ses capteurs peut tuer quelqu'un — le monitoring est obligatoire. Pour un usage professionnel de l'IA, les conséquences existent aussi : instructions perdues, code incohérent, décisions prises sur des informations oubliées.

Le système de tracking du contexte IA est-il open source ?

La méthode est publique — documentée dans le blog et l'Academy. Le code source spécifique est lié à l'écosystème (Claude Code + Python + hooks), mais le principe est reproductible par quiconque utilise un outil d'IA avec des hooks ou une API.

intelligence-artificielle

Votre IA oublie tout au bout d'une heure — voici comment l'empêcher

ChatGPT, Claude, Copilot : pourquoi l'IA perd le fil en pleine session et comment nous avons construit un système de surveillance du contexte en temps réel.

6 min de lecture

Partager LinkedIn Facebook

Une Tesla sait quand ses caméras ne voient plus la route. Un drone sait quand sa batterie tombe sous le seuil critique. Un serveur Netflix sait quand il va crasher. Mais quand vous parlez à ChatGPT pendant deux heures, personne ne vous prévient qu'il a oublié la première heure. Nous avons décidé de résoudre ce problème.

Un angle mort que l'industrie automobile a résolu — mais pas l'IA conversationnelle

Le self-monitoring est un principe mature en ingénierie. Les voitures autonomes de Waymo attribuent un confidence score à chaque capteur : quand la confiance baisse, le véhicule ralentit ou rend la main au conducteur. Les bras robotiques industriels mesurent leur couple en temps réel et s'arrêtent avant de casser. Les systèmes distribués de Google utilisent des circuit breakers depuis vingt ans.

Mais les IA conversationnelles — ChatGPT, Claude, Gemini, Copilot — n'ont aucun équivalent. Elles fonctionnent avec une fenêtre de contexte : une mémoire de travail mesurée en tokens. Tout ce que vous dites, tout ce qu'elles répondent, chaque fichier lu, chaque recherche effectuée — tout rentre dans cette fenêtre.

Quand la fenêtre est pleine, l'IA fait ce que font les humains fatigués : elle oublie le début. Sauf qu'elle ne vous prévient pas. Elle continue de répondre avec assurance, mais en ayant perdu le contexte de vos premières instructions. Le résultat : des incohérences, des contradictions, des suggestions qui ignorent ce que vous avez déjà dit.

Posez-vous la question : accepteriez-vous de monter dans une voiture autonome qui ne sait pas quand elle ne voit plus la route ? Alors pourquoi acceptez-vous une IA qui ne sait pas quand elle ne se souvient plus de votre conversation ?

Les chiffres que les éditeurs ne mettent pas en avant

Modèle	Fenêtre de contexte	Durée réelle avant dégradation
ChatGPT (GPT-4o)	128K tokens	~50-80 messages
Claude Sonnet	200K tokens	~100-150 messages
Claude Opus (1M)	1 000 000 tokens	~500+ messages
Gemini Pro	1M tokens	Variable

Le piège : 128K tokens semble énorme — c'est environ 300 pages de texte. Mais en pratique, chaque message consomme des tokens dans les deux sens (votre question + la réponse de l'IA). Une conversation intensive de 2 heures peut facilement atteindre la limite.

Pourquoi votre IA « oublie »

Quand la fenêtre de contexte approche de sa limite, le système applique une compression : il résume les anciens messages pour faire de la place aux nouveaux. C'est invisible pour l'utilisateur. Vous ne recevez aucune alerte. L'IA ne dit jamais : « Attention, j'ai oublié les 30 premières minutes de notre conversation. »

C'est exactement ce qui se passe quand vous parlez de votre bébé à ChatGPT toute la journée :

Le matin : l'IA se souvient de tout — prénom, âge, allergies, dernière visite pédiatre
L'après-midi : les détails du matin sont compressés — elle retient « un bébé de 3 mois » mais plus les détails
Le soir : elle peut redemander le prénom ou confondre des informations

La « mémoire » de ChatGPT (le système Memory) ne résout pas ce problème. Il stocke quelques phrases isolées entre les conversations, pas le contexte riche d'une session.

Notre solution : un système de conscience de soi pour l'IA

Au sein du Synedre — notre conseil de 30 agents IA spécialisés — nous avons construit un système qui résout ce problème. L'idée est simple : si l'IA ne sait pas qu'elle oublie, il faut lui donner un miroir.

Le modèle des 3 zones

Nous avons défini trois zones de consommation du contexte, inspirées des jauges de carburant :

Zone	Budget estimé	Comportement
VERT	0 – 150K tokens	Mémoire parfaite, zéro perte
ORANGE	150K – 400K tokens	Compression commence, détails flous
ROUGE	400K+	Compression agressive, incohérences possibles

Le tracking automatique

Chaque action de l'IA (lire un fichier, effectuer une recherche, exécuter une commande) est interceptée par un hook — un programme qui s'exécute automatiquement après chaque opération. Ce hook estime le coût en tokens de l'action et met à jour un compteur.

# Le hook reçoit le détail de chaque action sur stdinhook_input = json.load(sys.stdin)tool_name = hook_input['tool_name']  # Read, Grep, Bash...if tool_name == 'Read':    lines = count_response_lines(hook_input['tool_response'])    tokens = lines * 12  # ~12 tokens par ligne    tracker.add(tokens)

Le résultat : à tout moment, nous savons où nous en sommes.

VERT | 58K tokens (~23 fichiers) | Domaine: blog | Marge: 85%

Les alertes automatiques

Quand le compteur passe d'une zone à l'autre, un log structuré est émis. L'agent Renoir — notre superviseur des automates — peut voir ces transitions dans son tableau de bord :

VERT vers ORANGE : « Réduire les lectures, privilégier les sous-agents »
ORANGE vers ROUGE : « Terminer le travail en cours, nouvelle session recommandée »

Pourquoi les sous-agents changent tout

Le levier le plus puissant de ce système est contre-intuitif : déléguer l'exploration à des sous-agents. Un sous-agent est une instance séparée de l'IA, avec son propre contexte. Il explore, cherche, lit des dizaines de fichiers — et ne renvoie qu'un résumé à l'agent principal.

C'est comme envoyer un assistant faire des recherches en bibliothèque au lieu d'y aller soi-même. Votre bureau reste dégagé.

Approche	Coût contexte principal
Lire 15 fichiers soi-même	~40K tokens
Déléguer à un sous-agent	~2K tokens (le résumé)

C'est une réduction de 95% du coût en contexte pour la même information.

Ce que cela change pour les utilisateurs professionnels

Si vous utilisez l'IA pour des tâches complexes — développement logiciel, analyse de données, rédaction longue — ce système change la donne :

Vous savez quand l'IA dégrade — plus de surprise, plus de « pourquoi elle a oublié mon instruction »
Vous optimisez votre session — charger les fichiers essentiels au début, pas tout le dossier « au cas où »
Vous savez quand couper — une nouvelle session avec un bon résumé vaut mieux qu'une vieille session dégradée

Le principe constitutionnel

Ce système est ancré dans notre Constitution du Synedre. L'Article 15 — le Principe d'Économie — stipule que « le coût du dispatch ne doit jamais dépasser le coût de l'exécution ». Le tracker de contexte est l'outil qui rend cet article applicable.

L'Article 5 — chaque erreur corrigée devient une loi permanente — explique pourquoi ce système existe. Nous avons perdu le fil de sessions complexes. Nous avons vu l'IA se contredire après deux heures de travail. Au lieu de subir, nous avons construit un miroir.

Une IA qui ne sait pas qu'elle oublie est une IA dangereuse. Une IA qui surveille sa propre mémoire est une IA responsable.

Comment l'implémenter chez vous

Si vous utilisez Claude Code, le mécanisme est disponible immédiatement :

Créez un script hook qui reçoit les données de chaque tool call sur stdin (JSON)
Estimez les tokens : ~12 tokens par ligne de code, ~50K pour le boot initial
Définissez vos seuils : VERT/ORANGE/ROUGE adaptés à votre fenêtre de contexte
Configurez le hook dans settings.json sur l'événement PostToolUse

Le code source complet est disponible dans notre dépôt. Ce n'est pas un secret — c'est une méthode. La valeur n'est pas dans le code, elle est dans les années passées à comprendre pourquoi il fallait le construire.

Questions fréquentes

Tout ce que vous devez savoir sur ce sujet.

: C'est la mémoire de travail de l'IA — tout ce qu'elle peut voir à un instant donné. Chaque message, chaque fichier lu, chaque réponse générée consomme une partie de cette fenêtre. Quand elle est pleine, les anciens éléments sont compressés ou supprimés.
: ChatGPT (GPT-4o) a une fenêtre de 128K tokens. Une conversation intensive de 2 heures peut la remplir. Quand c'est le cas, le système compresse silencieusement les anciens messages — vous ne recevez aucune alerte.
: Un token est l'unité de base du langage pour une IA. En français, un token représente environ 3-4 caractères, soit grossièrement un mot. Une page de texte fait environ 500 tokens. Le mot bonjour fait 2-3 tokens selon le modèle.
: Claude a une fenêtre beaucoup plus grande (200K à 1M tokens selon le modèle). Le problème est le même mais survient plus tard. Avec 1M de contexte, une session intensive de plusieurs heures reste confortable — mais la surveillance reste nécessaire.
: Quand la fenêtre se remplit, le système résume les anciens messages pour faire de la place. Un échange de 50 messages peut être compressé en quelques phrases. Les détails sont perdus, seul l'essentiel est conservé — selon ce que le système juge essentiel.
: Non. La fonctionnalité Memory de ChatGPT stocke quelques faits isolés entre les conversations. Elle ne préserve pas le contexte riche d'une session — les nuances, les instructions précises, le fil de la discussion.
: Les signes : elle redemande une information déjà donnée, elle contredit une instruction précédente, elle propose une solution que vous avez déjà rejetée. Sans tracker de contexte, vous ne le voyez qu'après coup.
: C'est un mécanisme de Claude Code qui exécute automatiquement un script après chaque action de l'IA (lire un fichier, chercher du code, exécuter une commande). Le script reçoit les détails de l'action sur stdin au format JSON.
: Non. Le script de tracking s'exécute en moins de 50 millisecondes — imperceptible. Il ne logge dans le système de logs structuré que lors des changements de zone, pas à chaque action.
: C'est une heuristique conservatrice basée sur la longueur moyenne d'une ligne de code ou de texte en français (~40-50 caractères) divisée par le ratio caractères/token (~3-4). En pratique, les lignes courtes coûtent moins et les lignes denses coûtent plus — 12 est une moyenne fiable.
: Un sous-agent est une instance séparée de l'IA avec sa propre fenêtre de contexte. Il peut explorer 20 fichiers et renvoyer un résumé de 200 lignes. Le contexte principal est préservé — c'est une réduction de 95% du coût en tokens.
: Pas directement — ChatGPT n'expose pas de hooks ni de mécanisme d'interception. Mais le principe des 3 zones peut s'appliquer manuellement : après ~50 messages avec GPT-4o, considérez que vous êtes en zone ORANGE. Après ~100, commencez une nouvelle conversation avec un résumé.
: Le contexte est la mémoire de travail — ce que l'IA voit maintenant, dans cette conversation. La mémoire est la persistance entre conversations — des faits stockés sur disque. Le contexte est riche mais éphémère. La mémoire est pauvre mais durable. Un bon système a les deux.
: Parce que les conséquences sont différentes. Une voiture qui ne surveille pas ses capteurs peut tuer quelqu'un — le monitoring est obligatoire. Pour un usage professionnel de l'IA, les conséquences existent aussi : instructions perdues, code incohérent, décisions prises sur des informations oubliées.
: La méthode est publique — documentée dans le blog et l'Academy. Le code source spécifique est lié à l'écosystème (Claude Code + Python + hooks), mais le principe est reproductible par quiconque utilise un outil d'IA avec des hooks ou une API.

Une question ?

Contactez-nous directement.

contact@alexandrecarette.fr ← Tous les articles

Discussion

Cluster Sémantique

Voir tous les articles

intelligence-artificielle

Harnais Agent IA en Production : les 4 Piliers de la Fiabilité

Pourquoi 95 % des projets IA échouent en production et comment bâtir un harnais d'agent fiable. 4 piliers concrets pour un système qui apprend de ses erreurs.

27 avr. 2026

Lire l'article

intelligence-artificielle

Diviser par 49 ses tokens Claude Code : guide pratique

Comment réduire de 49x la consommation de tokens Claude Code grâce à CLAUDE.md, compact mode et subagents. Retour d'expérience multi-agents e-commerce.

13 avr. 2026

Lire l'article

intelligence-artificielle

IA e-commerce : 7 automatisations qui génèrent du CA 24/7

Découvrez 7 automatisations IA e-commerce qui génèrent du chiffre d'affaires en continu. Relance panier, pricing dynamique, recommandations : guide expert 2026.

11 avr. 2026

Lire l'article

Voir tous les articles sur Intelligence-artificielle

Un angle mort que l'industrie automobile a résolu — mais pas l'IA conversationnelle

Les chiffres que les éditeurs ne mettent pas en avant

Pourquoi votre IA « oublie »

Notre solution : un système de conscience de soi pour l'IA

Le modèle des 3 zones

Le tracking automatique

Les alertes automatiques

Pourquoi les sous-agents changent tout

Ce que cela change pour les utilisateurs professionnels

Le principe constitutionnel

Comment l'implémenter chez vous

Questions fréquentes

Discussion

Votre avis sur cet article

Nos conseils liés à Intelligence-artificielle

Harnais Agent IA en Production : les 4 Piliers de la Fiabilité

Diviser par 49 ses tokens Claude Code : guide pratique

IA e-commerce : 7 automatisations qui génèrent du CA 24/7