Concept fondamental du traitement automatique du langage. La tokenisation moderne par sous-mots (BPE, Byte-Pair Encoding) est introduite par Sennrich et al. (2015) puis généralisée par GPT-2 (OpenAI, 2019).
Définition
Unité de base du langage pour une IA. En français, un token représente environ 3-4 caractères, soit grossièrement un mot. Le mot « bonjour » fait 2-3 tokens. Une page de texte fait environ 500 tokens. Les modèles facturent et limitent leur usage en tokens.
Une page d'article blog AC fait environ 4 000 tokens : Claude Opus peut donc charger 250 articles en mémoire simultanément.
Nous travaillons avec Alexandre depuis quelques mois et sommes ravis de son a
Nous travaillons avec Alexandre depuis quelques mois et sommes ravis de son accompagnement. Alexandre comprend parfaitement les enjeux et problématiques liés à notre activité et parvient, en réponse, à nous apporter des solutions techniques et fonctionnelles en respectant coûts et délais.
janv. 2023
La résolution de mes problèmes à été rapide et efficace, je recommande :)
La résolution de mes problèmes à été rapide et efficace, je recommande :).
oct. 2022
Super
Super
juin 2022
Au Top
Au Top. tout simplement
juin 2022
Configuration d''un VPS et migration réalisée avec succès, bons conseils, dia
Configuration d'un VPS et migration réalisée avec succès, bons conseils, diagnostique rapide et efficace de nos problèmes. Je recommande.
mai 2022
Toujours aussi clair et clairvoyant
Toujours aussi clair et clairvoyant... ;) Un plaisir de travailler avec Alexandre