En
intelligence artificielle, un token est l'unité minimale d'information qu'un
modèle d'IA peut traiter, généralement un mot, une partie de mot ou un symbole. C'est l'élément de base que les modèles utilisent pour analyser, comprendre et générer du langage.
À travers le
traitement du langage naturel, les
modèles d'IA divisent le texte en tokens lors de leur
entraînement et de leur fonctionnement pour le comprendre. Par exemple, dans la phrase "J'aime programmer", un modèle pourrait la diviser en tokens comme "J'", "aime", "programmer".
Les
modèles de langage de grande taille convertissent ces tokens en représentations numériques (
embeddings) qui leur permettent de comprendre les significations et les relations. Un modèle comme ChatGPT divise le texte en milliers de tokens pour traiter et générer du texte avec précision.
Chaque modèle a sa propre stratégie de tokenisation, ce qui signifie que différents modèles peuvent diviser le même texte de différentes manières. Cette variabilité influence directement la capacité du modèle à comprendre et générer du langage, lui permettant de capturer des nuances sémantiques plus précises, de mieux gérer différentes langues et de réduire les erreurs dans la génération de texte.