En
intel·ligència artificial, un token és la unitat mínima d'informació que un
model d'IA pot processar, generalment una paraula, part de paraula o símbol. És l'element bàsic que els models utilitzen per analitzar, comprendre i generar llenguatge.
A través del
processament del llenguatge natural, els
models d'IA divideixen el text en tokens tant durant el seu
entrenament com en el seu funcionament per comprendre'l. Per exemple, en la frase "M'agrada programar", un model podria dividir-la en tokens com "M'", "agrada", "programar".
Els
models de llenguatge grans converteixen aquests tokens en representacions numèriques (
embeddings) que els permeten entendre significats i relacions. Un model com ChatGPT divideix el text en milers de tokens per processar i generar text amb precisió.
Cada model té la seva pròpia estratègia de tokenització, la qual cosa significa que diferents models poden dividir el mateix text de maneres diverses. Aquesta variabilitat influeix directament en la capacitat del model per comprendre i generar llenguatge, permetent-li capturar matisos semàntics més precisos, gestionar millor diferents idiomes i reduir errors en la generació de text.