#pair

Vous pouvez supposer que cela s'applique à la plupart des tokenizers utilisés par les LLM actuellement. De plus, c'est 4 tokens pour 3 mots en moyenne, donc 0,75 mot par token. Cela varie en fonction du nombre total de tokens possibles, si vous n'avez que quelques centaines (lettres et chiffres par exemple), alors cette moyenne serait beaucoup plus basse, de nombreux tokens nécessaires pour un seul mot et si vous avez chaque mot qui existe, alors la moyenne serait plus proche de 1. Pour ChatGpt, leur taille de vocabulaire est de 50k+. De plus, ce nombre s'applique uniquement à l'anglais, pour des langues telles que le japonais ou le chinois, le nombre de tokens par mot est beaucoup plus élevé.