#pair

Puteți presupune că acest lucru se aplică pentru majoritatea tokenizer-elor utilizate de LLM în prezent. De asemenea, este 4 tokeni pentru 3 cuvinte în medie, deci 0.75 cuvânt pe token. Variează în funcție de numărul total de tokeni posibili, dacă aveți doar câteva sute (litere și numere, de exemplu) atunci acea medie ar fi mult mai mică, fiind necesari mulți tokeni pentru un singur cuvânt, iar dacă aveți fiecare cuvânt care există, atunci media ar fi mai aproape de 1. Pentru ChatGpt, dimensiunea vocabularului lor este de 50k+. De asemenea, acest număr se aplică doar pentru limba engleză; pentru limbi precum japoneza sau chineza, tokenii pe cuvânt sunt mult mai mulți.