#pair

Anda dapat menganggap bahwa ini berlaku untuk sebagian besar tokenizer yang digunakan oleh LLM saat ini. Juga, ini adalah 4 token untuk 3 kata rata-rata, jadi 0,75 kata per token. Ini bervariasi berdasarkan jumlah total token yang mungkin, jika Anda hanya memiliki beberapa ratus (huruf dan angka misalnya) maka rata-ratanya akan jauh lebih rendah, banyak token yang dibutuhkan untuk satu kata dan jika Anda memiliki setiap kata yang ada maka rata-ratanya akan lebih mendekati 1. Untuk ChatGpt, ukuran kosakata mereka adalah 50k+. Juga, angka ini hanya berlaku untuk bahasa Inggris, untuk bahasa seperti Jepang atau Mandarin, token per kata jauh lebih tinggi.