@OpenGradient $OPG #OPG
Bagian anehnya bukan jawabannya.
Tapi diam sebelum itu.
Saya membandingkan model yang sama di berbagai node dan berharap pengalaman yang hampir sama setiap kali.
Satu permintaan dimulai hampir segera.
Lainnya terjebak di layar loading cukup lama sehingga saya menyegarkan dua kali karena saya yakin ada yang salah.
Ternyata tidak ada yang salah.
Asumsi pertama saya adalah bahwa node tersebut kelebihan beban.
Ternyata tidak.
Permintaan sudah selesai.
Node dalam kondisi sehat.
Namun modelnya masih belum muncul.
Faktanya, permintaan sudah selesai di panel jaringan beberapa detik sebelum token pertama muncul.
Saat itulah saya menyadari bahwa keterlambatan tidak berasal dari proses generasi.
Ketika respons akhirnya datang, itu datang dengan cepat.
Model menghabiskan lebih banyak waktu untuk tiba daripada menjawab.
Selama beberapa menit, saya terus melihat metrik yang salah.
Saya mengukur kecepatan generasi ketika keterlambatan yang sebenarnya terjadi sebelum generasi dimulai.
Saat itulah saya berhenti memikirkan kecepatan inferensi dan mulai memikirkan ketersediaan model.
Kita sering berbicara tentang seberapa cepat AI dapat menghasilkan jawaban.
Kita berbicara jauh lebih sedikit tentang seberapa cepat model-model tersebut dapat berada di tempat yang diperlukan saat permintaan muncul.
Model-model populer jarang tidak tersedia dalam waktu lama.
Permintaan terus memberikan alasan kepada operator untuk menyimpannya di dekat.
Model yang kurang populer tidak mendapatkan kemewahan itu.
Mereka berhenti dianggap layak untuk disimpan dekat sampai permintaan kembali.
Model itu sendiri tidak berubah.
Jarak antara permintaan dan ketersediaan yang berubah.
Seiring dengan pertumbuhan jaringan AI, penyimpanan, pengambilan, verifikasi, dan residensi memori dapat memengaruhi pengalaman pengguna jauh sebelum generasi dimulai.
Semakin saya memikirkannya, semakin sedikit saya yakin bahwa kecerdasan akan menjadi tantangan skala yang paling sulit.
Distribusi mungkin menjadi tantangan.
Apa yang terjadi ketika model yang tidak ada yang peduli untuk disimpan di dekat tiba-tiba menjadi model yang diinginkan semua orang?
Bukan satu permintaan.
Bukan sepuluh.
Ribuan.
$NES $SLX
#SKHynixADRListing #OilErasesGains #OilSupplySurges #BTCFallsBelow200WeekMA
Pada saat itu, apa yang menjadi kendala yang sebenarnya?
Bagian anehnya bukan jawabannya.
Tapi diam sebelum itu.
Saya membandingkan model yang sama di berbagai node dan berharap pengalaman yang hampir sama setiap kali.
Satu permintaan dimulai hampir segera.
Lainnya terjebak di layar loading cukup lama sehingga saya menyegarkan dua kali karena saya yakin ada yang salah.
Ternyata tidak ada yang salah.
Asumsi pertama saya adalah bahwa node tersebut kelebihan beban.
Ternyata tidak.
Permintaan sudah selesai.
Node dalam kondisi sehat.
Namun modelnya masih belum muncul.
Faktanya, permintaan sudah selesai di panel jaringan beberapa detik sebelum token pertama muncul.
Saat itulah saya menyadari bahwa keterlambatan tidak berasal dari proses generasi.
Ketika respons akhirnya datang, itu datang dengan cepat.
Model menghabiskan lebih banyak waktu untuk tiba daripada menjawab.
Selama beberapa menit, saya terus melihat metrik yang salah.
Saya mengukur kecepatan generasi ketika keterlambatan yang sebenarnya terjadi sebelum generasi dimulai.
Saat itulah saya berhenti memikirkan kecepatan inferensi dan mulai memikirkan ketersediaan model.
Kita sering berbicara tentang seberapa cepat AI dapat menghasilkan jawaban.
Kita berbicara jauh lebih sedikit tentang seberapa cepat model-model tersebut dapat berada di tempat yang diperlukan saat permintaan muncul.
Model-model populer jarang tidak tersedia dalam waktu lama.
Permintaan terus memberikan alasan kepada operator untuk menyimpannya di dekat.
Model yang kurang populer tidak mendapatkan kemewahan itu.
Mereka berhenti dianggap layak untuk disimpan dekat sampai permintaan kembali.
Model itu sendiri tidak berubah.
Jarak antara permintaan dan ketersediaan yang berubah.
Seiring dengan pertumbuhan jaringan AI, penyimpanan, pengambilan, verifikasi, dan residensi memori dapat memengaruhi pengalaman pengguna jauh sebelum generasi dimulai.
Semakin saya memikirkannya, semakin sedikit saya yakin bahwa kecerdasan akan menjadi tantangan skala yang paling sulit.
Distribusi mungkin menjadi tantangan.
Apa yang terjadi ketika model yang tidak ada yang peduli untuk disimpan di dekat tiba-tiba menjadi model yang diinginkan semua orang?
Bukan satu permintaan.
Bukan sepuluh.
Ribuan.
$NES $SLX
#SKHynixADRListing #OilErasesGains #OilSupplySurges #BTCFallsBelow200WeekMA
Pada saat itu, apa yang menjadi kendala yang sebenarnya?
Caching
Bandwidth
Retrieval Speed
Compute
10 jam lagi
