CAIBA stabilește deja standardul 📊

De la lansare la începutul acestei luni:

• CAIA Benchmark v0.2 extins: 40 → 60 de sarcini

• Rezultatele arată că Tooling este mai eficient decât prompting

• Tokenomics cauzează probleme majorității modelelor

În curând:

• Extindere de la 60 la 80 de sarcini în CAIA v0.3

• Adăugarea mai multor agenți crypto (nu doar LLM-uri)

Toate rezultatele sunt în blogul complet legat mai jos