CAIBA stabilește deja standardul 📊
De la lansare la începutul acestei luni:
• CAIA Benchmark v0.2 extins: 40 → 60 de sarcini
• Rezultatele arată că Tooling este mai eficient decât prompting
• Tokenomics cauzează probleme majorității modelelor
În curând:
• Extindere de la 60 la 80 de sarcini în CAIA v0.3
• Adăugarea mai multor agenți crypto (nu doar LLM-uri)
Toate rezultatele sunt în blogul complet legat mai jos
