CAIBA sta già impostando lo standard 📊
Dalla sua lancio all'inizio di questo mese:
• CAIA Benchmark v0.2 ampliato: 40 → 60 compiti
• I risultati mostrano che il Tooling è più efficace della richiesta
• La tokenomics ostacola la maggior parte dei modelli
In Arrivo:
• Espansione da 60 a 80 compiti in CAIA v0.3
• Aggiunta di più agenti crypto (non solo LLM)
Tutti i risultati sono nel blog completo linkato qui sotto
