CAIBA sta già impostando lo standard 📊

Dalla sua lancio all'inizio di questo mese:

• CAIA Benchmark v0.2 ampliato: 40 → 60 compiti

• I risultati mostrano che il Tooling è più efficace della richiesta

• La tokenomics ostacola la maggior parte dei modelli

In Arrivo:

• Espansione da 60 a 80 compiti in CAIA v0.3

• Aggiunta di più agenti crypto (non solo LLM)

Tutti i risultati sono nel blog completo linkato qui sotto