Walrus per i dataset AI: Archiviazione dei corpora di addestramento

@Walrus 🦭/acc I corpora di addestramento sono diventati la parte imbarazzante del lavoro AI: sono enormi, evolvono e spesso vivono dietro l'archiviazione di un team. È per questo che le persone stanno improvvisamente prestando attenzione all'archiviazione "blob" e alla disponibilità dei dati. Se un dataset deve essere riutilizzato, auditato o concesso in licenza, è necessario che sia facile da riferire e difficile da perdere silenziosamente. Walrus si struttura attorno a questo esatto bisogno: dati non strutturati che possono essere trattati come un vero patrimonio, non come un allegato email con una durata di vita.

Walrus archivia un corpus come un blob che è suddiviso e codificato tra molti nodi di archiviazione, quindi utilizza prove per dimostrare che rimane disponibile nel tempo, con Sui che funge da livello di controllo per cose come registrazione e gestione della durata. L'appello è semplice: meno assunzioni fragili e un modo piÚ pulito per indicare "il dataset su cui ci siamo effettivamente addestrati."

@Walrus 🦭/acc #walrus $WAL #Walrus