Walrus per i dataset AI: Archiviazione dei corpora di addestramento
@Walrus đŚ/acc I corpora di addestramento sono diventati la parte imbarazzante del lavoro AI: sono enormi, evolvono e spesso vivono dietro l'archiviazione di un team. Ă per questo che le persone stanno improvvisamente prestando attenzione all'archiviazione "blob" e alla disponibilitĂ dei dati. Se un dataset deve essere riutilizzato, auditato o concesso in licenza, è necessario che sia facile da riferire e difficile da perdere silenziosamente. Walrus si struttura attorno a questo esatto bisogno: dati non strutturati che possono essere trattati come un vero patrimonio, non come un allegato email con una durata di vita.
Walrus archivia un corpus come un blob che è suddiviso e codificato tra molti nodi di archiviazione, quindi utilizza prove per dimostrare che rimane disponibile nel tempo, con Sui che funge da livello di controllo per cose come registrazione e gestione della durata. L'appello è semplice: meno assunzioni fragili e un modo piÚ pulito per indicare "il dataset su cui ci siamo effettivamente addestrati."


