#opg $OPG Estaba subiendo un modelo grande a OpenGradient el otro día cuando un nodo dejó de responder.
El cliente lo intentó de nuevo. Luego la barra de progreso se deslizó hacia atrás. Empecé a observar el tráfico de red en lugar de la propia subida.
Había asumido que lo difícil era almacenar el modelo.
No lo era. El reintento expuso un problema diferente: cuántas veces podrían necesitar moverse los mismos gigabytes antes de que el modelo resulte utilizable en otro lugar.
Ahí es donde Walrus importa, pero no de la forma ordenada en que sugieren los diagramas de almacenamiento. Un ID de Blob no elimina la distancia. Un nodo de inferencia puede necesitar obtener el modelo, verificarlo, cargarlo en memoria y, luego, decidir si mantenerlo cerca vale el espacio.
Un modelo popular se convierte lentamente en infraestructura local. Uno que se usa poco se queda “frío”, esperando volver a convertirse en un problema de ancho de banda.
Sigo volviendo a la decisión de caché. @OpenGradient
Si se almacena demasiado poco, aparece latencia durante picos de demanda. Si se almacena demasiado, los operadores vuelven a crear la carga de almacenamiento que la arquitectura intentaba evitar.
La subida finalmente se completó. Lo que aún no sé es cómo se comporta el mismo sistema cuando cinco nodos fríos solicitan ese modelo a la vez.
¿Qué determina si Walrus escala los modelos de OpenGradient durante una demanda simultánea de arranque en frío?
El cliente lo intentó de nuevo. Luego la barra de progreso se deslizó hacia atrás. Empecé a observar el tráfico de red en lugar de la propia subida.
Había asumido que lo difícil era almacenar el modelo.
No lo era. El reintento expuso un problema diferente: cuántas veces podrían necesitar moverse los mismos gigabytes antes de que el modelo resulte utilizable en otro lugar.
Ahí es donde Walrus importa, pero no de la forma ordenada en que sugieren los diagramas de almacenamiento. Un ID de Blob no elimina la distancia. Un nodo de inferencia puede necesitar obtener el modelo, verificarlo, cargarlo en memoria y, luego, decidir si mantenerlo cerca vale el espacio.
Un modelo popular se convierte lentamente en infraestructura local. Uno que se usa poco se queda “frío”, esperando volver a convertirse en un problema de ancho de banda.
Sigo volviendo a la decisión de caché. @OpenGradient
Si se almacena demasiado poco, aparece latencia durante picos de demanda. Si se almacena demasiado, los operadores vuelven a crear la carga de almacenamiento que la arquitectura intentaba evitar.
La subida finalmente se completó. Lo que aún no sé es cómo se comporta el mismo sistema cuando cinco nodos fríos solicitan ese modelo a la vez.
¿Qué determina si Walrus escala los modelos de OpenGradient durante una demanda simultánea de arranque en frío?
Caching strategy
0%
Bandwidth availability
0%
Retrieval speed
0%
Node coordination
0%
0 Voto(s) • Votación cerrada