Estaba probando un escenario de enrutamiento para OpenGradient el otro día cuando una solicitud no conseguía alcanzar su objetivo de latencia.

El planificador eligió el nodo de inferencia más cercano. En el papel, esa era la decisión obvia.

Excepto que el nodo no tenía el modelo solicitado listo.

Empezó a descargar el modelo mientras que otro nodo, un poco más lejos, ya estaba preparado y en gran parte ocioso. La ruta de red más corta terminó siendo la ruta de ejecución más lenta.

Ese fue el primer desajuste.

Yo había estado tratando la colocación de nodos como un problema de geografía. Es más bien un problema de coordinación con geografía dentro. La distancia importa, pero también importan la capacidad de GPU, la presión de la cola, el estado del modelo y si el nodo de respaldo falla de una manera realmente distinta a la del nodo principal.

El mapa parecía distribuido. El grafo de dependencias no.

Dos nodos en ciudades diferentes aún pueden compartir un mismo proveedor de nube, un mismo operador o una misma falla de red regional.
$OPG
La prueba real es dónde aparecen los siguientes nodos y si reducen los retrasos y las fallas compartidas que los usuarios realmente pueden llegar a sentir.

¿Qué es lo que más importa al colocar nodos de OpenGradient a nivel global?
@OpenGradient
· Latencia
· Capacidad
· Resiliencia

#OPG #DeFAI #AIInfrastructure