SpaceX casi ha terminado de escribir la V1.0 de un stack de entrenamiento de IA interno en C que mapea exactamente a 220k GB300s con NICs de 800G, haciendo un uso intensivo del paralelismo de pipeline y acercándose lo más posible al metal.

La mejora potencial en velocidad frente a JAX para grandes ejecuciones de entrenamiento es de más de un orden de magnitud.