#opg $OPG
Ocazional;-
Testam un scenariu de rutare pentru OpenGradient când, la o singură cerere, ținta de latență era ratată în mod repetat. Schedulerul a făcut exact ce trebuia: să aleagă cel mai apropiat nod de inferență. Pe hârtie, acesta era, evident, cea mai bună alegere. În practică, acel nod nu avea modelul pregătit. A început să preia modelul, în timp ce un nod ușor mai îndepărtat stătea cald și aproape inactiv. Calea de rețea mai scurtă s-a transformat într-o cale de execuție mai lentă.
A fost prima surpriză.
Mă gândeam la amplasarea nodurilor ca la un puzzle geografic: pui noduri mai aproape de utilizatori și latența se îmbunătățește. Dar, de fapt, este o problemă de coordonare care include geografia doar ca unul dintre factori. Distanța contează, desigur, dar contează și capacitatea GPU, presiunea din coadă în acel moment, dacă modelul este „cald” sau „rece” și cum se comportă mecanismul de fallback atunci când nodul principal are dificultăți. Harta vizibilă poate părea distribuită uniform, dar graful de dependențe din spate nu e, adesea, la fel.
O altă particularitate: două noduri din orașe diferite pot totuși să folosească același furnizor de cloud, același operator sau aceeași rețea regională, iar această dependență comună face ca eșecurile corelate să fie mai probabile. Nodurile full și nodurile de inferență joacă, de asemenea, jocuri diferite. Nodurile full țin mai mult de propagarea dovezilor și de independența față de întreruperile regionale, în timp ce nodurile de inferență se concentrează mai mult pe localitatea modelului și pe timpul de răspuns. Apoi, introduci și nodurile de date în ecuație — iar brusc, apropierea de sursa de date poate conta mai mult decât apropierea de utilizator.
Modelele de facility-location sunt utile deoarece fac aceste compromisuri evidente, dar nu rezolvă problema stimulentelor. Ce îi motivează pe operatori să adauge noduri exact acolo unde reduc efectiv latența vizibilă pentru utilizatori și modurile comune de eșec?
Testul real nu este harta în sine; este unde sunt desfășurate următoarele noduri și dacă acestea reduc măsurabil întârzierile și întreruperile corelate pe care utilizatorii le observă. Acesta ar trebui să fie indicatorul care să ghideze deciziile de amplasare, nu doar „geografia” de pe o hartă. @OpenGradient
Ocazional;-
Testam un scenariu de rutare pentru OpenGradient când, la o singură cerere, ținta de latență era ratată în mod repetat. Schedulerul a făcut exact ce trebuia: să aleagă cel mai apropiat nod de inferență. Pe hârtie, acesta era, evident, cea mai bună alegere. În practică, acel nod nu avea modelul pregătit. A început să preia modelul, în timp ce un nod ușor mai îndepărtat stătea cald și aproape inactiv. Calea de rețea mai scurtă s-a transformat într-o cale de execuție mai lentă.
A fost prima surpriză.
Mă gândeam la amplasarea nodurilor ca la un puzzle geografic: pui noduri mai aproape de utilizatori și latența se îmbunătățește. Dar, de fapt, este o problemă de coordonare care include geografia doar ca unul dintre factori. Distanța contează, desigur, dar contează și capacitatea GPU, presiunea din coadă în acel moment, dacă modelul este „cald” sau „rece” și cum se comportă mecanismul de fallback atunci când nodul principal are dificultăți. Harta vizibilă poate părea distribuită uniform, dar graful de dependențe din spate nu e, adesea, la fel.
O altă particularitate: două noduri din orașe diferite pot totuși să folosească același furnizor de cloud, același operator sau aceeași rețea regională, iar această dependență comună face ca eșecurile corelate să fie mai probabile. Nodurile full și nodurile de inferență joacă, de asemenea, jocuri diferite. Nodurile full țin mai mult de propagarea dovezilor și de independența față de întreruperile regionale, în timp ce nodurile de inferență se concentrează mai mult pe localitatea modelului și pe timpul de răspuns. Apoi, introduci și nodurile de date în ecuație — iar brusc, apropierea de sursa de date poate conta mai mult decât apropierea de utilizator.
Modelele de facility-location sunt utile deoarece fac aceste compromisuri evidente, dar nu rezolvă problema stimulentelor. Ce îi motivează pe operatori să adauge noduri exact acolo unde reduc efectiv latența vizibilă pentru utilizatori și modurile comune de eșec?
Testul real nu este harta în sine; este unde sunt desfășurate următoarele noduri și dacă acestea reduc măsurabil întârzierile și întreruperile corelate pe care utilizatorii le observă. Acesta ar trebui să fie indicatorul care să ghideze deciziile de amplasare, nu doar „geografia” de pe o hartă. @OpenGradient