Ostatnio, starszy menedżer produktów AI w Google, Shubham Saboo, ujawnił zestaw zautomatyzowanego systemu wieloagentowego, który stabilnie działa od miesiąca. W przeciwieństwie do rozwiązań agentów AI, które pozostają na etapie demonstracyjnym, ten system zbudowano na otwartej platformie OpenClaw i codziennie rzeczywiście przejmuje jego sześć codziennych zadań: badania dynamiczne AI, pisanie tweetów, produkcję treści LinkedIn, redagowanie biuletynów informacyjnych, przegląd kodu oraz zarządzanie sprawami społecznościowymi.

Ten zespół składający się z 6 inteligentnych agentów AI działa automatycznie, gdy on śpi; Saboo musi jedynie rano, w ciągu 10 minut picia kawy, przejrzeć zatwierdzenie, aby każdego dnia zaoszczędzić 4 do 5 godzin na skupieniu się na sprawach, które naprawdę wymagają ludzkiego umysłu.

Saboo nadał swoim 6 agentom AI imiona według różnych bohaterów z amerykańskich seriali. 6 agentów AI, 6 stanowisk; obowiązki są jasno określone, każdy ma swoje zadania.

Ten system definiuje tożsamość i zasady postępowania każdego agenta AI za pomocą pliku SOUL.md, zastępując skomplikowane ramy komunikacji API prostym systemem współdzielonych plików, a także gromadząc preferencje użytkowników dzięki podwójnej pamięci.

Warto zaznaczyć, że cały system zbudowany przez Saboo można wdrożyć i uruchomić na jednym zwykłym komputerze, a miesięczny koszt wynosi mniej niż 400 dolarów (około 2760 yuanów).

Saboo jest założycielem społeczności programistycznej Unwind AI, która pomaga ponad 6000 subskrybentów nauczyć się budować duże modele, RAG i aplikacje Agent w zaledwie trzy minuty dziennie. Ponadto stworzył popularne repozytorium GitHub Awesome LLM Apps, które gromadzi różnorodne przypadki zastosowania dużych modeli, jest jednym z najbardziej popularnych zbiorów praktycznych poradników dotyczących zastosowań AI, a liczba gwiazdek na GitHubie już osiągnęła 99,5k.

▲Shubham Saboo, starszy menedżer produktów AI w Google (źródło zdjęcia: LinkedIn)

Ten długi artykuł opublikowany przez niego na X szczegółowo ujawnia pełne myśli na temat budowy tego systemu opartego na OpenClaw, strukturze plików, rzeczywistych kosztach i napotkanych problemach, zdobywając ponad 1 milion wyświetleń.

▲Zrzut ekranu tweetu Shubham Saboo na platformie X

01.

System współpracy wielu ról oparty na OpenClaw

6 agentów, każdy z własnymi obowiązkami

Na co dzień Saboo musi codziennie wykonać sześć zadań: śledzić najnowsze trendy w dziedzinie AI, pisać tweety, tworzyć posty na LinkedIn, przygotowywać biuletyny dla subskrybentów, przeglądać wkłady kodowe projektów open source oraz zajmować się problemami społeczności. Każde z tych zadań wydaje się niewielkie, ale każde wymaga od 30 do 60 minut.

Saboo najpierw próbował rozwiązania polegającego na tym, że jeden AI agent zajmuje się wszystkim. Dał agentowi wskazówki, aby badał, pisał i sprawdzał, ale jakość wyjścia nie była optymistyczna. Jeden AI agent nie może jednocześnie pełnić sześciu różnych ról.

Saboo zbudował 6 agentów AI na podstawie OpenClaw i nadał im imiona według różnych bohaterów z amerykańskich seriali. Korzyścią z tego podejścia jest to, że wystarczy wpisać imię, a model może wydobyć cechy charakterystyczne i styl pracy tej osoby na podstawie istniejących danych.

W zespole AI Saboo najważniejszą rolą jest Monika, z którą Saboo codziennie najczęściej wchodzi w interakcję. Ta "doradczyni" ma na imię Monika Geller z (Przyjaciół). Jej obowiązki obejmują zarządzanie całością, organizację i przydzielanie odpowiednich zadań odpowiednim osobom, a także zajmowanie się tymi sprawami, które nie są jasno przypisane do nikogo.

Zespół wywiadowczy Dwight, nazwany na cześć Dwighta Schrute z (Biura). Codziennie przeprowadza trzy badania, sprawdzając platformę X, Hacker News, popularne projekty GitHub, blogi AI oraz publikacje akademickie, a następnie tworzy zorganizowane raporty wywiadowcze do użytku przez pozostałych agentów AI.

Po przeczytaniu raportu Dwighta, pierwszą osobą, która podejmuje działania, jest twórca tweetów Kelly. Jej imię pochodzi od Kelly Kapoor z (Biura), specjalizuje się w pisaniu tweetów w stylu i tonie Saboo — zarówno pojedyncze tweety, jak i wątki, a także cytaty są w jej zasięgu. Jej osobowość definiuje zdanie w SOUL.md: "Kiedy trend jeszcze nie stał się trendem, już to wiesz."

Ta sama informacja, gdy trafia do twórcy postów na LinkedIn, Rachel, jest całkowicie inaczej prezentowana. Nazwana na cześć Rachel Green z (Przyjaciół), skierowana jest do profesjonalnej publiczności na LinkedIn — ludzie tam nie interesują się gorącymi tematami, ale chcą zobaczyć wnikliwe analizy branżowe i profesjonalne opinie, więc styl Rachel jest bardziej stonowany, przypominający wystąpienie lidera myśli.

Inżynier Ross, imię pochodzi od Rossa Gellera z (Przyjaciół), odpowiedzialny za przegląd kodu, naprawę błędów i realizację techniczną. W jego zasadach postępowania napisano: "Gdy zajmujesz się problemem, zrozum go całkowicie, nie tylko naprawiaj powierzchnię."

Redaktor biuletynów Pam, nazwany na cześć Pam Beesly z (Biura). Przekształca codzienne raporty wywiadowcze Dwighta w biuletyny informacyjne i wysyła je do subskrybentów.

02.

Cały system działa na podstawie jednego pliku tekstowego

Zwykły komputer wystarczy do zbudowania pełnego systemu


System stworzony przez Saboo działa na komputerze Mac mini z chipem M4, ale Saboo podkreśla, że ​​to urządzenie nie ma nic wyjątkowego, każde urządzenie, które może działać przez długi czas, będzie wystarczające. Używa Mac mini, ponieważ jest mały, cichy, oszczędny i wygodny.

Na podstawie dwóch poleceń zainstalował OpenClaw w mniej niż pięć minut. Oto jego proces budowania wspomnianych 6 inteligentnych agentów AI:

1. SOUL.md: podręcznik "pracownika" dla AI

Najważniejszym projektem całego systemu jest zwykły plik tekstowy o nazwie SOUL.md.

Obecnie duże modele domyślnie nie mają zdolności do trwałej pamięci, po zakończeniu każdej sesji nie zachowują żadnych treści interakcji. Gdy rozpoczyna się nowa sesja, model ani nie zna historii użytkownika, ani nie pamięta przydzielonej mu roli i obowiązków.

SOUL.md zostało zaprojektowane w celu rozwiązania problemu "zapominania o sesji". Za każdym razem, gdy agent AI uruchamia nową sesję, system automatycznie ładuje ten plik, zapisując identyfikację, zakres obowiązków, zasady postępowania oraz relacje współpracy z innymi agentami w kontekście. Innymi słowy, to jak strukturalny "opis stanowiska", który kończy inicjalizację ról przed każdym uruchomieniem, zapewniając, że agenci AI zachowują spójność w zachowaniu między różnymi sesjami.

Przykład agenta wywiadowczego Dwighta, jego SOUL.md określa: każde dane muszą mieć dołączony link źródłowy, nie wolno szacować; niepewne treści oznaczają "niezweryfikowane"; nie wiedzieć, lepiej niż podać błędną odpowiedź.

SOUL.md doradcy Moniki stanowi, że należy bezpośrednio udzielać skutecznej pomocy, pomijając zbędne wyrażenia; treści tweetów są przekazywane Kelly, problemy z kodem są przekazywane Rossowi, a zadania o niejasnych obowiązkach są przejmowane przez Monikę; dopuszcza się wyrażanie różnych opinii.

Każde SOUL.md ma od 40 do 60 linii, aby zachować zwięzłość. Powód jest taki, że "stolnica" AI do przetwarzania informacji jest ograniczona (w terminologii technicznej nazywa się to oknem kontekstowym), a zbyt długi SOUL.md będzie ograniczał dostępne miejsce na realne zadania agentów.

2. Mechanizm współpracy agentów: zastąpienie komunikacji API systemem plików

Saboo zrealizował współpracę 6 agentów AI za pomocą współdzielonego folderu.

Konkretna procedura wygląda następująco: agent wywiadowczy Dwight kończy zbieranie informacji, zapisując wyniki w pliku DAILY-INTEL.md; zadania cykliczne Kelly, Rachel i Pam są kolejno uruchamiane, a każdy z nich odczytuje dany plik, generując odpowiednio szkic tweetu, post na LinkedIn i biuletyn informacyjny. Plik konfiguracyjny Dwighta określa, że zapisuje wyniki w określonej ścieżce, a pliki konfiguracyjne agentów takich jak Kelly określają, że odczytują wywiad z tej ścieżki, aby zakończyć przekazywanie informacji.

Ten projekt wygląda na "prosty", ale unika typowych problemów integracji systemów, takich jak wygaszenie uwierzytelnienia, ograniczenia prędkości API itp. Przechowywanie danych odbywa się w podwójnym formacie: dane zorganizowane są przechowywane w formacie JSON do usuwania duplikatów przez maszyny i długoterminowego śledzenia; treści podsumowujące do odczytu przez agentów przechowywane są w formacie Markdown.

3. System pamięci: sprawia, że AI staje się coraz mądrzejsza

AI za każdym razem zapomina, jak sprawić, by coraz lepiej poznawało twój styl i preferencje?

Saboo zaprojektował dla tego systemu dwuwarstwową strukturę pamięci. Codzienne dzienniki są przechowywane w memory/YYYY-MM-DD.md, rejestrując wykonanie zadań, zawartość szkiców i opinie użytkowników, które są na bieżąco zapisywane przez agenta w trakcie pracy. Długoterminowa pamięć jest przechowywana w MEMORY.md, regularnie wydobywając regularne treści z dzienników codziennych, w tym preferencje użytkowników, zapisy dotyczące zmian zasad postępowania itp.

W pliku AGENTS.md, który automatycznie ładowany na początku każdej sesji agenta, wyraźnie określono zasady postępowania: po restarcie sesji żadne tymczasowe zapisy nie są zachowywane, a wszystko, co należy zachować, musi być zapisane w pliku.

Ten mechanizm w praktyce przejawia się w tym, że twórca tweetów Kelly początkowo wygenerował szkic tweetu zawierający wiele emotikonów i wykrzykników, po informacji zwrotnej od Saboo Kelly wprowadziła tę zasadę stylu do pliku pamięci, a późniejsze generowane szkice automatycznie przestrzegają tej zasady bez potrzeby powtarzania wskazówek. Agent wywiadowczy Dwight początkowo uwzględniał wszystkie popularne treści w swoim raporcie, po prośbie Saboo o skupienie się na kluczowych sygnałach, jego kryteria selekcji zostały zaktualizowane, a jakość kolejnych raportów wzrosła.

AI sama w sobie nie stała się mądrzejsza, ale „doświadczenie”, które ładowała, stale się gromadzi, a efektem tego jest, że staje się coraz lepsza w użyciu.

4. Zadania cykliczne: pozwól AI automatycznie się obudzić i pracować

Te sześć inteligentnych agentów AI nie zostało obudzonych ręcznie przez Saboo, ale uruchamiają się automatycznie zgodnie z ich harmonogramami. Ich kolejność to: agent wywiadowczy Dwight uruchamia się jako pierwszy, ponieważ wszyscy inni muszą przeczytać jego raport. Twórcy tweetów Kelly i twórca LinkedIn Rachel uruchamiają się po Dwightcie, ponieważ potrzebują, aby plik wywiadowczy już istniał.

OpenClaw ma wbudowaną funkcję harmonogramu zadań, Saboo ustawia czas, wyłącza terminal, a AI samo zaczyna pracować punktualnie.

5. Mechanizm tolerancji błędów: automatyczne przywracanie zadań na podstawie plików pingowych

Zadania cykliczne nie są w 100% niezawodne, ponowne uruchomienie maszyny, przerwy w sieci, ograniczenia prędkości API i inne czynniki mogą spowodować, że niektóre zadania cykliczne nie zostaną wykonane na czas.

W celu rozwiązania tego problemu, Saboo wprowadził do systemu plik pingowy HEARTBEAT.md. Monica regularnie sprawdza czas ostatniego uruchomienia wszystkich zadań cyklicznych, a gdy wykryje, że jakieś zadanie nie było wykonywane przez ponad 26 godzin, automatycznie uruchamia wymuszone ponowne uruchomienie, bez potrzeby interwencji człowieka.

03.

Pojedynczy agent powinien działać przez tydzień, zanim zostanie wprowadzona większa liczba agentów.

Należy wielokrotnie korygować ustawienia agentów

1. Brak potrzeby panelu zarządzania, interakcja z agentami przez Telegram

Saboo i jego codzienna interakcja z 6 agentami AI nie opiera się na żadnym panelu zarządzania, lecz odbywa się za pośrednictwem Telegrama. OpenClaw obsługuje przyłączenie agentów do Telegrama, po skonfigurowaniu agenci działają jako konta botów, a użytkownicy mogą bezpośrednio wysyłać polecenia, odbierać szkice i dokonywać zatwierdzeń.

Na przykład w typowym dniu roboczym: rano otwiera Telegram, Dwight już wysłał dzisiejsze podsumowanie trendów AI, Kelly przesłała 3 szkice tweetów do zatwierdzenia, a post Rachel na LinkedIn jest gotowy. W ciągu 10 minut przy kawie przegląda wysłane przez agentów treści, a następnie rozpoczyna pracę na dany dzień.

2. Przestań pisać idealne podpowiedzi, agenci AI muszą być poprawiani wielokrotnie

Saboo mówi, że wiele osób przy budowie systemów AI ma tendencję do pisania podpowiedzi zbyt szeroko na początku. Uważa, że to nie działa i nie jest konieczne.

Nazwanie każdego agenta AI na podstawie postaci z amerykańskich seriali zapewnia początkową bazę charakteru, ale stabilny styl pracy wymaga ciągłej iteracji przez sprzężenie zwrotne. Saboo nazywa proces optymalizacji agentów AI "inżynierią korekcyjną podpowiedzi": polega to na tym, że AI daje wstępną, niedoskonałą wersję, obserwuje jej rzeczywiste zachowanie, wskazuje błędy, aby AI zapisało zasady poprawek w pliku pamięci, a w kolejnych sesjach ładowało je do działania. Saboo mówi: "To jak prowadzenie nowego pracownika."

Doświadczenie Saboo jest takie, że pierwszy model agenta jest przeciętny, dziesiąty jest użyteczny, a trzydziesty jest znakomity, dlatego należy nieustannie inwestować w optymalizację. Ponadto ustalenie dla każdego agenta jednoznacznego zakresu obowiązków i warunków zakończenia przyczynia się do zwiększenia stabilności wyjścia.

3. Przestrzeganie izolacji uprawnień, ściśle kontrolowanie zakresu dostępu do danych

Jak zapewnić bezpieczeństwo informacji, gdy codzienne zadania są powierzane AI?

Główną strategią bezpieczeństwa Saboo jest izolacja uprawnień: zespół AI działa na dedykowanym urządzeniu Mac mini, a wszystkie używane konta i klucze API są osobno wnioskowane, całkowicie izolowane od jego osobistego konta, a dostęp do każdego serwisu można niezależnie zamknąć. Nie przyznaje agentom bezpośrednich uprawnień do jakichkolwiek osobistych kont, a wszystkie treści, które agenci muszą przetworzyć, są przekazywane ręcznie lub udostępniane przez Telegram, co zapewnia, że zakres dostępu do danych przez agentów jest całkowicie kontrolowany.

Saboo mówi, że to działa na podobnej zasadzie jak zarządzanie prawdziwymi pracownikami, w pierwszym dniu pracy firma nie przyznaje ci wszystkich uprawnień systemowych, ale przydziela je na podstawie potrzeb, a w miarę budowania zaufania stopniowo je rozszerza.

4. Infrastruktura zawsze zawodzi, Saboo napotkał te pięć problemów

Saboo wymienia kilka typowych awarii tego systemu w poście oraz odpowiadające im rozwiązania.

Gdy brama ulegnie awarii, wystarczy wykonać polecenie ponownego uruchomienia, aby przywrócić działanie, mechanizm pingowy automatycznie uzupełni niezrealizowane zadania. Zadania cykliczne, które nie zostały wykonane na czas z powodu przerwy w sieci, uśpienia urządzenia lub ograniczeń prędkości API, spowodują, że mechanizm pingowy automatycznie wyzwoli ponowne uruchomienie, gdy wykryje, że zadanie nie było wykonywane przez ponad 26 godzin. Spadek jakości wyjścia agentów zwykle spowodowany jest nadmiarem lub sprzecznymi treściami w plikach pamięci, dlatego należy regularnie wydobywać skuteczne doświadczenia do plików długoterminowych, archiwizować lub usuwać przestarzałe dzienniki. Równoczesne zapisywanie przez wielu agentów w tym samym pliku może prowadzić do konfliktów danych, dlatego na etapie projektowania należy wyraźnie określić, że każdy plik jest odpowiedzialny za zapis tylko przez jednego agenta, a pozostali agenci tylko odczytują. Gdy zbyt wiele plików do załadowania sesji prowadzi do przelania kontekstu, należy ograniczyć SOUL.md do 60 linii, a w każdej sesji ładować tylko dzienniki pamięci z dnia bieżącego i poprzedniego.

Saboo zaleca, aby na początku wdrożyć pojedynczego agenta, a po jego stabilnym działaniu przez tydzień stopniowo rozszerzać, ponieważ zbyt wczesne rozszerzenie zwiększy trudności w rozwiązywaniu problemów.

04.

W czterech etapach zbudowano system agentów

Miesięczny koszt wynosi mniej niż 3000 yuanów

1. Miesięczny koszt poniżej 400 dolarów, w zamian za sześciu całodobowych pracowników AI

W zakresie sprzętu, Saboo używa Mac mini z chipem M4, którego cena początkowa wynosi 499 dolarów (około 3443 yuanów), dowolne urządzenie, które może działać przez długi czas, może być użyte jako zamiennik. W kwestii użycia modeli, większość zadań agentów korzysta z Claude Opus i Sonnet, a część przepływów roboczych korzysta z Gemini. Testuje również lokalne modele na Ollama, próbując dalej obniżyć koszty.

Szczegóły wszystkich kosztów są następujące:

Claude (pakiet Max): 200 dolarów/miesiąc (około 1380 yuanów/miesiąc)

Gemini API: 50-70 dolarów/miesiąc (około 345-483 yuanów/miesiąc)

TinyFish (agent sieciowy): około 50 dolarów/miesiąc (około 345 yuanów/miesiąc)

Eleven Labs (głos): około 50 dolarów/miesiąc (około 345 yuanów/miesiąc)

Telegram: darmowy

OpenClaw: darmowy

Łącznie: mniej niż 400 dolarów/miesiąc (około 2760 yuanów/miesiąc)

2. Oszczędzanie czasu to punkt wyjścia, a stałe gromadzenie plików pamięci to prawdziwa bariera

W zakresie poprawy efektywności, agent wywiadowczy Dwight codziennie oszczędza Saboo od 2 do 3 godzin pracy badawczej. Wcześniej Saboo musiał codziennie rano ręcznie sprawdzać X, Hacker News, popularne projekty GitHub i blogi AI, teraz budzi się z gotowym podsumowaniem priorytetów z linkami źródłowymi i zadaniami do wykonania. Twórcy tweetów Kelly, redaktorzy biuletynów Pam i twórcy LinkedIn Rachel łącznie oszczędzają od 1 do 2 godzin czasu na tworzenie treści, a inżynier Ross przejął wcześniej zadanie inżynieryjne, które zajmowało całe noce. Sześć agentów AI codziennie oszczędza Saboo od 4 do 5 godzin.

Saboo zauważa, że długoterminowa wartość wynikająca z nieprzerwanego działania tego systemu również nie powinna być ignorowana. Na przykład w przypadku zadań badawczych, agenci codziennie wykonują swoją pracę, gromadząc sygnały oraz umiejętności oceny trendów, co będzie się stopniowo poprawiać w miarę wzbogacania plików pamięci, co jest efektem, którego nie można uzyskać w pojedynczej sesji. Obecnie jego częstotliwość postów na X oraz jakość treści znacznie się poprawiły, a tempo publikacji stało się stabilne, projekty open source są regularnie aktualizowane, a biuletyny informacyjne tworzą stabilne źródło treści.

Warto zauważyć, że ocena oryginalności, podejmowanie decyzji strategicznych i generowanie pomysłów wciąż wykracza poza możliwości tego systemu. Wartość tego systemu polega na stabilnym wykonywaniu powtarzalnych i regularnych zadań, co uwalnia czas i energię na zajmowanie się bardziej złożonymi zadaniami.

3. Stopniowe wdrażanie w czterech etapach, od zera do systemu agentów

Saboo zaleca stopniowe wdrażanie systemu w czterech etapach.

W pierwszym tygodniu ukończono instalację OpenClaw, wdrożono pojedynczego agenta, napisano SOUL.md, skupiając się na obsłudze jednego powtarzalnego zadania codziennego, obserwując działanie systemu i naprawiając problemy.

W drugim tygodniu, w odpowiedzi na ciągłe wyniki z początkowej produkcji, wprowadzono poprawki do SOUL.md, aby poprawić pliki pamięci stopniowo.

W trzecim tygodniu, na podstawie stabilnych wyników wydajności istniejących agentów, wprowadzono drugiego agenta w zależności od potrzeb, a także skonfigurowano relacje współpracy przy odczycie i zapisie plików.

W czwartym tygodniu i później, zwiększając liczbę agentów w oparciu o rzeczywiste potrzeby robocze, każdy nowy agent powinien odpowiadać na wyraźną lukę w zadaniach, a nie być dodawany w celu osiągnięcia pełni systemu.

05.

Podsumowanie: OpenClaw umożliwia lokalne

#多智能体 automatyzacja naprawdę działa

Saboo nie tylko zaoszczędził czas dzięki temu systemowi, ale co ważniejsze, pokazuje on powtarzalną ścieżkę: wykorzystując narzędzia open source takie jak OpenClaw, indywidualni deweloperzy nie muszą polegać na usługach w chmurze ani budować ram organizacyjnych od podstaw, mogą wdrożyć trwały system automatyzacji z wieloma agentami na lokalnym urządzeniu.

#OPENCLAW posiada trzy cechy, których brakuje większości platform AI: całkowicie otwarte źródła, priorytet lokalny (pamięć przechowywana w plikach Markdown na lokalnym urządzeniu użytkownika) oraz samodzielna zdolność do harmonogramowania oparta na procesie nadzoru. Te cechy są podstawą stabilnego działania systemu Saboo.

Również warto zwrócić uwagę na sposób, w jaki radzi sobie z złożonością systemu: zastępując ramy organizacyjne systemem plików, zastępując mikroskalowanie modeli plikami pamięci, a nazywając role, aby ustanowić początkową bazę charakteru. Każda decyzja projektowa wskazuje na tę samą zasadę — utrzymywanie minimalnej złożoności przy jednoczesnym zaspokajaniu potrzeb.

Saboo w poście zauważył, że model sam w sobie stał się powszechnie dostępnym zasobem podstawowym, a prawdziwe różnice polegają na systemie zbudowanym wokół modelu, w tym profilach agentów, mechanizmach pamięci, zasadach koordynacji i ciągłym doskonaleniu. Ten system będzie się optymalizować w miarę upływu czasu użytkowania, stając się twoim osobistym aktywem.
#AImodel