Récemment, Shubham Saboo, responsable des produits AI de Google, a dévoilé un système d'automatisation multi-agents qui fonctionne de manière stable depuis un mois. Contrairement aux solutions d'agents AI qui en sont au stade de démonstration, ce système est construit sur la plateforme open source OpenClaw et prend en charge chaque jour ses six tâches quotidiennes : recherche dynamique en AI, rédaction de tweets, production de contenu LinkedIn, édition de bulletins d'information, révision de code et gestion des affaires communautaires.

Cette équipe composée de 6 agents intelligents fonctionne automatiquement pendant son sommeil, Saboo n'ayant qu'à passer en revue l'approbation pendant 10 minutes en buvant son café le matin, ce qui lui permet de libérer 4 à 5 heures chaque jour pour se concentrer sur des tâches qui nécessitent vraiment un cerveau humain.

Saboo a également nommé ses 6 agents intelligents d'après différents personnages principaux de séries télévisées. 6 agents intelligents, 6 postes ; les responsabilités sont clairement définies, chacun dans son rôle.

Ce système définit l'identité et les règles de comportement de chaque agent intelligent via le fichier de personnalité SOUL.md, remplaçant le cadre de communication API complexe par un système de fichiers partagé, et accumulant continuellement les préférences des utilisateurs grâce à un mécanisme de mémoire à double couche.

Il est à noter que l'ensemble du système construit par Saboo peut être déployé sur un ordinateur ordinaire, avec un coût mensuel de moins de 400 dollars (environ 2760 yuan).

Saboo est le fondateur de la communauté de programmation Unwind AI, qui aide plus de 6000 abonnés à apprendre à construire des modèles, RAG et des applications d'Agent en seulement trois minutes par jour. De plus, il a créé le référentiel GitHub populaire Awesome LLM Apps, qui compile des cas d'utilisation de grands modèles, devenant l'un des tutoriels pratiques d'applications AI les plus populaires, avec 99,5 k étoiles sur GitHub.

▲Shubham Saboo, chef de produit AI senior chez Google (source : LinkedIn)

Cet article long qu'il a publié sur X divulgue en détail l'ensemble de la pensée derrière la construction de ce système basé sur OpenClaw, la structure des fichiers, le coût réel et les pièges rencontrés, obtenant plus d'un million de vues.

▲Capture d'écran de tweet de Shubham Saboo sur la plateforme X

01.

Créer un système de collaboration multi-rôles basé sur OpenClaw

6 agents, chacun dans son rôle

Dans son travail quotidien, Saboo doit accomplir six tâches chaque jour : suivre les dernières tendances dans le domaine de l'IA, rédiger des tweets, rédiger des posts LinkedIn, produire des bulletins d'information pour les abonnés, examiner les contributions au code des projets open source et gérer les problèmes de la communauté. Chacune de ces tâches peut sembler petite, mais nécessite entre 30 et 60 minutes.

La première solution que Saboo a essayée était d'utiliser un agent intelligent pour tout gérer. Il a donné des instructions à l'agent pour qu'il étudie, écrive et révise, mais la qualité de la sortie n'était pas optimiste. Un agent intelligent ne peut pas exceller dans six tâches différentes en même temps.

Saboo a construit 6 agents AI basés sur OpenClaw, et les a nommés d'après différents personnages principaux de séries télévisées. L'avantage de cette approche est qu'il n'a besoin de saisir que le nom, le modèle peut extraire les caractéristiques de personnalité et le style de travail de cette personne à partir des données existantes.

Au sein de l'équipe IA de Saboo, le rôle le plus central est celui de Monica, qui est l'IA avec laquelle Saboo interagit le plus chaque jour. Cette "chef d'état-major" porte le nom de Monica Geller dans (Friends). Ses responsabilités incluent la vue d'ensemble, la coordination et l'attribution des tâches appropriées aux bonnes personnes, tout en gérant les affaires dont la responsabilité n'est pas claire.

L'agent de renseignement Dwight, nommé d'après Dwight Schrute dans (The Office), effectue trois scans de recherche chaque jour, vérifiant les plateformes X, Hacker News, les projets populaires sur GitHub, les blogs AI de Google et les articles académiques, et rédige des rapports de renseignement structurés pour les autres agents intelligents.

Après avoir lu le rapport de Dwight, la première à agir est la rédactrice de tweets Kelly. Elle est nommée d'après Kelly Kapoor dans (The Office), et elle rédige des tweets dans le ton et le style de Saboo - que ce soit des tweets uniques, des fils de discussion ou des retweets, elle excelle dans tout. Son caractère est défini dans SOUL.md : "Vous savez déjà avant que la tendance ne devienne une tendance."

La même information, lorsqu'elle arrive à la rédactrice de posts LinkedIn Rachel, est présentée d'une manière complètement différente. Elle est nommée d'après Rachel Green dans (Friends), et s'adresse à un public professionnel sur LinkedIn - ces personnes ne s'intéressent pas aux tendances, mais aux insights sectoriels et aux opinions professionnelles, c'est pourquoi le style de Rachel est plus posé, ressemblant à celui d'un leader d'opinion.

L'ingénieur Ross, nommé d'après Ross Geller dans (Friends), est responsable de l'examen du code, de la correction des bogues et de la mise en œuvre technique. Ses règles de comportement stipulent : "Lorsque vous traitez un problème, comprenez-le complètement, ne vous contentez pas de réparer la surface."

L'éditeur de bulletins d'information Pam, nommée d'après Pam Beesly dans (The Office), transforme le rapport quotidien de renseignement de Dwight en bulletin d'information, qu'elle envoie aux abonnés.

02.

L'ensemble du système est dirigé par un fichier texte

Un système complet peut être construit sur un ordinateur ordinaire


L'ensemble du système construit par Saboo fonctionne sur un Mac mini équipé d'une puce M4, mais Saboo souligne qu'il n'y a rien de spécial à propos de cette machine, n'importe quel appareil capable de fonctionner en continu peut faire l'affaire. Il utilise un Mac mini simplement parce qu'il est petit, silencieux, économe en énergie, et pratique.

Il a installé OpenClaw en moins de cinq minutes sur la base de deux commandes. Voici le processus qu'il a suivi pour construire les 6 agents intelligents mentionnés ci-dessus :

1. SOUL.md : un "manuel de l'employé" pour l'IA

La conception la plus cruciale de l'ensemble du système est un fichier texte ordinaire appelé SOUL.md.

Les modèles de grande taille par défaut ne possèdent pas la capacité de mémoire persistante, après chaque session, aucun contenu d'interaction n'est conservé. Lorsqu'une nouvelle session démarre, le modèle ne comprend pas l'historique de l'utilisateur, ni ne se souvient du rôle et des responsabilités qui lui ont été assignés.

SOUL.md a été spécialement conçu pour résoudre ce problème de "perte de mémoire de session". Chaque fois qu'un agent intelligent démarre une nouvelle session, le système charge automatiquement ce fichier, intégrant l'identité, les responsabilités, les règles de comportement et les relations de collaboration avec d'autres agents dans le contexte. En d'autres termes, cela équivaut à une "description de poste" structurée, complétant l'initialisation des rôles avant chaque exécution, garantissant que les agents maintiennent une cohérence de comportement entre différentes sessions.

Prenons l'agent de renseignement Dwight comme exemple, son SOUL.md stipule : chaque donnée doit être accompagnée d'un lien source, les estimations ne sont pas autorisées ; le contenu incertain doit être marqué comme "non vérifié" ; il vaut mieux ne pas savoir que de donner une réponse incorrecte.

Le SOUL.md de l'agent de renseignement Monica stipule : donner directement une aide efficace, omettre les énoncés redondants ; le contenu des tweets est géré par Kelly, les problèmes de code par Ross, et les tâches dont la responsabilité n'est pas claire sont prises en charge par Monica elle-même ; il est permis d'exprimer des opinions différentes.

Chaque SOUL.md compte environ 40 à 60 lignes, il est important de le garder concis. La raison en est que la taille de la "table de travail" de l'IA pour traiter l'information est limitée (un terme technique appelé fenêtre de contexte), un SOUL.md trop long compresse l'espace disponible pour que l'agent traite les tâches réelles.

2. Mécanisme de collaboration des agents : remplacer la communication API par un système de fichiers

Saboo a réalisé une collaboration entre ses 6 agents intelligents à travers un dossier partagé.

Le processus spécifique est le suivant : l'agent de renseignement Dwight complète la collecte de renseignements, écrit les résultats dans le fichier DAILY-INTEL.md ; les tâches programmées de Kelly, Rachel et Pam se déclenchent successivement, chacune lit ce fichier et génère respectivement un brouillon de tweet, un post LinkedIn et une lettre d'information. Le fichier de configuration de Dwight stipule qu'il écrira les résultats dans un chemin désigné, tandis que les fichiers de configuration d'agents tels que Kelly stipulent qu'ils liront les renseignements de ce chemin, complétant ainsi le transfert d'informations.

Ce design semble très "simple", mais il évite les problèmes d'intégration système courants tels que l'expiration des authentifications et les limites de débit de l'API. Le stockage des données utilise un double format : les données structurées sont sauvegardées sous forme JSON, pour désuétiser les machines et le suivi à long terme ; le contenu résumé à lire par les agents est sauvegardé en format Markdown.

3. Système de mémoire : rendre l'IA de plus en plus intelligente

Comment faire en sorte que l'IA apprenne de plus en plus votre style et vos préférences alors qu'elle oublie à chaque fois ?

Saboo a conçu une structure de mémoire à deux niveaux pour ce système. Les journaux quotidiens sont stockés dans memory/YYYY-MM-DD.md, enregistrant l'état d'exécution des tâches du jour, le contenu des brouillons et les retours des utilisateurs, écrits en temps réel par l'agent pendant le processus de travail. La mémoire à long terme est stockée dans MEMORY.md, extrayant régulièrement du contenu régulier des journaux quotidiens, y compris les préférences des utilisateurs, les enregistrements d'ajustements des règles de comportement, etc.

Le fichier de règles de comportement AGENTS.md qui se charge automatiquement au début de chaque session d'agent stipule clairement : après un redémarrage de session, aucune note temporaire ne doit être conservée, les contenus à conserver doivent être écrits dans un fichier.

L'effet de ce mécanisme dans l'utilisation réelle se manifeste par le fait que le brouillon de tweet initial généré par Kelly contenait de nombreux emojis et points d'exclamation, après les retours de Saboo, Kelly a écrit cette règle de style dans le fichier de mémoire, et les brouillons générés par la suite se conforment automatiquement, sans nécessiter de rappels répétés. L'agent de renseignement Dwight a initialement inclus tout le contenu populaire dans le rapport, après que Saboo ait demandé de se concentrer sur les signaux clés, ses critères de sélection ont été mis à jour, améliorant ainsi la qualité des rapports suivants.

L'IA elle-même n'est pas devenue plus intelligente, mais l'"expérience" qu'elle charge s'accumule continuellement, ce qui rend son utilisation de plus en plus efficace.

4. Tâches programmées : faire en sorte que l'IA se réveille automatiquement pour travailler

Ces six agents intelligents ne sont pas réveillés manuellement par Saboo, mais se déclenchent automatiquement selon leur propre emploi du temps. Leur ordre est : l'agent de renseignement Dwight s'exécute en premier, car tous les autres doivent lire son rapport. La rédactrice de tweets Kelly et la rédactrice LinkedIn Rachel s'exécutent après Dwight, car elles ont besoin que le fichier de renseignement soit déjà existant.

OpenClaw est doté d'une fonction de planification des tâches, Saboo définit l'heure, éteint le terminal, et les IA commencent à travailler toutes seules.

5. Mécanisme de tolérance aux pannes : récupération automatique des tâches basée sur le fichier de cœur

Les tâches programmées ne sont pas fiables à 100 %, des facteurs comme le redémarrage de la machine, l'interruption du réseau, les limites de débit API, etc., peuvent entraîner l'échec d'une tâche programmée.

Pour ce problème, Saboo a introduit un fichier de cœur HEARTBEAT.md dans le système. Monica vérifie régulièrement la dernière heure d'exécution de toutes les tâches programmées, et si une tâche n'a pas été exécutée pendant plus de 26 heures, elle déclenche automatiquement une relance forcée, sans intervention humaine.

03.

Étendre en masse après qu'un seul agent ait fonctionné correctement pendant une semaine

Il faut ajuster plusieurs fois les paramètres des agents intelligents

1. Pas besoin de tableau de gestion, interagir avec les agents via Telegram

Saboo n'interagit pas avec ses 6 agents intelligents en s'appuyant sur un tableau de gestion, mais via Telegram. OpenClaw prend en charge l'intégration des agents dans Telegram, une fois la configuration terminée, les agents fonctionnent sous forme de comptes de robots, permettant aux utilisateurs d'envoyer directement des commandes, de recevoir des brouillons et de finaliser l'approbation.

Pour donner un exemple typique de sa journée de travail : le matin, il ouvre Telegram, Dwight a déjà envoyé le résumé des actualités IA du jour, Kelly a soumis 3 brouillons de tweets en attente de révision, le post LinkedIn de Rachel est prêt. Pendant les 10 minutes où il boit son café, il examine le contenu envoyé par les agents et commence officiellement sa journée de travail.

2. Ne plus écrire des prompts parfaits, les agents intelligents doivent être corrigés à plusieurs reprises

Saboo dit que de nombreuses personnes, lors de la construction de systèmes IA, ont tendance à essayer de couvrir tous les aspects dès le départ. Il estime que cela ne fonctionne pas et n'est pas nécessaire.

Nommer chaque agent intelligent d'après des personnages de séries télévisées fournit une référence de personnalité initiale, mais un style de travail stable doit se former par le biais d'un retour d'information continu. Saboo appelle le processus d'ajustement des agents intelligents "ingénierie de prompt correctif" : c'est-à-dire permettre à l'IA de fournir une première version brute, observer son comportement réel, identifier les erreurs et lui faire écrire les règles de correction dans le fichier de mémoire, les rendant effectives dans les sessions suivantes. Saboo dit : "C'est comme avoir un nouvel employé réel."

L'expérience de Saboo est la suivante : la première version de l'agent est médiocre, la dixième est utilisable, et la trentième est exceptionnelle, nécessitant un investissement continu en temps d'optimisation. De plus, définir un domaine de responsabilité unique et clair et des conditions d'arrêt pour chaque agent aide à améliorer la stabilité de la sortie.

3. Maintenir l'isolement des permissions, contrôler strictement la portée d'accès aux données

Confidentialité des informations, que se passe-t-il avec la sécurité ?

La stratégie de sécurité de Saboo repose sur l'isolement des permissions : l'équipe AI fonctionne sur un Mac mini dédié, tous les comptes et clés API utilisés sont demandés séparément, complètement isolés de son compte personnel, les droits d'accès de chaque service peuvent être fermés indépendamment. Il ne donne aucune autorisation directe aux agents intelligents pour des comptes personnels, tout le contenu à traiter par les agents est transmis manuellement ou partagé via Telegram, garantissant ainsi que la portée d'accès aux données des agents est totalement contrôlable.

Saboo dit que cela fonctionne de la même manière que la gestion des employés réels, le premier jour d'embauche, l'entreprise ne vous donne pas tous les droits système, mais les attribue selon les besoins, et élargit progressivement à mesure que la confiance est établie.

4. Les infrastructures tomberont toujours en panne, Saboo a rencontré ces cinq types de problèmes

Saboo a énuméré dans son post plusieurs types de pannes courantes du système et leurs solutions correspondantes.

En cas d'effondrement de la passerelle, il suffit d'exécuter la commande de redémarrage pour la restaurer, le mécanisme de cœur relancera automatiquement les tâches inachevées. Si une tâche programmée n'est pas exécutée à temps en raison d'une interruption réseau, d'une mise en veille de l'appareil ou d'une limite de débit API, le mécanisme de cœur déclenche automatiquement une relance lorsque la tâche n'a pas été exécutée pendant plus de 26 heures. La dégradation de la qualité de sortie des agents intelligents est généralement causée par un contenu redondant ou contradictoire dans le fichier de mémoire, il est donc nécessaire de raffiner régulièrement l'expérience efficace dans le fichier de mémoire à long terme et d'archiver ou de supprimer les journaux expirés. Plusieurs agents écrivant simultanément dans le même fichier peuvent entraîner des conflits de données, il doit donc être clairement défini à la phase de conception que chaque fichier doit être écrit par un seul agent, les autres agents n'ayant qu'un accès en lecture. Lorsque le chargement de trop de fichiers de session entraîne un débordement de contexte, il est nécessaire de garder le SOUL.md à moins de 60 lignes, chaque session ne chargeant que les journaux de mémoire du jour et de la veille.

Saboo suggère qu'au début, il faudrait commencer par déployer un seul agent intelligent, puis étendre progressivement après une semaine de fonctionnement stable, car un déploiement trop précoce rendrait la résolution de problèmes plus difficile.

04.

Construire le système d'agents en quatre phases

Le coût mensuel est inférieur à 3000 yuan

1. Moins de 400 dollars par mois, pour avoir six agents IA disponibles 24/7.

En ce qui concerne le matériel, Saboo utilise un Mac mini équipé d'une puce M4, le prix de départ de ce produit est de 499 dollars (environ 3443 yuan), tout appareil pouvant fonctionner en continu peut le remplacer. Pour l'utilisation des modèles, la plupart des tâches des agents utilisent Claude Opus et Sonnet, certains flux de travail utilisent Gemini. Il teste également des modèles locaux sur Ollama, essayant de réduire encore les coûts.

Les détails des frais sont les suivants :

Claude (Pack Max) : 200 dollars par mois (environ 1380 yuan par mois)

Gemini API : 50-70 dollars par mois (environ 345-483 yuan par mois)

TinyFish (agent web) : environ 50 dollars par mois (environ 345 yuan par mois)

Eleven Labs (voix) : environ 50 dollars par mois (environ 345 yuan par mois)

Telegram : gratuit

OpenClaw : gratuit

Total : moins de 400 dollars par mois (environ 2760 yuan par mois)

2. Économiser du temps est un point de départ, mais les fichiers de mémoire accumulés sont la véritable barrière

En termes d'amélioration de l'efficacité, l'agent de renseignement Dwight réduit la charge de travail de recherche de Saboo de 2 à 3 heures par jour. Auparavant, Saboo devait vérifier manuellement chaque matin X, Hacker News, les projets populaires sur GitHub et les blogs sur l'IA, maintenant il peut se réveiller avec un résumé priorisé contenant des liens sources et des projets d'action. Les rédactrices de tweets Kelly, l'éditeur de bulletins d'information Pam et la rédactrice LinkedIn Rachel réduisent collectivement d'une à deux heures le temps de rédaction de contenu, l'ingénieur Ross prend en charge des tâches d'ingénierie qui occupaient auparavant toute la nuit. Les 6 agents intelligents permettent à Saboo d'économiser au total 4 à 5 heures par jour.

Saboo souligne que la valeur à long terme de ce système, résultant de son fonctionnement continu, ne doit pas être négligée. Pour les tâches de recherche, les agents exécutent quotidiennement et accumulent, leur capacité de suivi des signaux et de jugement des tendances s'améliore avec l'enrichissement des fichiers de mémoire, ce qui ne peut pas être réalisé par une seule session. Actuellement, il a constaté une augmentation de la fréquence de ses publications et de la qualité du contenu sur X, son rythme de publication est devenu stable, les projets open source sont continuellement mis à jour, et le bulletin d'information a également constitué une source de contenu stable.

Il convient de noter que le jugement sur l'originalité, la prise de décision stratégique et la génération d'idées dépassent actuellement les capacités de ce système. La valeur de ce système réside dans son exécution stable de tâches répétitives et régulières, libérant ainsi du temps et de l'énergie pour traiter des tâches de complexité plus élevée.

3. Progresser par étapes en quatre phases, construire le système d'agents à partir de zéro

Saboo recommande de progresser dans la construction du système par les quatre étapes suivantes.

Au cours de la première semaine, installer OpenClaw, déployer un seul agent intelligent, rédiger SOUL.md, se concentrer sur une tâche quotidienne répétitive, observer le fonctionnement et résoudre les problèmes.

Au cours de la deuxième semaine, fournir des retours continus sur les sorties initiales, ajuster SOUL.md en fonction des performances réelles, et faire progresser progressivement le fichier de mémoire.

Au cours de la troisième semaine, sur la base de la sortie stable des agents existants, introduire un deuxième agent selon les besoins, et établir une relation de collaboration pour la lecture et l'écriture des fichiers.

Au cours de la quatrième semaine et par la suite, étendre le nombre d'agents en fonction des besoins de travail réels, chaque nouvel agent devant correspondre à un manque de tâches clair, et non pas ajouté pour atteindre une intégrité système.

05.

Conclusion : OpenClaw rend local

\u003ct-285/\u003e l'automatisation fonctionne vraiment

Saboo a non seulement gagné du temps avec ce système, mais plus important encore, il a montré un chemin reproductible : grâce à des outils open source comme OpenClaw, les développeurs individuels peuvent déployer un système d'automatisation multi-agents fonctionnant en continu sur des appareils locaux sans dépendre de services cloud ou de construire un cadre d'orchestration à partir de zéro.

\u003ct-135/\u003e possède trois caractéristiques que la plupart des plateformes d'agents intelligents n'ont pas : entièrement open source, priorité locale (la mémoire est stockée sur l'appareil local de l'utilisateur sous forme de fichiers Markdown), et une capacité d'ordonnancement autonome basée sur un processus de gardien de cœur. Ces caractéristiques sont la base du bon fonctionnement de ce système par Saboo.

Il est également intéressant de noter comment il gère la complexité du système : remplacer le cadre d'orchestration par un système de fichiers, remplacer les fichiers de mémoire par un ajustement de modèle, établir des références de personnalité initiales par la nomination des rôles. Chaque décision de conception vise un même principe : maintenir la complexité minimale tout en satisfaisant les besoins.

Saboo a noté dans son post que le modèle lui-même est devenu une ressource de base largement accessible, ce qui crée une véritable différence, ce sont les systèmes construits autour du modèle, y compris les profils d'agents, les mécanismes de mémoire, les règles de coordination et l'accumulation d'optimisations continues. Ce système continuera à s'optimiser avec le temps d'utilisation, devenant ainsi un actif personnalisé.
#AImodel