Saya belajar untuk takut pada rollback jauh setelah saya belajar untuk takut pada kegagalan. Kegagalan itu berisik. Rollback itu sopan. Tugas ditandai selesai, tindakan lanjutan dijalankan, kemudian pembaruan kebijakan atau sengketa terlambat memaksa pembalikan, dan pada saat itu sistem lain sudah bertindak.
Itu adalah sumbu yang terus saya kembalikan dengan ROBO. Bukan apakah agen dapat bertindak. Apakah undo tetap dapat dijelaskan setelah tempat tersebut sibuk.
Rollback hanya aman ketika dapat diputar ulang.
Dalam robotika dan koordinasi agen, undo bukanlah konsep filosofis. Ini adalah peristiwa operasional. Tugas yang selesai memicu tugas berikutnya. Persetujuan memicu eksekusi. Aktivasi memicu izin. Ketika sistem kemudian mengambil kembali hasil tersebut, itu tidak hanya memperbaiki dirinya sendiri. Itu menciptakan celah yang harus ditutup oleh seseorang.
Dan seseorang biasanya adalah seorang operator.
Saya belum siap untuk memuliakan atau menolak ROBO. Saya masih tidak bisa mengklaim telah melihatnya berperilaku melalui setiap siklus insiden yang buruk. Tapi saya telah melihat cukup banyak sistem nyata untuk mengetahui bentuk biaya. Ketika rollback tidak dapat diputar ulang, otonomi runtuh. Bukan karena jaringan berhenti berjalan, tetapi karena tidak ada yang mempercayai selesai tanpa menunggu.
Jadi saya memikirkan pengambilan kembali di tiga tempat di mana itu menjadi terlihat di bawah pengulangan. Tingkat pengambilan kembali. Waktu hingga hasil akhir. Kejelasan operasional.
Tingkat pengambilan kembali adalah tempat pertama biaya bocor. Seberapa sering sistem mengambil kembali hasil.
Pengambilan kembali tidak harus umum untuk menjadi merusak. Mereka hanya harus tidak terduga. Jika pengambilan kembali terkumpul di sekitar jendela sibuk, pembaruan kebijakan, atau sengketa yang diselesaikan terlambat, ekosistem belajar kebiasaan. Tunda semuanya. Tambahkan buffer. Tunggu konfirmasi kedua. Otonomi menjadi otomatisasi yang diawasi.
Jika saya beroperasi di ROBO, saya akan melacak pengambilan kembali per 1.000 tindakan dan saya akan membaginya berdasarkan penyebabnya. Perubahan kebijakan. Hasil sengketa. Pembaruan modul keselamatan. Koreksi penjadwal. Override operator. Kemudian saya akan melihat apakah tingkatnya menyusut seiring waktu, atau menjadi risiko tail permanen yang dirancang tim.
Garis saya tegas. Jika pengambilan kembali jarang, dapat dijelaskan, dan menyusut, itu sehat. Jika mereka cukup sering untuk mengubah postur default, itu tidak sehat.
Waktu hingga hasil akhir adalah tempat kedua biaya muncul. Seberapa lama sampai selesai tetap selesai.
Dalam sistem dengan tempo tinggi, waktu hingga hasil akhir lebih penting daripada waktu hingga keberhasilan awal. Sebuah keberhasilan cepat yang tidak stabil bukanlah kecepatan. Itu adalah cara yang lebih cepat untuk memproduksi ambiguitas.
Sebuah keberhasilan cepat yang dapat diambil kembali bukanlah kecepatan, itu adalah risiko yang ditunda.
Di ROBO, ini diperkuat karena tindakan berantai. Sebuah rollback tidak hanya membatalkan satu langkah. Itu dapat membatalkan tindakan hilir yang sudah dilakukan. Jadi tim melindungi diri mereka dengan satu-satunya cara yang mereka bisa. Mereka menambahkan penahanan. Mereka menambahkan jendela buffer. Mereka membangun aturan penerimaan pribadi.
Saya akan mengukur waktu hingga hasil akhir sebagai distribusi, bukan angka tunggal. Median dan tail. Minggu tenang dan minggu insiden. Yang paling penting, pengembalian. Setelah insiden, apakah tail kembali ke baseline, atau apakah buffer menjadi permanen.
Ketika tail tetap tipis, otonomi tetap murah. Ketika tail membesar dan menempel, tempat tersebut secara diam-diam mempekerjakan manusia.
Kejelasan operasional adalah tempat ketiga pengambilan kembali menjadi baik fitur atau pajak.
Sebuah pengambilan kembali tanpa alasan eksplisit bukanlah rollback. Itu adalah misteri. Misteri adalah yang memaksa pekerjaan manual. Operator tidak dapat mengotomatiskan pembersihan jika mereka tidak dapat mengklasifikasikan apa yang terjadi. Pembuat tidak dapat merancang di sekitar pengambilan kembali jika kategori menyimpang. Pengguna tidak dapat mempercayai undo jika sistem tidak dapat menjelaskannya.
Jadi saya akan mengamati 2 artefak yang memisahkan rollback yang dapat diputar ulang dari kekacauan yang sopan. Bagian pengambilan kembali dengan kode alasan yang stabil dan dapat ditindaklanjuti, dan menit rekonsiliasi per pengambilan kembali. Ketika kode alasan konsisten, tim dapat menulis buku pedoman deterministik. Ketika waktu pembersihan menyusut, sistem mengajarkan otomatisasi. Ketika kode alasan samar dan waktu pembersihan tumbuh, sistem mengajarkan pengawasan.
Ini adalah perdagangan yang salah harga oleh pasar. Orang-orang menganggap reversibilitas sebagai keamanan secara default. Dalam produksi, rollback hanya aman jika itu dapat dibaca. Jika tidak, rollback adalah kegagalan yang tertunda dengan radius ledakan ekstra.
Hanya di akhir cerita saya memikirkan tentang token. Sebuah token tidak mencegah rollback. Itu dapat mendanai infrastruktur membosankan yang membuat rollback aman. Resolusi sengketa yang cepat. Pembaruan kebijakan dengan pemberitahuan dan jejak audit. Kode alasan yang membuat pengambilan kembali dapat dijelaskan. Alat yang memungkinkan pembuat memutar ulang bukti dan mengotomatiskan pembersihan. Jika ROBO pernah mengklaim nilai terakumulasi dari penggunaan nyata, rollback harus menjadi cukup murah sehingga tim tidak perlu mengawasinya.
Saya mengakhiri dengan pemeriksaan yang paling sederhana yang saya tahu.
Pilih minggu yang tenang, lalu pilih minggu insiden berikutnya. Amati tingkat pengambilan kembali, waktu tail hingga hasil akhir, stabilitas kode alasan, dan menit rekonsiliasi. Dalam sistem yang sehat, insiden meninggalkan bekas yang sembuh, tail kembali, dan pembersihan menjadi lebih cepat. Dalam sistem yang tidak sehat, buffer tetap, pekerjaan manual tumbuh, dan otonomi secara diam-diam berubah menjadi operasi.
@Fabric Foundation#Robo $ROBO