
Tôi không có phản ứng phấn khích đầu tiên khi nhìn thấy OpenClaw, mà là một chút căng thẳng. Điều hấp dẫn nhất của nó không phải là ở khả năng viết, mà là ở khả năng hành động: nó có thể hoàn thành các nhiệm vụ qua nhiều ứng dụng, kết nối lịch, email, tài liệu và các công cụ khác lại với nhau, như thể có ai đó đang liên tục gõ trên bàn phím hàng chục lần. Vấn đề nằm ở chỗ này, nói sai một câu trong cuộc trò chuyện có thể chỉ gây ngượng ngùng, nhưng làm sai một bước có thể biến mọi thứ thành một tai nạn. Bạn nghĩ rằng bạn đang thuê một trợ lý, nhưng thực tế giống như đặt một con dấu lên bàn, tốc độ đóng dấu tăng lên, trách nhiệm cũng theo đó mà gia tăng.
Vì vậy, tôi muốn coi OpenClaw như một "hệ thống kiểm tra" hơn là một "công cụ tự động hóa thần kỳ". Giá trị của hệ thống kiểm tra không bao giờ dựa vào sự ồn ào, mà là làm cho mỗi bước trở nên có thể kiểm tra lại, có thể truy cứu trách nhiệm, tốt nhất còn có thể quay ngược lại. Khả năng của OpenClaw rất dễ khiến người ta hưng phấn, vì nó không chỉ có thể tạo ra chữ viết, mà còn có thể biến ngôn ngữ tự nhiên thành một chuỗi hành động cụ thể, thậm chí đóng gói các cuộc gọi công cụ nhiều bước thành quy trình làm việc ổn định hơn. Những gì nó đang làm thực sự là một việc rất kỹ thuật: biến "tôi nghĩ tôi đã nói rõ" thành "cuối cùng đã thay đổi những gì".
Nhưng thời điểm nguy hiểm nhất của hệ thống đại lý, thường không phải là nó không làm được, mà là nó làm quá dễ dàng. Nó càng dễ dàng, bạn càng dễ dàng cấp quyền lớn hơn, phê duyệt lỏng lẻo hơn, và để lại ít nhật ký hơn. Sau đó, bạn sẽ gặp phải tình huống khó chịu nhất: kết quả có vẻ đúng, nhưng bạn không thể nói rõ nó dựa vào gì để đạt được, cũng không thể nói rõ nó đã động chạm đến đâu. Một hai lần không sao, nhưng khi thực sự có sai lệch, bạn không thể hồi tưởng được, chỉ có thể đổ lỗi giữa "mô hình hiểu sai" và "là tôi không nói rõ chỉ thị", cuối cùng trách nhiệm thường vẫn quay về bạn, vì chìa khóa là bạn đã đưa cho nó.
Điều tôi lo lắng về "gây rối" thực sự rất đơn giản, ba điều là đủ để làm bạn mệt mỏi cả đêm. Thứ nhất là vượt quyền, không nhất thiết nó trở nên xấu, nhiều hơn là bạn đã cho nó chìa khóa quá lớn, nó đã đưa ra một lựa chọn mà bạn không nghĩ tới trên ranh giới, ví dụ như coi nháp là có thể gửi, chỉ đọc là có thể chỉnh sửa, nội dung riêng tư là có thể chia sẻ. Thứ hai là hiểu sai, nó quá giỏi trong việc hoàn thiện ngữ nghĩa, bạn nói một câu "xử lý một chút", nó có thể tự động hoàn thiện một bộ "hành động mà nó cho là hợp lý". Thứ ba là bị ô nhiễm, hệ thống đại lý sẽ tiếp nhận đầu vào bên ngoài, nội dung trang web, nội dung email, lịch sử trò chuyện, đoạn văn bản, chỉ cần trong đó có một đoạn gợi ý mạnh mẽ, nó có thể coi những gợi ý bên ngoài là ý định của bạn, điều đáng sợ là hành động này bề ngoài trông giống như "bạn đã ủy quyền", sau đó bạn rất khó để nói rõ bước nào đã bị lệch.
Vì vậy, tôi sẽ xác minh OpenClaw không làm điều xấu như thế nào, tôi chỉ coi nó như một bên giao hàng cần được kiểm tra. Đừng bàn về an toàn lý thuyết, trước tiên hãy cố định những ranh giới cứng nhất.
Điều đầu tiên là tôi sẽ giảm quyền xuống mức tối thiểu. Không phải chỉ nói miệng "chú ý an toàn", mà thực sự cắt giảm phạm vi mà nó có thể tiếp cận xuống chỉ đủ để hoàn thành nhiệm vụ. Ví dụ, với email, tôi thà để nó chỉ đọc email trong một nhãn hoặc trong một khoảng thời gian nhất định, cũng không muốn ngay lập tức cho nó toàn quyền đọc và ghi; với tài liệu, tôi thà để nó chỉ có thể tạo hoặc sửa đổi trong một thư mục chỉ định, không để nó quét toàn bộ ổ đĩa đám mây của bạn. Bạn đừng xem nhẹ bước này, nhiều sự cố không phải vì mô hình quá thông minh, mà là vì con người đã tháo bỏ cánh cửa.
Sau khi giảm quyền, tôi sẽ tách riêng các hành động không thể đảo ngược ra và chặn lại. Đối với tôi, những nút thực sự nguy hiểm chỉ có ba loại: gửi, xóa, thay đổi quyền chia sẻ. Gửi có nghĩa là rò rỉ, xóa có nghĩa là mất mát, thay đổi quyền có nghĩa là bạn đã kéo người khác vào rủi ro. Tôi sẽ yêu cầu nó trước khi thực hiện những hành động này phải viết rõ kế hoạch, nói rõ đối tượng sẽ bị ảnh hưởng, và trình bày nội dung khác biệt, để tôi có thể gật đầu một cách rõ ràng. Nó có thể nhanh, nhưng nhanh nên xảy ra ở phía "tạo kế hoạch", chứ không phải ở phía "thực hiện ngay". Nói trắng ra, não có thể thay tôi suy nghĩ, tay phải đợi tôi ấn.
Tiếp theo, tôi sẽ theo dõi nhật ký, vì không có nhật ký thì không thể nói đến việc kiểm tra. Nhiều người sử dụng công cụ đại lý chỉ theo dõi kết quả, kết quả đúng một lần là bắt đầu nới lỏng, nhưng rủi ro thực sự nằm ở chỗ quá trình không thể truy cứu trách nhiệm. Tôi sẽ yêu cầu nó để lại dấu vết cho các cuộc gọi công cụ quan trọng: nó đã đọc nguồn gì, đã viết vào đâu, đã gọi quyền gì, kết luận quan trọng đến từ đoạn ngữ cảnh nào. Không phải để đấu tranh với nó, mà là để khi có sự cố, có thể ngay lập tức trả lời ba câu hỏi: sai từ đâu, ảnh hưởng đến đâu, làm thế nào để quay ngược lại. Bạn có thể nói rõ ba câu này, sự cố sẽ có thể kiểm soát được; không nói rõ, sự cố sẽ trở thành phản ứng dây chuyền.
Cuối cùng, tôi sẽ thực hiện một số bài kiểm tra "cố tình gây rối", để nó lộ ra những ranh giới. Ví dụ, tôi sẽ để nó đọc một email được viết cố tình giống như một mệnh lệnh, xem nó có tự nhiên chuyển tiếp không; tôi sẽ để nó duyệt một đoạn văn bản trên trang web có chứa lời dẫn dắt mạnh mẽ, xem nó có coi nội dung bên ngoài là chỉ thị không; tôi cũng sẽ cố tình khiến công cụ gọi thất bại, xem nó có vì vội vàng hoàn thành mà bỏ qua phê duyệt không. Nó có thể chịu đựng những đầu vào thông thường nhưng khó chịu này, thì mới đủ tiêu chuẩn để vào các tình huống quyền hạn cao hơn. Không chịu được cũng không có gì xấu hổ, chứng tỏ nó phù hợp hơn để làm công việc tổ chức tài liệu ở quyền hạn thấp, không phù hợp để thực hiện giữa các tài khoản.
Viết đến đây, tôi lại cảm thấy vị trí của OpenClaw rất rõ ràng: nó đáng để sử dụng, nhưng điều kiện là bạn phải đặt nó vào khung "có thể kiểm tra". Bạn càng muốn nó thay bạn đóng dấu, bạn càng phải khóa hộp dấu, thêm xác nhận hai lần vào hành động đóng dấu, và ghi lại số hiệu của mỗi lần đóng dấu. Nếu hệ thống đại lý thực sự muốn trở thành công cụ năng suất, không phải dựa vào việc thông minh hơn, mà là có thể kiểm soát hơn. Còn về việc nó có gây rối hay không, tôi không dựa vào đức tin, tôi dựa vào việc kiểm tra.
#OPENCLAW $BTC

