Trong nhiều năm, internet đã vận hành như một cỗ máy khổng lồ hút dữ liệu con người để nuôi AI. Chúng ta viết bài, đăng ảnh, để lại cảm xúc, kiến thức, hành vi và cả những khoảnh khắc rất đời thường lên mạng mỗi ngày. Nhưng rồi khi AI tạo ra hàng tỷ đô la giá trị, phần lớn những người đóng góp dữ liệu lại không nhận được gì ngoài sự im lặng. Đó là lý do tôi thấy ý tưởng về Datanet của OpenLedger không chỉ là một sản phẩm blockchain nữa, mà giống như một lời phản kháng mạnh mẽ với cách nền kinh tế AI đang vận hành hiện tại.
Theo tài liệu chính thức, Datanet là một mạng dữ liệu phi tập trung, nơi dữ liệu được thu thập, xác thực và phân phối cho việc huấn luyện các mô hình AI chuyên biệt. Điều quan trọng nhất nằm ở hai chữ: “attribution” — truy vết đóng góp. Mỗi dữ liệu được đưa vào hệ thống đều có thể được xác minh nguồn gốc và liên kết trực tiếp tới đầu ra của AI thông qua cơ chế “Proof of Attribution”. (Openledger) Điều đó có nghĩa là lần đầu tiên trong kỷ nguyên AI, giá trị của dữ liệu không còn bị hòa tan vô hình trong những mô hình khổng lồ nữa. Người đóng góp dữ liệu có thể được ghi nhận, được thưởng và được chứng minh rằng chính dữ liệu của họ đã tạo ra giá trị thực sự.
Điều khiến tôi bị cuốn vào OpenLedger không nằm ở những khẩu hiệu “AI phi tập trung” quen thuộc, mà là cách họ cố biến dữ liệu thành một loại tài sản có quyền sở hữu rõ ràng. Trong thế giới hiện tại, AI gần như hoạt động như một “hố đen dữ liệu”: càng nhiều người đóng góp, hệ thống càng mạnh lên, nhưng quyền lực và lợi nhuận lại tập trung vào một số công ty công nghệ khổng lồ. OpenLedger đang cố kéo bánh xe đó quay ngược lại. Họ xây dựng một hệ thống nơi dữ liệu có provenance, có dấu vết, có khả năng kiểm chứng và đặc biệt là có thể được trả thưởng theo mức độ ảnh hưởng của nó tới mô hình AI. (Openledger)
Tôi nghĩ đây là một thay đổi mang tính triết lý nhiều hơn công nghệ. Bởi vì từ trước đến nay, internet luôn khiến con người quen với việc “đổi dữ liệu lấy tiện ích miễn phí”. Chúng ta được dùng mạng xã hội miễn phí, AI miễn phí, nền tảng miễn phí… nhưng thật ra cái giá phải trả luôn là dữ liệu của chính mình. OpenLedger đặt ra một câu hỏi rất khó chịu nhưng cần thiết: nếu dữ liệu là nhiên liệu của AI, tại sao người tạo ra nhiên liệu lại không sở hữu bất kỳ phần nào của cỗ máy?
Datanet hoạt động như những kho dữ liệu chuyên biệt cho từng mô hình AI, nơi người dùng có thể đóng góp dữ liệu dạng văn bản, hình ảnh hoặc âm thanh. Hệ thống sẽ xác thực chất lượng, chấm điểm, ghi nhận danh tính on-chain và thậm chí xếp hạng người đóng góp qua leaderboard. (Openledger) Nghe thì có vẻ giống gamification, nhưng sâu bên dưới là một nỗ lực cực kỳ tham vọng: biến dữ liệu thành một nền kinh tế thực sự. Một bài viết hay, một bộ ảnh chất lượng, hay một tập dữ liệu chuyên môn giờ đây không chỉ còn là “content” trôi nổi trên internet nữa, mà trở thành tài sản có khả năng tạo doanh thu lâu dài thông qua AI.
Điểm khiến tôi đặc biệt ấn tượng là cơ chế RAG Attribution. Khi AI truy xuất dữ liệu để tạo câu trả lời, hệ thống có thể truy vết chính xác dữ liệu nào đã được dùng, từ đâu, và ai là người đóng góp. (Openledger) Đây là thứ mà rất nhiều mô hình AI hiện tại gần như không thể minh bạch hoàn toàn. Chúng ta đang sống trong thời đại AI có thể viết như con người, vẽ như nghệ sĩ, nói như chuyên gia… nhưng rất ít ai biết chúng học từ đâu. OpenLedger đang cố biến “nguồn gốc tri thức” thành thứ có thể nhìn thấy được.
Dĩ nhiên, tôi không nghĩ mọi thứ sẽ màu hồng. Ý tưởng về attribution trong AI là cực kỳ khó. Ngay cả trong giới học thuật, việc xác định chính xác dữ liệu nào ảnh hưởng đến một mô hình vẫn là một vấn đề phức tạp kéo dài nhiều năm nghiên cứu. (arXiv) Và càng đưa cơ chế thưởng tài chính vào dữ liệu, hệ thống càng phải đối mặt với spam, thao túng và dữ liệu rác. OpenLedger cũng hiểu điều đó khi họ xây dựng cơ chế phạt những đóng góp chất lượng thấp hoặc độc hại thông qua slashing và validation score. (Openledger) Nhưng thành thật mà nói, đây là kiểu bài toán đáng để thử, bởi vì mô hình AI hiện tại cũng đang đầy vấn đề — chỉ là phần lớn chúng bị che khuất sau những lớp API bóng bẩy.
Có lẽ điều mạnh mẽ nhất ở OpenLedger không phải công nghệ, mà là thông điệp của nó. Trong một thế giới nơi AI ngày càng trở thành trung tâm quyền lực mới, quyền sở hữu dữ liệu sẽ quyết định ai thực sự hưởng lợi từ tương lai đó. Nếu internet thế hệ đầu tiên token hóa sự chú ý, thì có lẽ thế hệ AI tiếp theo sẽ token hóa tri thức và đóng góp của con người. Và Datanet có thể là một trong những nỗ lực đầu tiên muốn xây dựng nền móng cho điều đó.
Tôi không biết OpenLedger có trở thành chuẩn mực mới của AI phi tập trung hay không. Nhưng ít nhất, họ đang đặt ra câu hỏi mà cả ngành công nghệ cố né tránh suốt nhiều năm: AI đang được xây dựng bằng dữ liệu của nhân loại, vậy nhân loại có quyền sở hữu gì trong đó không?