Vài ngày trước, tôi đã gửi bản整理 kỹ thuật và trải nghiệm thực chiến của Gemma 4, nhiều bạn bè đã hỏi trong phần bình luận:
“Tại sao có nhiều người tải xuống đến vậy? Phải chăng vì nó miễn phí?”
Tôi đã nghĩ rất lâu, và tôi nhận ra câu trả lời không đơn giản như vậy.
➢Trong một tuần, số lượt tải đã vượt 10 triệu, con số này ẩn chứa một tín hiệu mà hầu hết mọi người không chú ý đến.
---
Gần đây tôi càng cảm thấy không ổn.
Tôi đã sử dụng ChatGPT, Claude, Gemini trong 1 năm.
Mỗi lần tôi nhập thông tin khách hàng, tài liệu nội bộ, ý tưởng kinh doanh, tôi đều do dự một chút:
➢Những dữ liệu này có được sử dụng để đào tạo mô hình không? Có bị rò rỉ không?
Còn một điều khiến tôi rất khó chịu:
OpenAI có thể điều chỉnh tham số của GPT-4 bất cứ lúc nào, Claude có thể thay đổi hành vi của Opus bất cứ lúc nào
Prompt mà bạn điều chỉnh hôm nay, có thể không hoạt động vào ngày mai
Khả năng AI của bạn sẽ luôn bị giới hạn bởi hạn mức API
Bạn muốn làm một Agent chạy 24 giờ? Xin lỗi, phí API có thể khiến bạn phá sản
Bạn muốn triển khai vào môi trường ngoại tuyến? Xin lỗi, không có mạng thì không có AI
---
➢ Tại sao 10 triệu người chọn tải xuống Gemma 4?
Không phải vì nó có điểm số cao (mặc dù AIME 89.2% thực sự ấn tượng)
Mà vì mọi người cuối cùng đã nhận ra: AI không nên là một hộp đen cho thuê, AI nên là công cụ mà bạn thực sự sở hữu
---
Tôi đang nghĩ đến ba xu hướng
1. AI có thể sở hữu sẽ trở thành một nhu cầu thiết yếu
Bạn nghĩ xem, bạn sẽ không để tất cả hình ảnh của mình trên đám mây của người khác
Tương tự, sau này bạn cũng sẽ không để tất cả quy trình làm việc AI của mình trên API của người khác
➢ Các ngành y tế, pháp luật, tài chính, các Agent trong doanh nghiệp, dự án nghiên cứu, AI chủ quyền của quốc gia
Những tình huống này phải sử dụng mô hình cục bộ
Gemma 4 đã hạ thấp rào cản xuống mức "một card đồ họa", đây là một thay đổi lớn
31B nén lại 17.4GB, phiên bản E4B 5GB có thể chạy đa phương thức trên điện thoại
Đây không phải là đồ chơi, đây là công cụ thật sự có thể làm việc
---
2. Thời đại tốt cho các nhà phát triển độc lập và các nhóm nhỏ sắp đến
Trước đây bạn làm ứng dụng AI, hoặc thuê API (chi phí cao), hoặc thuê GPU (đắt hơn)
Bây giờ thì sao?
Phiên bản 31B đạt 2150 điểm trên Codeforces, 26B MoE tốc độ gần 4B nhưng khả năng gần 31B
➢ Các nhóm nhỏ làm Agent chuyên biệt, triển khai tư nhân, làm công cụ ngoại tuyến, chi phí giảm xuống mức tối thiểu
Cơ hội này dành cho những người không muốn bị ràng buộc bởi API
---
3. Điểm dừng thực sự của Web3 + AI có thể nằm ở đây
Tôi luôn nghĩ: Web3 và AI làm thế nào để kết hợp?
Các câu trả lời trước đây đều là "AI trên chuỗi", "đào tạo phi tập trung"
Nghe có vẻ hay nhưng quá khó để thực hiện
Nhưng nếu AI có thể chạy tại chỗ, dữ liệu không cần lên chuỗi cũng có thể đảm bảo quyền riêng tư, dữ liệu chủ quyền + mô hình chủ quyền + xác thực trên chuỗi
Đây mới thực sự là AI phi tập trung
Gemma 4 đã mang khả năng đám mây trở về nhà, Apache 2.0 hoàn toàn mở trọng số + giấy phép hoàn toàn mở
➢ Bạn hoàn toàn kiểm soát mô hình, dữ liệu và môi trường hoạt động
Đây là một nút quan trọng của AI cục bộ vào năm 2026
---
Tôi đã kiểm tra suốt cả ngày hôm qua
➢ Quy trình agent rất ổn định, ngữ cảnh dài không gặp vấn đề, gọi hàm còn dễ sử dụng hơn tôi nghĩ
Hiện tại tôi đang thử nghiệm một ý tưởng: tôi muốn dùng Gemma 4 để tạo một Agent kho kiến thức cá nhân hoàn toàn ngoại tuyến
Tất cả dữ liệu ở cục bộ, tất cả suy diễn ở cục bộ, không có phí API, không có vấn đề về quyền riêng tư
Nếu thử nghiệm thành công, tôi sẽ chia sẻ kế hoạch triển khai cụ thể và những cạm bẫy mà tôi đã gặp
---
Câu hỏi cuối cùng
➢ Nếu AI hoàn toàn thuộc về bạn, bạn sẽ dùng nó để làm gì?
Tôi không nói về "sử dụng ChatGPT để viết một quảng cáo"
Tôi đang nói về "sở hữu một AI trợ lý trực tuyến 24 giờ, hoàn toàn nghe theo lệnh của bạn, không bao giờ tiết lộ bí mật của bạn"
Câu hỏi này, tôi vẫn đang suy nghĩ
Nhưng tôi biết, câu trả lời không ở đám mây, câu trả lời ở cục bộ
(Đây là suy nghĩ cá nhân của tôi, không phải là quảng bá. Những người đã sử dụng, hoan nghênh thảo luận trong phần bình luận về ý tưởng của bạn)


