Tôi đã nghĩ phần khó nhất là xây dựng mô hình

Hiện tại có một cuộc trò chuyện đang diễn ra trong AI mà gần như không bao giờ xuất hiện trên crypto Twitter.
Chuyện không phải là mô hình nào thông minh hơn. Không phải về thời gian AGI hay giá token. Mà là về một thứ nhàm chán hơn và quan trọng hơn nhiều. Làm thế nào để vận hành hàng ngàn mô hình AI chuyên biệt mà không tốn một đống tiền vào tính toán?
Hầu hết mọi người xây dựng trong lĩnh vực này không nghĩ về điều này cho đến khi họ đụng phải nó. Bạn tinh chỉnh một mô hình cho một nhiệm vụ cụ thể như truy vấn y tế, soạn thảo pháp lý, hỗ trợ khách hàng bằng ba ngôn ngữ. Nó hoạt động. Sau đó bạn cố gắng mở rộng nó. Và bạn nhận ra rằng mỗi mô hình đều cần một instance GPU riêng. Mỗi trường hợp sử dụng mới đều nhân đôi hóa đơn hạ tầng của bạn. Kinh tế sụp đổ trước khi sản phẩm ra mắt.
Đây là vấn đề mà OpenLoRA được xây dựng để giải quyết. Và nó không được xây dựng như một tính năng phụ mà đã ra mắt như một giao thức mở độc lập vào ngày 1 tháng 7 năm 2025, nhắm mục tiêu cụ thể vào cuộc khủng hoảng chi phí triển khai trong AI chuyên biệt.
Đây là những gì nó thực sự làm khác biệt. Triển khai truyền thống nạp trước các mô hình vào bộ nhớ GPU và giữ chúng ở đó. Nếu bạn có hai mươi biến thể tinh chỉnh, bạn cần hai mươi phiên bản đã nạp. Bộ nhớ sẽ đầy. Chi phí gia tăng. OpenLoRA không nạp trước bất kỳ thứ gì. Các bộ điều hợp LoRA là các tệp tham số nhỏ đại diện cho việc tinh chỉnh nằm dormant cho đến khi có yêu cầu đến. Khi có yêu cầu, bộ điều hợp phù hợp sẽ được nạp ngay lập tức, kết hợp một cách động với mô hình cơ sở chung, thực hiện suy diễn và giải phóng. GPU giữ một mô hình cơ sở và xử lý các bộ điều hợp theo yêu cầu. Các con số được công bố từ các thử nghiệm trên nhiều môi trường phần cứng: độ trễ 20ms dưới tải cao, dưới 12GB VRAM để phục vụ hàng ngàn bộ điều hợp cùng lúc, tạo token nhanh hơn bốn lần so với các phương pháp truyền thống.
OpenLoRA v2.0 là phiên bản hiện tại đã tinh chỉnh việc phân phối song song, tích hợp theo dõi ghi nhận chặt chẽ hơn để mỗi suy diễn duy trì dấu vết dữ liệu trên chuỗi kết nối đầu ra trở lại với các đóng góp của Datanets mà dữ liệu của họ đã hình thành mô hình. Chi tiết tích hợp đó quan trọng vì nó có nghĩa là việc mở rộng với OpenLoRA không phá vỡ chuỗi ghi nhận. Chi phí triển khai của bạn giảm xuống và hệ thống thưởng cho người đóng góp vẫn hoạt động.
Cho cơ sở hạ tầng sản xuất, OpenLedger đã hợp tác với Aethir NVIDIA H100 GPUs, lên đến 2TB RAM, 3.2 Tbps mạng, các cụm có thể mở rộng lên đến 4,096 H100 trên toàn cầu trong vòng chưa đầy hai tuần. Quan hệ đối tác đó là sự khác biệt giữa một chỉ số và một hệ thống sản xuất.
Bây giờ đây là nơi mà tôi thực sự chưa có câu trả lời rõ ràng.
Giảm chi phí 90% là một tuyên bố cụ thể. Các chỉ số hỗ trợ điều này trong điều kiện kiểm soát. Nhưng hiệu suất sản xuất với tải doanh nghiệp thực tế, mẫu truy vấn không thể đoán trước, người dùng đồng thời từ các múi giờ khác nhau cùng tác động vào các mô hình chuyên biệt, đó là một bài kiểm tra stress khác. Tôi chưa thấy đủ dữ liệu sản xuất độc lập từ các triển khai lớn để biết liệu OpenLoRA có giữ vững ở quy mô mà marketing ngụ ý.
Điều tôi nghĩ là rõ ràng: kiến trúc cơ bản là hợp lý. Nạp bộ điều hợp ngay lập tức không phải là một khái niệm mới trong nghiên cứu ML, OpenLoRA đang áp dụng nó ở quy mô sản xuất với một lớp ghi nhận trên chuỗi ở trên. Sự kết hợp đó là mới.
Liệu con số 90% có giữ vững trong môi trường sản xuất cụ thể của bạn hay không là một câu hỏi đáng để kiểm tra trước khi bạn xây dựng lại cơ sở hạ tầng của mình dựa trên câu trả lời.
Chủ đề phát triển mà tôi đã lưu từ vài tháng trước vẫn mở trong trình duyệt của tôi. Người đã viết nó chưa đăng bài cập nhật nào về việc họ đã giải quyết vấn đề chi phí hay chưa.
Có thể họ đã tìm thấy OpenLoRA. Có thể họ chỉ ngừng xây dựng.
Toán học của việc triển khai AI chuyên biệt bị hỏng theo bất kỳ cách nào. Ít nhất thì có ai đó đang làm việc trên đó.
Bạn sẽ triển khai cái gì trước nếu rào cản chi phí biến mất?
@OpenLedger $OPEN #OpenLedger