Tôi từng nghĩ rằng việc gán công lao cho AI chỉ là về việc trao tín dụng, nhưng @OpenLedger đã khiến tôi nhìn nhận khác đi.
Đối với tôi, vấn đề lớn hơn là quy mô.
Khi một mô hình AI nhỏ, có thể dễ dàng nghiên cứu dữ liệu nào đã hình thành đầu ra của nó. Nhưng khi mô hình được đào tạo trên các tập dữ liệu khổng lồ, câu hỏi đó trở nên khó khăn hơn nhiều. Mô hình đưa ra câu trả lời, nhưng việc truy vết dữ liệu hữu ích đằng sau câu trả lời đó không đơn giản.
Đây là nơi lựa chọn infini-gram của openledger trở nên thú vị.
Infini-gram không chỉ là một cái tên kỹ thuật khác. Tôi thấy nó như một công cụ tìm kiếm và truy vết cho dữ liệu văn bản lớn. Thay vì chỉ nhìn vào các mẫu từ nhỏ, nó có thể làm việc với các mẫu token rất lớn. Nghiên cứu phía sau cho thấy rằng infini-gram được xây dựng ở quy mô 5 nghìn tỷ token và sử dụng mảng hậu tố để tìm kiếm nhanh.
Điều đó quan trọng vì #OpenLedger đang cố gắng xây dựng bằng chứng về việc gán công lao cho AI.
Nói một cách đơn giản, bằng chứng về việc gán công lao cố gắng kết nối một đóng góp dữ liệu với đầu ra của mô hình. Nếu ai đó thêm dữ liệu hữu ích, hệ thống nhằm mục đích cho thấy dữ liệu đó đã giúp tạo ra giá trị như thế nào. Tôi thích ý tưởng này vì nó đưa những người đóng góp dữ liệu gần hơn với lớp phần thưởng thay vì để họ trở nên vô hình.
Openledger cũng sử dụng datanets, là các mạng lưới dữ liệu do cộng đồng điều hành để thu thập và xác thực các tập dữ liệu hữu ích. Đối với tôi, điều này làm cho toàn bộ ý tưởng trở nên thực tế hơn. Dữ liệu tốt hơn vào hệ thống, việc gán công lao theo dõi tác động của nó, và những người đóng góp có thể được công nhận công bằng hơn.
Tuy nhiên, tôi không nghĩ rằng điều này dễ dàng. Ảnh hưởng của dữ liệu trong các mô hình AI lớn rất khó để chứng minh.
Nhưng đó chính xác là lý do tại sao infini-gram quan trọng. Nó cung cấp cho openledger một cách quy mô hơn để làm cho việc gán công lao cho AI trở nên rõ ràng, nhanh chóng và hữu ích hơn.
$OPEN
Đối với tôi, vấn đề lớn hơn là quy mô.
Khi một mô hình AI nhỏ, có thể dễ dàng nghiên cứu dữ liệu nào đã hình thành đầu ra của nó. Nhưng khi mô hình được đào tạo trên các tập dữ liệu khổng lồ, câu hỏi đó trở nên khó khăn hơn nhiều. Mô hình đưa ra câu trả lời, nhưng việc truy vết dữ liệu hữu ích đằng sau câu trả lời đó không đơn giản.
Đây là nơi lựa chọn infini-gram của openledger trở nên thú vị.
Infini-gram không chỉ là một cái tên kỹ thuật khác. Tôi thấy nó như một công cụ tìm kiếm và truy vết cho dữ liệu văn bản lớn. Thay vì chỉ nhìn vào các mẫu từ nhỏ, nó có thể làm việc với các mẫu token rất lớn. Nghiên cứu phía sau cho thấy rằng infini-gram được xây dựng ở quy mô 5 nghìn tỷ token và sử dụng mảng hậu tố để tìm kiếm nhanh.
Điều đó quan trọng vì #OpenLedger đang cố gắng xây dựng bằng chứng về việc gán công lao cho AI.
Nói một cách đơn giản, bằng chứng về việc gán công lao cố gắng kết nối một đóng góp dữ liệu với đầu ra của mô hình. Nếu ai đó thêm dữ liệu hữu ích, hệ thống nhằm mục đích cho thấy dữ liệu đó đã giúp tạo ra giá trị như thế nào. Tôi thích ý tưởng này vì nó đưa những người đóng góp dữ liệu gần hơn với lớp phần thưởng thay vì để họ trở nên vô hình.
Openledger cũng sử dụng datanets, là các mạng lưới dữ liệu do cộng đồng điều hành để thu thập và xác thực các tập dữ liệu hữu ích. Đối với tôi, điều này làm cho toàn bộ ý tưởng trở nên thực tế hơn. Dữ liệu tốt hơn vào hệ thống, việc gán công lao theo dõi tác động của nó, và những người đóng góp có thể được công nhận công bằng hơn.
Tuy nhiên, tôi không nghĩ rằng điều này dễ dàng. Ảnh hưởng của dữ liệu trong các mô hình AI lớn rất khó để chứng minh.
Nhưng đó chính xác là lý do tại sao infini-gram quan trọng. Nó cung cấp cho openledger một cách quy mô hơn để làm cho việc gán công lao cho AI trở nên rõ ràng, nhanh chóng và hữu ích hơn.
$OPEN