图片

Die Web3-Community ist sehr offen, experimentell und unterstützt in der Regel Projekte, die versuchen, die Informatikforschung voranzutreiben. Eines, was wir jedoch nicht gut gemacht haben, ist die Klarheit der Gedanken oder der Kommunikation. Dieser Artikel soll dazu beitragen, die notwendigen Bedingungen für die Bereitstellung von KI-Modellen auf intelligenten Verträgen zu erklären.

Einfach gesagt: Nach dem Lesen dieses Artikels solltest du ein einfaches Gefühl dafür haben, was bis Oktober 2024 möglich ist und was noch zu lösen bleibt.

Ist KI bereits On-Chain? Wenn nicht, was fehlt?

Kleinere Modelle können ebenfalls On-Chain-KI erreichen, aber derzeit behindern die Einschränkungen von Speicher, Rechenleistung und Konsensmechanismen die effektive Bereitstellung großer KI-Modelle wie LLMs auf der Blockchain, genau wie man es erwarten würde, wenn sie auf traditionellen Cloud-Servern bereitgestellt werden.

Es gibt jedoch viele Innovationen, die derzeit entwickelt werden, um diese Lücke zu schließen.

Was sind die wichtigsten Erkenntnisse?

Die Rechenkosten von KI sind hoch, die Rechenkosten von dezentralen Berechnungen sind ebenfalls hoch, daher wird es knifflig, zwei teure Dinge zu kombinieren ...

Andreas Rossberg, Mitbegründer von WebAssembly, hat dies perfekt erläutert:

Aber aus meiner Sicht ist der Grund, warum KI auf der Blockchain "schwierig" ist, dass beide Technologien selbst bereits sehr teuer sind (Blockchains wegen der Replikation und des Konsenses, KI wegen der LLMs und ähnlichem, das im Wesentlichen große brute-force-Methoden sind), die Hardware, die zum Betrieb von KI entworfen wurde, ist ganz darauf ausgelegt, die Kosten zu senken, aber wenn sie mit der Blockchain kombiniert wird, steigen die Hardwarekosten tatsächlich - sie steigen nicht nur, sie steigen exponentiell, daher ist es in Bezug auf die Ressourcennutzung ein Worst-Case-Szenario, wo mehr missbraucht wird als verwendet.

Quelle:

  • forum.dfinity.org/t/what-makes-ai-on-blockchain-hard-request-for-feedback-on-post/32686/3

图片

Nützliche Hintergrundinformationen

Um diesen Artikel zu verstehen, gibt es einige Konzepte, die schnell erklärt werden sollten.

1. Training und Inferenz

Wenn Menschen von KI sprechen, beziehen sie sich normalerweise auf das "Trainieren" von Modellen oder die "Inferenz" (die Verwendung von Modellen, z. B. Fragen an ChatGPT), das Training ist um mehrere Größenordnungen schwieriger als die Inferenz und erfordert auch mehr Ressourcen. Daher konzentriere ich mich hier auf die Inferenz, da sie die erste bedeutende Hürde ist, bevor komplexere Trainingsherausforderungen angegangen werden können.

2. CPU vs. GPU

Einfach gesagt, GPUs sind Computer, die für KI-Modelle optimiert sind, sie verarbeiten Modelle 1000 Mal schneller als traditionelle allgemeine Computer (CPUs), das ist wichtig, da die meisten KI-Flaschenhälse im Web2-Bereich durch "GPU-Nutzung" gelöst werden können, die meisten Blockchains laufen auf CPUs, daher haben sie (derzeit) keine verfügbaren Lösungen, dieser Artikel erklärt warum.

3. Speicher von intelligenten Verträgen

Der Speicher von intelligenten Verträgen umfasst Speicher und Heap-Speicher, beide Arten von Speicher sind wichtig für den Betrieb von KI-Modellen, und beide sind heutzutage Einschränkungsfaktoren.

4. Meine enge Definition von KI

Ich gebe zu, dass meine Definition von KI eng gefasst ist: Ich konzentriere mich darauf, Modelle in intelligenten Verträgen bereitzustellen, ich beziehe mich nicht auf das breitere KI-Ökosystem, zum Beispiel habe ich nicht über Tokenizer oder Vektordatenbanken geschrieben, die Schlüssel für RAG und das breitere KI-Ökosystem sind (in der Tat haben viele bereits Wege gefunden, Vektordatenbanken in intelligenten Verträgen zu hosten), also ja, mein Ziel ist eng gefasst: KI-Modelle auf intelligenten Verträgen zu hosten.

图片

Notwendige Faktoren für KI auf der Blockchain

Einführung

Für KI, die in intelligenten Verträgen gehostet wird, sind drei notwendige Faktoren erforderlich:

  • Speicher - Modelle benötigen viel Speicher, während der Speicher der Blockchain geringer ist als der in zentralisierten Clouds.

  • Berechnung - Modelle benötigen viel Berechnung (z. B. Denken/Geschwindigkeit/Verarbeitung), die Blockchain hat weniger als zentralisierte Cloud-Modelle.

  • Hardware - Die meisten zentralisierten Anbieter steigern die KI-Leistung durch den Einsatz zusätzlicher Hardware, die Blockchain hat es schwerer, dies zu tun, in der Tat sind viele Protokolle so konzipiert, dass sie nicht durch den Einsatz von Hardware skalieren.

图片

1. Speicher

Was KI-Modelle benötigen

Die Speicheranforderungen für KI-Inferenz verschiedener KI-Modelle können stark variieren, z. B. benötigen kleine Machine Learning (ML) Modelle möglicherweise nur einige Megabyte (MB), während große Sprachmodelle (LLM) mehrere Tausend Gigabyte (GB) Speicher benötigen können.

Die heutige Welt

Ich möchte den Lesern einen nützlichen Überblick geben, aber ich werde absichtlich keine Tabellen oder Diagramme bereitstellen, um verschiedene Blockchains zu vergleichen. Nach meiner Erfahrung kann dies zu zwei Dingen führen:

  • Im besten Fall handelt es sich um einige ehrliche Fehler wie: "Hey, Diego, du hast dich verrechnet! Unsere intelligente Vertragsplattform führt 600 Anweisungen pro Sekunde aus, nicht 550."

  • Im schlimmsten Fall führt es zu Blockchain-Tribalismus, wodurch der Rest ignoriert wird.

Daher werde ich Artikel über KI-Anforderungen, Ethereum (allgemeine Sprache) und ICP (Blockchain, mit der ich sehr vertraut bin) schreiben, ich ermutige die Leser, ihre eigenen Analysen zu anderen Ketten vorzulegen!

Ethereum intelligente Verträge

Der Heap-Speicher von Ethereum intelligenten Verträgen wird in KB gemessen, was bedeutet, dass Ethereum die meisten KI-Modelle, die ich kenne, nicht unterstützen kann, es könnte einige KI-Modelle in KB geben, aber einfach gesagt: Ethereum intelligente Verträge können die meisten als KI-Modelle bezeichneten nicht unterstützen.

ICP intelligente Verträge

ICP intelligente Verträge haben 400 GB stabilen Speicher (z. B. Speicher) und 4 GB Heap-Speicher, was bedeutet, dass ICP intelligente Verträge viele, aber nicht alle KI-Modelle unterstützen können, genauer gesagt die Modelle, die ICP intelligente Verträge ausführen können:

① ICP intelligente Verträge können KI-Modelle wie das in dieser Demonstration verwendete für Bildklassifikation 1 ausführen, das nur etwa 10 MB Speicher benötigt, was vollständig im Speicherbereich von ICP liegt.

② ICP intelligente Verträge können LLM-Modelle unterstützen, siehe Gemeinschaftsbeispiele:

  • Llama 3 8b läuft auf der Kette!

  • Llama.cpp auf dem Internetcomputer

Modelle, die ICP intelligente Verträge derzeit nicht ausführen können: ICP intelligente Verträge können größere Versionen von Llama wie 70B Parameter noch nicht ausführen.

Derzeit bieten ICP intelligente Verträge 4 GB Heap-Speicher und werden bald über mehr Speicher verfügen, so dass dies bereits sehr nahe an einem normalen Dienst ist.

Daumenregel #1

Jedes Mal, wenn jemand sagt: "X ist On-Chain-KI", solltest du fragen: "Wie viel Speicher kann der intelligente Vertrag auf X bereitstellen?"

Wenn die Antwort ... ist

  • In KB kann es kein echtes KI-Modell unterstützen;

  • In MB kann es kleine Modelle unterstützen (und es gibt viele kleine Modelle), aber keine LLMs unterstützen;

  • In GB kann es einige kleinere LLMs aufnehmen;

  • In Dutzenden von GB kann der Host mehr unterstützen, aber keine Haupt-LMMs;

  • In Hunderten von GB kann es fast alle LLMs unterstützen.

Was ICP betrifft, können die meisten KI-Modelle On-Chain gehostet werden (nach einigen Umstrukturierungen der Modelle), das Problem ist, wie lange die Benutzer bereit sind zu warten, um eine Antwort zu erhalten, was zur nächsten Frage führt: Berechnung.

图片

2. Berechnung

Was KI-Modelle benötigen

Die Rechenleistung, die für KI-Inferenz benötigt wird, wird in FLOPS (Floating Point Operations Per Second) gemessen, die Komplexität und Größe von KI-Modellen kann stark variieren und die erforderliche Rechenleistung beeinflussen, jedoch macht es im Kontext von Blockchain-Protokollen mehr Sinn, einen allgemeineren Begriff wie Operationen pro Sekunde zu verwenden, daher werden wir diesen Begriff verwenden, da er in der Praxis oft im gleichen Größenordnungsbereich liegt.

Kleinere Modelle benötigen möglicherweise nur einige Milliarden Operationen pro Sekunde, während große Sprachmodelle (LLM) und andere fortschrittliche KI-Modelle mehr Rechenleistung benötigen, z. B. das quantisierte (im Grunde auf Größe optimierte) Llama3 7B Modell, das mehrere Milliarden Operationen benötigt, um die Inferenz (die Antwort auf die Eingabe des Benutzers) durchzuführen.

Aus der Sicht des Benutzers

Aus der Sicht des Benutzers ist der Unterschied in der Zeit, die für die Berechnung erforderlich ist, um LLM-Antworten zu erhalten, zwischen Sekunden, Stunden, Tagen, Wochen oder Monaten unterschiedlich, abhängig von der Menge an Rechenressourcen, die der intelligente Vertrag hat.

Die heutige Welt

Ethereum intelligente Verträge

Ethereum intelligente Verträge verlassen sich hauptsächlich auf die EVM, und die EVM ist nicht für hochleistungsfähige Berechnungsaufgaben optimiert. Genauer gesagt ist die Berechnungsmenge von ETH intelligenten Verträgen deutlich niedriger als die für die meisten KI-Modelle erforderlichen Gigaflops.

DFINITY schätzt, dass die maximale Anzahl an Anweisungen pro Sekunde etwa 5 Millionen Anweisungen pro Sekunde beträgt, basierend auf den Gasbeschränkungen der Blockchain, weshalb Ethereum nicht die benötigte Rechenleistung für den Betrieb komplexer KI-Modelle (insbesondere großer Sprachmodelle LLM) bereitstellen kann.

ICP intelligente Verträge

ICP intelligente Verträge verfügen über bessere Rechenressourcen, sie können 2 Milliarden Operationen pro Sekunde ausführen. Es ist erwähnenswert, dass ICP intelligente Verträge im Gegensatz zu Ethereum, die nur Ganzzahloperationen verarbeiten, auch Fließkommaoperationen sowie Ganzzahloperationen verarbeiten können.

Modelle, die ICP intelligente Verträge ausführen können: ICP kann KI-Modelle ausführen, die bis zu mehrere Milliarden Operationen pro Sekunde erfordern, und die Inferenz innerhalb der vom Benutzer erwarteten Zeit (wenige Sekunden oder weniger) durchführen. Dazu gehören viele kleinere Modelle, wie das in dieser Demonstration verwendete Bildklassifikationsmodell, das nur mehrere Milliarden Operationen pro Sekunde benötigt, um effizient zu laufen.

Modelle ICP intelligente Verträge können derzeit nicht so schnell ausgeführt werden, wie Benutzer es erwarten: Ein quantisierter Llama3 7B Modell benötigt Dutzende von Milliarden Inferenzoperationen (um die Eingabe des Benutzers zu beantworten), ICP intelligente Verträge können 2 Milliarden Operationen pro Sekunde unterstützen, theoretisch benötigt ein ICP intelligenter Vertrag für eine Inferenzanfrage, also die Beantwortung eines Hinweises, Dutzende von Sekunden bis Minuten.

In Kürze: Die DFINITY-Forschungsabteilung untersucht Möglichkeiten zur Verbesserung der Rechenleistung von ICP intelligenten Verträgen. Potenzielle Verbesserungen umfassen die Integration spezieller Hardware oder die Optimierung der Ausführungsumgebung zur Handhabung höherer Anforderungen an Operationen pro Sekunde.

Daumenregel #2

Jedes Mal, wenn jemand sagt: "X ist On-Chain-KI", solltest du fragen: "Wie viel Rechenleistung kann der intelligente Vertrag auf der X-Blockchain bereitstellen?"

Wenn die Antwort ... ist

  • Gemessen an Operationen, die in Millionen von Sekunden oder weniger durchgeführt werden, wird die KI-Inferenz so lange dauern, dass der Benutzer denkt, dass sie überhaupt nicht funktioniert.

  • Gemessen an Hunderten von Millionen Operationen pro Sekunde können sehr kleine Modelle die Inferenz in wenigen Minuten durchführen.

  • Gemessen in Milliarden kann ein kleinerer LLM die Inferenz in wenigen Minuten durchführen oder viel langsamer als vom Benutzer erwartet.

  • Gemessen in Hunderten von Milliarden könnte die LLM-Inferenz die Erwartungen moderner Benutzer an LLMs darstellen.

  • Gemessen in Billionen Operationen pro Sekunde kann es fast alle KI-Modelle unterstützen, einschließlich der fortschrittlichsten LLMs, und eine hervorragende Benutzererfahrung bieten.

图片

3. Hardwareprobleme (Hinweis: Das ist der Determinismus)

In der Web2-Welt bedeutet die Erhöhung der Rechenressourcen für Modelle in der Regel die Nutzung von GPUs, da diese schneller sind, was der Grund ist, warum GPUs weltweit stark nachgefragt werden.

Warum kann die Blockchain nicht einfach GPUs verwenden?

Technische Gründe: Da GPUs von Natur aus für Multithreading ausgelegt sind, kann nicht garantiert werden, dass alle Operationen deterministisch sind, während Blockchain deterministische Berechnungen benötigt, um Konsens zu erreichen. In der Praxis gibt es Möglichkeiten, GPU deterministisch handeln zu lassen, aber dies erfordert sorgfältige Überlegung und Konfiguration. Zunächst erkläre ich die Wichtigkeit von Determinismus.

Ein einfacherer Erklärungsansatz: Die Funktionsweise von Blockchains besteht darin, dass mehrere Computer dieselbe Berechnung durchführen und dann mithilfe eines Konsensprotokolls über das Ergebnis einen Konsens erzielen. Blockchains haben einen Sicherheitsgrad, der normalerweise zwischen 25 % und 49 % liegt, was bestimmt, wie viele fehlerhafte oder unehrliche Knoten sie tolerieren können, während sie Konsens erzielen. Bei der Verwendung von GPUs kann es jedoch selbst dann, wenn alle Knoten dasselbe Modell verwenden, vorkommen, dass selbst ehrliche Knoten unterschiedliche Antworten für LLM zurückgeben, was Probleme für das Konsensprotokoll verursacht.

Beispiel: Stell dir vor, es gibt drei Computer auf einer Blockchain, jeder führt einen LLM-intelligenten Vertrag aus, ein Benutzer fragt: "Was ist LLM?"

  • Computer 1: "LLM, also große Sprachmodelle, sind fortschrittliche KI-Modelle, die darauf ausgelegt sind, menschliche Sprache zu verstehen und zu erzeugen, oft mit einer großen Anzahl von Parametern und mit großen Textdaten trainiert."

  • Computer 2: "LLM, also große Sprachmodelle, sind leistungsstarke KI-Systeme, die mit großen Textmengen trainiert wurden und Aufgaben wie das Verstehen, Erzeugen und Übersetzen von menschlicher Sprache ausführen können."

  • Computer 3: "LLM, also große Sprachmodelle, sind KI-Modelle, die durch umfangreiches Training an großen Datensätzen geschickt im Umgang mit und im Erzeugen von menschlicher Sprache sind."

Obwohl drei Computer ehrlich sind und dasselbe Modell verwenden, geben sie unterschiedliche Antworten zurück. Diese Unsicherheit kann aus verschiedenen Gründen auftreten und ist problematisch. Das Konsensprotokoll kann nicht bestimmen, welche Antwort korrekt ist, was einen scharfen Kontrast zu einfacheren, deterministischen Berechnungen wie "1 + 1" bildet, bei denen alle Computer übereinstimmen, dass es "2" ist.

Angesichts der oben genannten Umstände sollte ich einige Details hinzufügen: Selbst wenn die Modelltiefe auf 0 gesetzt ist, kann es zu Unsicherheiten kommen, das Knifflige ist, dass die Unsicherheit von der GPU und nicht vom Modell selbst kommt. Wirklich knifflig ist, dass die GPU in den meisten Fällen die gleiche Antwort zurückgibt, was ein falsches Gefühl von Sicherheit vermittelt. Diese Determinismus kann jedoch nicht garantiert werden. Wenn dies nicht garantiert werden kann, kann es zu Situationen kommen, in denen die Blockchain keinen Konsens erzielt.

Nehmen wir eine fiktive, aber konkrete Zahl: Wenn GPUs zu 99,99 % deterministisch sind, bedeutet das, dass von 10.000 Eingaben 1 möglicherweise eine unterschiedliche Antwort zurückgibt. Stell dir vor, wenn von 10.000 Blöcken 1 Blockchain keinen Konsens erzielen kann ... die meisten Blockchains werden keinen Konsens herstellen können, was für den Konsens gefährlich ist.

Wichtige Punkte

  • Blockchains sind auf die Replikation von Berechnungen und die Einigung über Ergebnisse angewiesen;

  • GPUs bringen Nicht-Determinismus mit sich, was es Blockchains erschwert, einen Konsens zu erzielen;

  • Daher können derzeitige Blockchains GPUs nicht so nutzen wie Web2-Systeme.

Mögliche Lösungen

Dies ist eine neue Herausforderung, aber es werden mehrere potenzielle Lösungen erkundet (zum Zeitpunkt des Schreibens ist keine vollständig gelöst):

  • Determinismus mit GPUs erreichen: Methoden entwickeln, die GPU-Berechnungen deterministisch machen, was möglich ist, obwohl es etwas knifflig ist und noch nicht weit verbreitet ist.

  • Konsensprotokolle modifizieren: Anpassung des Konsensmechanismus, um mit Nicht-Determinismus umzugehen, dies erfordert ernsthafte Protokollarbeit.

  • Akzeptieren von Nicht-Determinismus und Verwendung von Zero-Knowledge-Beweisen: LLM auf einer einzelnen Maschine ausführen, ohne Kopien zu erstellen, dieser Ansatz ist um viele Größenordnungen langsamer als die Verwendung von CPUs oder GPUs, was theoretisch machbar ist, aber schwer zu erreichen und immer noch ein ungelöstes Problem.

Das gesamte KI- und Blockchain-Ökosystem (einschließlich DFINITY) erforscht aktiv und untersucht diese drei Ansätze, um die beste Lösung zu finden.

Daumenregel #3

Wenn jemand behauptet: "Meine Blockchain läuft auf GPUs", dann ist eine der folgenden Aussagen korrekt:

  • Sie führen GPUs deterministisch aus oder wenden annähernde Konsensmechanismen an;

  • Ihre Blockchain fehlt an einem starken Konsensprotokoll (und ist unsicher);

  • Sie haben nicht die Wahrheit gesagt.

图片

Fazit

On-Chain-KI ist noch nicht vollständig verwirklicht. Obwohl es einige vielversprechende Fortschritte in der Integration von KI-Inferenz gibt, müssen die enormen Lücken in Bezug auf Speicher, Rechenleistung und Konsensmechanismen geschlossen werden. Diese Herausforderungen sind nicht unüberwindbar, erfordern jedoch konzentrierte Forschung, Entwicklung und Innovation. Durch das Verständnis und die Lösung dieser Hindernisse kann der Traum, die Kraft der KI mit der Sicherheit und Dezentralisierung der Blockchain zu kombinieren, Wirklichkeit werden.

Hoffentlich hilft das allen!

图片

#AI模型 #gpu #DEAI🤖🤖🤖 #LLM

Inhalte, die dich IC interessieren

Technologische Fortschritte | Projektinformationen | Globale Veranstaltungen

Folge dem IC Binance-Kanal

Bleibe auf dem Laufenden