Konferencja Dartmouth: Gdzie narodziło się „SI”

Latem 1956 roku, John McCarthy, Marvin Minsky, Claude Shannon i Nathaniel Rochester zebrali się na Dartmouth College na Dartmouth Summer Research Project dotyczący SI.

To właśnie tutaj po raz pierwszy użyto terminu „Sztuczna Inteligencja”. Propozycja brzmiała:

„Każdy aspekt uczenia się lub jakiejkolwiek innej cechy inteligencji można w zasadzie tak dokładnie opisać, że maszyna może zostać zaprojektowana do jej symulacji.”

To nie była hackathon koderski. To był plan dla całej dziedziny, wskazujący na sieci neuronowe, wyszukiwanie, rozumowanie symboliczne i język. Marzenie zostało ustalone.

Aby dowiedzieć się więcej:
Konferencja w Dartmouth

Od reguł do uczenia: perceptron

W 1957 roku Frank Rosenblatt zapytał: co by było, gdyby maszyny mogły uczyć się jak neurony? Wprowadził perceptron, pierwszy matematyczny model neuronu.

Perceptron przyjmuje wejścia, mnoży je przez wagi, dodaje bias i przetwarza przez funkcję krokową:

f(x) = h(w ⋅ x + b)

  • Wejścia (xi) = cechy, takie jak wartości pikseli

  • Wagi (wi) = znaczenie każdej cechy

  • Bias (b) = dostosowuje granicę decyzji

  • Funkcja krokowa (h) = wyjście binarne (1 lub 0)

To sprawiło, że perceptron był klasyfikatorem liniowym, zdolnym do narysowania prostoliniowej granicy między klasami.

Rosenblatt zbudował także sprzęt: Mark I Perceptron (1960). Miał siatkę 20×20 fotokomórek działających jak siatkówka, losowo połączoną z jednostkami asocjacyjnymi, z regulowanymi wagami realizowanymi przez potencjometry. Silniki aktualizowały te wagi podczas uczenia.

Był w stanie klasyfikować proste wzory i wzbudził ogromne emocje. New York Times nawet twierdził, że pewnego dnia mógłby chodzić, mówić i być świadomy (
Archiwum NYT, 1958).

Ale miała swoje ograniczenia: nie mogła rozwiązywać problemów takich jak XOR, które nie są liniowo separowalne.

📖 Dowiedz się więcej:
Perceptron (Wikipedia),
Praca Rosenblatta z 1958 roku (PDF).

Modele językowe i przewidywanie następnego słowa

Równolegle rozwijała się zupełnie inna idea. Czy maszyny mogłyby przewidywać tekst zamiast rozumować logicznie?

  • Claude Shannon (1948–1951): Mierzył entropię angielskiego, prosząc ludzi o zgadywanie następnej litery. To udowodniło, że język jest statystycznie przewidywalny.

  • N-gramy (lata 60-te–70-te): Zamiast pełnego rozumowania, przybliżaj, patrząc na ostatnie kilka słów. Model trigramowy przewiduje P(wt | wt−2, wt−1).

  • Korpora: Brown Corpus (1961) dostarczył 1 mln słów tekstu, umożliwiając testowanie modeli statystycznych.

  • Aplikacje: Wczesne eksperymenty rozpoznawania mowy w IBM i Bell Labs w latach 70-tych używały modeli n-gramowych z metodami wygładzania takimi jak Good-Turing, a później Kneser-Ney.

To jest ważne, ponieważ nowoczesne LLM-y nadal używają tego samego celu: przewidzieć następny token. Różnica tkwi w skali i architekturach neuronowych, nie w celu.

Dowiedz się więcej:
Kliknij tutaj!

Symboliczna AI i systemy ekspertowe

Po Dartmouth i Perceptronie, wczesne lata były zdominowane przez symboliczną AI. Badacze budowali systemy ekspertowe: programy, które kodowały wiedzę specyficzną dla danej dziedziny jako reguły logiczne.

Przykład: MYCIN (1972) na Stanfordzie. Używał ~600 reguł do rekomendacji antybiotyków na infekcje. W wąskich przypadkach działał tak dobrze, jak lekarze.

Ale symboliczna AI stanęła w obliczu wąskiego gardła pozyskiwania wiedzy. Pisanie i utrzymywanie reguł dla chaotycznych, rzeczywistych dziedzin stało się niemożliwe. To rozpoczęło poszukiwania alternatywy na różne sposoby.

Prolog: Programowanie w logice

W 1972 roku Alain Colmerauer i Philippe Roussel wprowadzili Prolog („Programowanie w logice”). W przeciwieństwie do programowania imperatywnego, Prolog był deklaratywny. Pisało się fakty i reguły, a system wnioskował odpowiedzi.

Przykład:

cat(tom).

mouse(jerry).

hunts(X, Y) :- cat(X), mouse(Y).

Zapytanie: ?- hunts(tom, jerry). → true

Prolog napędzał symboliczną AI i był centralnym punktem Projektu Komputerowego Japonii Piątej Generacji (1982–1992), który zainwestował 400 mln USD w budowę inteligentnych maszyn wnioskowania.

Uczenie maszynowe: dane stają się nauczycielem

📖 Dalsza lektura: Teoria uczenia statystycznego – Vapnik, Podstawy uczenia maszynowego – Mohri, Rostamizadeh, Talwalkar

Do lat 80-tych, symboliczna AI utknęła. Reguły nie mogły uchwycić nieskończonego bałaganu rzeczywistego świata. Nowy pomysł był radykalny: zamiast pisać reguły ręcznie, dostarczyć systemowi dane i pozwolić algorytmowi odkryć reguły samodzielnie.

To oznaczało narodziny uczenia maszynowego. Przejście nie było tylko filozoficzne, ale głęboko matematyczne. Władimir Vapnik i Aleksiej Czerwonienkis sformalizowali tę ideę poprzez Teorię Uczenia Statystycznego.

Głównym problemem była generalizacja: mając skończony zbiór danych treningowych, jak model może dokonywać dokładnych prognoz w przypadkach, których nie widział? Vapnik i Czerwonienkis wprowadzili kluczowe pomysły:

  • Wymiar VC: miara pojemności klasy modelu

  • Empiryczna minimalizacja ryzyka (ERM): minimalizuj błąd treningowy

  • Strukturalna minimalizacja ryzyka (SRM): równoważenie błędu treningowego z złożonością modelu, aby uniknąć overfittingu

To sprawiło, że uczenie maszynowe stało się nauką, a nie zgadywaniem.

Wczesne algorytmy: Drzewa, Bayes i Marginesy

Gdy teoria była na miejscu, praktyczne algorytmy zaczęły kształtować przemysły.

Drzewa decyzyjne
Ross Quinlan wprowadził ID3 w 1986 roku. Drzewa decyzyjne dzielą dane krok po kroku, tworząc reguły if-then bezpośrednio z przykładów. Były zrozumiałe i przydatne w wykrywaniu oszustw, diagnostyce medycznej i segmentacji klientów.

Naive Bayes
Zakorzeniony w twierdzeniu Bayesa, Naive Bayes zakłada, że cechy są niezależne. Pomimo tego uproszczenia, działał dobrze w klasyfikacji tekstu. W latach 90-tych napędzał filtry spamowe i klasyfikację dokumentów na dużą skalę.

Maszyny wektorów nośnych (SVM)
Wprowadzony przez Vapnika w latach 90-tych, SVM miał na celu znalezienie hiperpłaszczyzny, która najlepiej oddzielała klasy, maksymalizując margines. Doskonale sprawdzały się w rozpoznawaniu pisma, wykrywaniu twarzy i bioinformatyce, pokazując silną moc uogólniania w przestrzeniach o wysokich wymiarach.

📖 Dowiedz się więcej:
Uczenie drzewa decyzyjnego (Wikipedia),
Naive Bayes (Wikipedia),
Maszyny wektorów nośnych (Wikipedia).

Sieci i przełom propagacji wstecznej

Ludzki mózg buduje zrozumienie w warstwach: od krawędzi do kształtów do obiektów. Pojedynczy perceptron nie mógłby tego zrobić, ale perceptrony wielowarstwowe (MLP) mogły.

W 1986 roku Rumelhart, Hinton i Williams spopularyzowali propagację wsteczną, metodę treningu tych wielowarstwowych sieci. Błędy z warstwy wyjściowej były propagowane wstecznie, dostosowując wagi w wcześniejszych warstwach krok po kroku.

Propagacja wsteczna używała spadku gradientu, przesuwając wagi w kierunku wartości, które zmniejszały błąd. To sprawiło, że MLP były wystarczająco potężne, aby przybliżyć prawie każdą funkcję, co później udowodnił Twierdzenie o Uniwersalnej Aproksymacji.

Chociaż ograniczone przez moc obliczeniową i małe zbiory danych tamtych czasów, propagacja wsteczna położyła fundamenty dla sieci neuronowych, które później zdominowały AI.

Dowiedz się więcej:
Propagacja wsteczna (Wikipedia)

Wnioski: Scena dla nowoczesnej AI

Do lat 90-tych, AI stała na dwóch mocnych nogach. Z jednej strony, algorytmy uczenia maszynowego takie jak drzewa decyzyjne, Naive Bayes i SVM napędzały aplikacje w finansach, opiece zdrowotnej i telekomunikacji. Z drugiej strony, sieci neuronowe z propagacją wsteczną miały teoretyczną moc, aby przybliżyć prawie wszystko, ale były ograniczone przez ograniczenia danych i mocy obliczeniowej.

Obok tych rozwijał się cichszy, ale równie ważny wątek w modelowaniu języka. Od wczesnych eksperymentów Claude'a Shannona z przewidywalnością w angielskim tekście po modele n-gramowe i badania nad rozpoznawaniem mowy, idea przewidywania następnego słowa stała się praktycznym sposobem uchwycenia wzorców w języku.

Gdy w latach 2000 pojawiły się duże zbiory danych, a GPU odblokowały skalę, te trzy nurty zaczęły się zbiegać. Algorytmy napędzane danymi, sieci neuronowe z propagacją wsteczną i tradycja przewidywania następnego słowa połączyły się w to, co teraz nazywamy głębokim uczeniem.

Skromne początki perceptrona, rygorystyczna teoria uczenia statystycznego, przełom propagacji wstecznej i wytrwałość modelowania języka połączyły się, aby stworzyć fundamenty nowoczesnej AI.

W następnym blogu zbadamy, jak sieci neuronowe ewoluowały w CNN, RNN i głębokie uczenie, oraz jak potrzeba mocy obliczeniowej i wąskie gardła w danych ukształtowały scenę dla narodzin transformerów.

OPENLEDGER

\u003ct-338/\u003e\u003cc-339/\u003e

OPEN
OPEN
0.2325
-2.02%