Autor: Xin Zhi Yuan
Google I/O 2026, pełna moc w akcji!
Właśnie teraz, Chop i Demis Hassabis wystąpili razem, pokazując wszystkie swoje asy, które zbierali przez pół roku.
Bez cienia wątpliwości, dzisiejszym głównym bohaterem jest Gemini Omni, który oficjalnie zadebiutował!
Jako prawdziwy 'wszechstronny' model, Omni potrafi przyjmować dowolne formy wejścia i generować dowolne treści. Dodatkowo, w debiucie obsługuje wyjście wideo, co czyni go 'wideo wersją Nano Banana'.
Inny szczyt wieczoru należy do Gemini 3.5 Flash.
W prawie wszystkich benchmarkach, 3.5 Flash zdominował swojego poprzednika, flagowca Gemini 3.1 Pro. Prędkość wyjściowa podwoiła się, a w porównaniu do GPT-5.5 i Opus 4.7 jest szybsza o ponad 4 razy. Jeszcze mocniejszy 3.5 Pro zadebiutuje w przyszłym miesiącu.
Ponadto zaprezentowano wiele nowych, ważnych produktów:
Antigravity 2.0: nowa, niezależna aplikacja biurkowa, ewoluująca z IDE w platformę rozwoju agentów.
Gemini Spark: osobisty agent AI, działający w chmurze 7×24 godziny.
Rewizja Gemini App: kodowa nazwa Neural Expressive, zmiana na rozliczanie mocy obliczeniowej.
Plan subskrypcyjny AI Ultra: nowa wersja za 100 dolarów, najwyższa klasa spadła z 250 do 200 dolarów.
Największa aktualizacja Google Search w ciągu 25 lat: wprowadzenie 3.5 Flash, nowy inteligentny pasek wyszukiwania, automatyczne generowanie mini aplikacji itp.
Nie jest przesadą stwierdzenie, że gęstość treści tej konferencji I/O była najwyższa w historii.
Premiera Gemini Omni: narodziny „wszechstronnego” AI.
Tak jak szalony teaser sugerował, długo oczekiwany Gemini Omni w końcu nastał. Hassabis osobiście ogłosił: „Robimy kolejny ważny krok – Gemini Omni, nowy model, który tworzy treści z dowolnego wejścia.”
Ten układ mówi wszystko. Google tym razem chce stworzyć „wszechstronny” silnik twórczy AI. Łączy inteligencję Gemini z najsilniejszym generatywnym AI, maksymalizując zrozumienie świata, multimodalność i edytowanie na trzech wymiarach. Mówiąc wprost, gdy otrzyma zdjęcia, audio, wideo i tekst w dowolnej kombinacji, potrafi wygenerować wysokiej jakości wideo. A edytowanie wideo odbywa się w formie rozmowy.
Co ważniejsze, Omni nie tylko „wygląda jak”, naprawdę rozumie fizyczny świat. Oto, co powiedział Hassabis: wcześniejsze systemy często miały problemy z symulowaniem pojęć, takich jak grawitacja i energia kinetyczna, ale Omni osiągnęło „skokową zmianę”. Wprowadziło wiedzę o świecie Gemini i zdolność rozumowania do generowania wideo.
Dając mu polecenie „wyjaśnij złożenie białka za pomocą animacji z gliny”, w wygenerowanym wideo każdy krok, w którym łańcuch aminokwasowy zgina się w α helis i β zgięcie, jest naukowo dokładny, wizualnie jest to starannie wykonana animacja poklatkowa.
Na przykład, przypisując obiekty do 26 liter alfabetu angielskiego. C to kapibara (Capybara), D to kula dyskotekowa, L to lampa lawowa. Omni nie tylko łączy materiały, naprawdę łączy język, obrazy i semantykę.
Nie można zaprzeczyć, że krok od realizmu do znaczenia jest ogromny.
Na scenie, Hassabis wyciągnął nagranie selfie i zaczął je modyfikować na żywo. Rysunek na dłoni zamienia się w czarną dziurę, a ulica, po której spacerował wieczorem, przekształca się w scenerię cyberpunkową. Jedno zdanie przepisuje obraz, jedno zdanie zmienia świat. Cokolwiek może stać się płótnem do tworzenia nowej rzeczywistości. Na przykład, selfie trzymane w ręku, rysując okrąg na papierze, natychmiast zamienia się w czarną dziurę, a różne kreatywne pomysły mogą być realizowane.
Co więcej, to nie jest jednorazowe generowanie. Możesz nadal rozmawiać. Wideo wygenerowane przez Gemini Omni zachowuje spójność postaci, fizyczna logika jest zachowana, a pamięć sceny jest spójna.
Zaczynając od oryginalnego obrazu przedstawiającego występ. W drugiej rundzie, „przenieś skrzypka do środowiska tego obrazu”, dołączając zdjęcie gór i zielonego terenu jako referencję, scena natychmiast się zmienia, a ruchy oraz światło dostosowują się do nowego otoczenia.
Trzecia runda, „przenieś kamerę za ramię skrzypka”, kąt widzenia obraca się, ale ruchy i muzyka pozostają całkowicie spójne.
Bez względu na to, jak zmienia się scena, główny obiekt nie ulega zniszczeniu.
Jeszcze bardziej przerażająca jest elastyczność wejściowa Omni. Obrazy, teksty, wideo, audio – wszelkie materiały referencyjne mogą być mieszane w celu wygenerowania spójnych wyników. Możesz nawet stworzyć własnego Avatara, aby AI w twoim stylu pojawiło się w dowolnej sytuacji, mówiąc twoim głosem i robiąc rzeczy, których nigdy nie zrobiłeś.
Obecnie Omni Flash jest oficjalnie uruchomiony, a wersja API zostanie udostępniona w najbliższych tygodniach. A jeszcze mocniejszy Omni Pro jest w drodze. Dzięki potężnym możliwościom integracyjnym Google, Omni zadebiutował z integracją Gemini App, Google Flow i YouTube Shorts, a użytkownicy YouTube Shorts mogą go nawet używać za darmo.
Flash pokonał Pro: 3.5 zmieniło definicję „flagowca”.
Po Gemini Omni, drugim ważnym punktem konferencji I/O była premiera nowego flagowca Gemini 3.5 Flash. Google określa go jako najsilniejszy model kodowania i inteligentnych agentów do tej pory.
Na scenie, Hassabis ogłosił: „3.5 Flash w niemal wszystkich testach referencyjnych, całkowicie przewyższa Gemini 3.1 Pro”! Warto zauważyć, że 3.1 Pro to flagowy model Google, który został wydany zaledwie trzy miesiące temu, a teraz model na poziomie Flash go pokonał.
Nie spodziewałem się, że Google w tak krótkim czasie dostarczy tak imponujące wyniki:
Terminal-Bench 2.1 (kodowanie): 76.2%
GDPval-AA (rzeczywiste zadania agenta): 1656 Elo
MCP Atlas (duża skala użycia narzędzi): 83.6%
CharXiv Reasoning (zrozumienie multimodalne): 84.2%
Parametry są zbyt abstrakcyjne, lepiej przyjrzeć się rzeczywistym ekstremalnym demonstracjom. W mgnieniu oka 3.5 Flash potrafi przetworzyć naukowy artykuł oraz stworzyć interaktywną stronę internetową. W zadaniach związanych z agentami, dzięki Antigravity, może zrealizować wieloetapowy przepływ pracy, automatycznie klasyfikując i nazywając wyświetlane zasoby. Można też wykorzystać dwóch agentów do odtworzenia artykułu AlphaZero w zaledwie sześć godzin oraz napisać kompletną działającą grę.
93 agenci stworzyli OS w zaledwie 12 godzin.
Widać, że wszystkie umiejętności 3.5 Flash są realizowane dzięki nowemu Antigravity 2.0. Dziś Google zaktualizowało platformę rozwoju agentów Antigravity do wersji 2.0, przechodząc z IDE w niezależną aplikację biurkową, całkowicie przyjmując projektowanie zorientowane na agentów.
Varun na scenie zaprezentował demo, które zaparło dech w piersiach. Użył Antigravity z 3.5 Flash, aby zbudować system operacyjny od podstaw. 93 podagentów pracowało równolegle, wysyłając ponad 15000 zapytań modelu, przetwarzając 2,6 miliarda tokenów. Po 12 godzinach, całkowicie pusty projekt stał się w pełni funkcjonalnym jądrem systemu operacyjnego. Planista, zarządzanie pamięcią, system plików – każda linijka kodu była pisana przez agenta, testowana przez agenta i audytowana przez agenta. Koszt API wyniósł mniej niż 1000 dolarów.
Następnie spróbował uruchomić DOOM na tym systemie operacyjnym stworzonym przez AI. Pierwsza próba się nie powiodła, brakowało sterowników wideo i klawiatury. W takim razie wpisał na miejscu polecenia naprawy w Antigravity 2.0, a agent zaczął automatycznie pisać kod sterowników. Po chwili, obraz DOOM pojawił się na ekranie, a sala eksplodowała.
Podsumowując, Antigravity 2.0 przynosi kluczowe aktualizacje, w tym:
Podagenty mogą być dynamicznie generowane, główny agent dzieli zadania na podzadania i przypisuje je, działając równolegle bez zakłóceń;
Zarządzanie zadaniami asynchronicznymi eliminuje blokowanie głównego wątku podczas długotrwałych operacji;
Zadania zaplanowane (Scheduled Tasks) pozwalają ustawić „zadania cykliczne”, które agent wykonuje automatycznie, na przykład codziennie sprawdzając status PR lub co godzinę uruchamiając skrypt zdrowotny.
Nowe polecenia slash: /goal umożliwiają agentowi wykonanie zadania za jednym razem, /grill-me odwrotnie, by agent zrozumiał wymagania przed przystąpieniem do działania, /browser do kontrolowania użycia przeglądarki.
Jednak to wszystko to umiejętności, które już funkcjonują wewnętrznie. W Google, przy użyciu Antigravity, prędkość przetwarzania tokenów w marcu wynosiła 500 miliardów dziennie. Teraz to już 30 bilionów dziennie. A ten 12-krotnie szybszy Flash jest teraz dostępny w Antigravity.
3.5 Flash stał się jednocześnie domyślnym modelem Gemini App i trybu AI w Google Search, dostępny dla wszystkich użytkowników na całym świecie. Programiści mogą go wywoływać przez Antigravity 2.0, Gemini API, Google AI Studio. Użytkownicy biznesowi mogą uzyskać dostęp przez Gemini Enterprise Agent Platform. Co więcej, 3.5 Pro jest obecnie w fazie testów wewnętrznych i ma być wydany w przyszłym miesiącu.
7x24h osobisty asystent: Google Spark w końcu nastał.
Dziś wieczorem, trzecia wielka premiera – Gemini Spark! Jego rola jest bardzo jasno określona: twój osobisty agent AI. Nawet gdy zamkniesz laptopa, on nie przestaje działać. Działa na dedykowanej maszynie wirtualnej w chmurze, zapewniając 7x24 godzinną dostępność.
Gemini Spark działa na bazie Gemini 3.5 + frameworka Antigravity, głęboko integrując wszystkie aplikacje Google. Wiceprezydent produktu Josh Woodward zaprezentował dwa scenariusze, które od razu doprowadziły do szaleństwa wśród widowni.
Pierwszym scenariuszem jest scena robocza: wprowadzenie polecenia „Pomóż mi napisać e-mail do zespołu, podsumowując wszystkie informacje o wydaniu Gemini Live z ostatniego tygodnia.” Spark automatycznie przeszukuje Gmail, Docs i czaty, a także korzysta z umiejętności „ghostwriter”, którą Woodward sam napisał, aby e-mail automatycznie dopasowywał jego osobisty styl. Cały proces odbywa się w tle, a człowiek jedynie zatwierdza i wysyła. Tak, Spark obsługuje dostosowane umiejętności, ucząc się twojego stylu, preferencji i sposobu pracy.
Druga sytuacja to życie codzienne: planowanie ulicznej imprezy. Po otrzymaniu zadania, Spark krok po kroku realizował je. Stworzył arkusz RSVP w Google Sheets, bezpośrednio połączony z Gmail, który automatycznie aktualizował odpowiedzi. Dla sąsiadów, którzy się nie zapisali, Spark automatycznie stworzył szkic przypominającego maila, a po potwierdzeniu wysłał go. Następnie wygenerował również prezentację w Google Slides, zawierając informacje o dmuchanym zamku, który miał być na ulicy. Cały proces odbył się bez otwierania jakiejkolwiek aplikacji.
Nie tylko to, Spark ma również potężne możliwości rozpoznawania głosu. Na scenie, Woodward wyciągnął telefon i zadał trzy zadania głosowo: „Znajdź wszystkie spotkania z Sundarem oznaczone na różowo”, „Napisz zaproszenie dla nowego sąsiada Johna do listy block party”, „Stwórz dokument z listą rzeczy do zrobienia przed końcem roku szkolnego, uporządkowanych według daty zakończenia”.
Bezpośrednio przekształcone w polecenia tekstowe, Spark automatycznie dzieli ciągłą wypowiedź na trzy niezależne wątki zadań, które są wykonywane równolegle w tle.
W kwestii cen, subskrypcja AI Ultra kosztuje 100 dolarów miesięcznie za dostęp do Spark Beta. Najwyższy plan Ultra spadł z 250 dolarów do 200 dolarów. Spark w przyszłym tygodniu w pierwszej kolejności otworzy wersję Beta dla użytkowników AI Ultra w USA.
Tej nocy Google rozdarł wejście do ASI.
Patrząc wstecz na tę konferencję I/O, prawdziwie przerażające nie było żadne pojedyncze produkty, ale wszystkie umiejętności działające jednocześnie.
Zrozumienie multimodalne, generowanie multimodalne, całodobowy agent – to trzy układanki, które Google złożyło w nocy. Omni zamienia zdanie w świat, nie potrzebując ludzkiego wkładu; 93 agentów stworzyło system operacyjny od podstaw, nie pisząc nawet jednej linijki kodu; Spark pracuje 7×24 godziny za ciebie, nie otwierając żadnej aplikacji.
Kiedy AI nie potrzebuje już ludzkiego „karmienia”, ale samodzielnie rozumie, podejmuje decyzje, wykonuje i iteruje – cel tej drogi to ASI (superinteligencja).
Nikt nie może podać dokładnego harmonogramu. Ale dzisiejsze Google I/O uświadomiło wszystkim jedną rzecz: na drodze do superinteligencji nie ma już przeszkody „technicznie niemożliwej”. Pozostało tylko tempo wdrażania. Pół roku temu wciąż dyskutowaliśmy, czy AGI to bańka. Pół roku później Google już używa agentów do pisania systemów operacyjnych. Przyspieszenie w tej branży przekroczyło zakres percepcji ludzkiej.
Źródła:
https://youtu.be/wYSncx9zLIU
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
https://antigravity.google/blog/introducing-google-antigravity-2-0
https://antigravity.google/blog/google-io-2026-feature-deep-dive
