Przejdź do głównego menu
Blog Google Polska

Konferencja Google I/O 2024: I/O nowej generacji

Image of Sundar Pichai on stage at I/O

Uwaga redakcji: Poniżej znajduje się transkrypcja wystąpienia Sundara Pichaia na I/O 2024 zredagowana tak, aby zawierała więcej elementów ogłoszonych podczas konferencji. Zobacz wszystkie ogłoszenia w kolekcji.

Google już w pełni znajduje się w erze Gemini.

Zanim zaczniemy, chciałbym zwrócić uwagę na moment, w którym teraz jesteśmy. Inwestujemy w sztuczną inteligencję od ponad dekady i wprowadzamy innowacje na każdym poziomie naszej działalności: w badaniach, usługach i infrastrukturze – o tym wszystkim będziemy dzisiaj rozmawiać.

To wciąż jednak wczesny etap rozwoju platform opartych na AI. Widzimy przed sobą ogrom możliwości – dla twórców, deweloperów, startupów i wszystkich innych użytkowników, a wspieranie rozwoju tych możliwości jest kluczowym aspektem ery Gemini. Zaczynajmy więc.

YouTube video of Gemini Era
10:25

Era Gemini

Rok temu na scenie I/O po raz pierwszy podzieliliśmy się naszymi planami dotyczącymi Gemini: pionierskiego modelu od samego początku zbudowanego z myślą o natywnej multimodalności i zdolności rozumowania w obszarze tekstu, obrazu, wideo, kodu i nie tylko. Był to to milowy krok w kierunku przekształcania dowolnych danych wejściowych w dowolne dane wyjściowe – „I/O” nowej generacji.

Od tego czasu wprowadziliśmy pierwsze modele Gemini, nasze jak dotąd najbardziej wydajne rozwiązania, charakteryzujące się najwyższej klasy działaniem w każdym multimodalnym teście porównawczym. Dwa miesiące później przedstawiliśmy Gemini 1.5 Pro, czyli wielki przełom w aspekcie długości kontekstu. Model ten może spójnie przetwarzać 1 milion tokenów w środowisku produkcyjnym, więcej niż jakikolwiek inny wielkoskalowy model podstawowy.

Chcemy, aby każdy mógł czerpać korzyści z tego, co potrafi Gemini, dlatego zależało nam na szybkim udostępnieniu tych osiągnięć. Obecnie ponad 1,5 miliona deweloperów korzysta z modeli Gemini w naszych narzędziach. Służą one do debugowania kodu, uzyskiwania nowych informacji i tworzenia aplikacji AI nowej generacji.

Przełomowe możliwości Gemini wykorzystujemy również w naszych usługach. Pokażemy dziś przykłady dotyczące Wyszukiwarki, Zdjęć, Workspace, Androida i nie tylko.

Rozwój usług

Obecnie z Gemini korzystają wszystkie nasze usługi, które łącznie mają 2 miliardy użytkowników.

Wprowadziliśmy również nowe rozwiązania, w tym na urządzeniach mobilnych, dzięki którym użytkownicy mogą wchodzić w interakcje z Gemini bezpośrednio przez aplikację dostępną na Androida i iOS. A także poprzez Gemini Advanced, plan zapewniający dostęp do naszych najbardziej wydajnych modeli. W ciągu zaledwie trzech miesięcy aplikację tę wypróbowało ponad milion osób, a liczba użytkowników nieustannie rośnie.

Rozszerzone streszczenia wygenerowane przez AI w wyszukiwarce

Jednej z najbardziej ekscytujących przemian związanych z Gemini doświadcza wyszukiwarka Google.

W ciągu ostatniego roku odpowiedzieliśmy na miliardy zapytań w ramach generatywnej AI w wyszukiwarce. Użytkownicy stosują to rozwiązanie do wyszukiwania na zupełnie nowe sposoby i zadają nowe rodzaje dłuższych i bardziej złożonych zapytań, a nawet wyszukują za pomocą zdjęć i otrzymują najlepsze odpowiedzi, jak sieć może zaoferować.

Testowaliśmy te rozwiązania poza Labs i cieszy nas nie tylko wzrost wykorzystania wyszukiwarki, ale także rosnące zadowolenie użytkowników.

Miło mi ogłosić, że w tym tygodniu rozpoczniemy udostępnianie zupełnie nowych streszczeń wygenerowanych przez AI wszystkim użytkownikom w USA, a wkrótce udostępnimy je w kolejnych krajach.

Wyszukiwarka to miejsce pełne innowacji. Dzięki Gemini możemy tworzyć znacznie bardziej zaawansowane i wszechstronne rozwiązania w obszarze wyszukiwania, również w ramach naszych usług.

Przedstawiamy funkcję Zapytaj Zdjęć

Przykładem takich usług są uruchomione przez nas 9 lat temu Zdjęcia Google. Od tego czasu usługa ta pomaga użytkownikom w organizowaniu swoich najważniejszych wspomnień. Każdego dnia przesyłanych jest do niej ponad 6 miliardów zdjęć i filmów.

Wiele osób korzysta ze Zdjęć do odszukiwania zdarzeń ze swojego życia. Dzięki Gemini staje się to o wiele łatwiejsze.

Powiedzmy, że płacicie za parking, ale nie możecie przypomnieć sobie numeru swojej tablicy rejestracyjnej. Wcześniej można było wyszukiwać słowa kluczowe w Zdjęciach, a następnie przewijać zdjęcia z wielu lat, szukając tablic rejestracyjnych. Teraz możecie po prostu zapytać o to Zdjęć. Aplikacja zna samochody, które często pojawiają się na zdjęciach, dedukuje, który z nich należy do Was i może podać ich numer rejestracyjny.

Funkcja Zapytaj Zdjęć może pomóc w jeszcze głębszym przeszukiwaniu wspomnień. Można na przykład zapytać: „Kiedy Lena nauczyła się pływać?”, jeśli zależy Wam na wyszukaniu konkretnego kroku milowego w rozwoju Waszego dziecka.

Następnie możecie dać Zdjęciom jeszcze bardziej złożone zadanie: „Pokaż mi postępy Leny w pływaniu”.

W tej sytuacji Gemini wykracza poza proste wyszukiwanie i rozpoznaje różne konteksty – od ćwiczeń w basenie, przez nurkowanie z rurką w oceanie, po tekst i daty na dyplomach pływackich. Zdjęcia łączą to wszystko w podsumowaniu, dzięki któremu możecie ponownie przeżyć te wyjątkowe wspomnienia. Funkcję Zapytaj Zdjęć wprowadzimy tego lata, a w przyszłości udostępnimy jeszcze więcej nowych możliwości.

Więcej wiedzy dzięki multimodalności i długiemu kontekstowi

Dostęp do wiedzy w różnych formatach jest powodem, dla którego od początku tworzyliśmy Gemini z myślą o multimodalności. Ten jeden model ma wbudowane wszystkie modalności, dzięki czemu nie tylko rozumie każdy rodzaj danych wejściowych, ale też znajduje połączenia między nimi.

Multimodalność zdecydowanie rozszerza zakres pytań, które możemy zadać i odpowiedzi, które otrzymamy. Długi kontekst idzie jeszcze o krok dalej, umożliwiając uwzględnienie większej ilości informacji: setek stron tekstu, godzin nagrań dźwiękowych, godzinnego filmu, całych repozytoriów kodu... lub, jeśli chcecie, całej Trylogii Sienkiewicza.

Aby uwzględnić to dzieło, potrzebne byłoby okno kontekstowe z milionem tokenów, co teraz jest możliwe dzięki Gemini 1.5 Pro. Deweloperzy wykorzystują możliwości tego modelu na wiele interesujących sposobów.

W ciągu ostatnich kilku miesięcy udostępnialiśmy Gemini 1.5 Pro z długim kontekstem w wersji testowej. Wprowadziliśmy szereg ulepszeń w zakresie tłumaczenia, kodowania i rozumowania. Od dziś aktualizacje te będą widoczne w modelu.

Z radością ogłaszam, że udostępniamy tę ulepszoną wersję Gemini 1.5 Pro wszystkim deweloperom na całym świecie. Ponadto Gemini 1.5 Pro z oknem kontekstowym o długości miliona tokenów jest teraz bezpośrednio dostępny dla użytkowników Gemini Advanced. Można go używać w 35 językach.

Już 2 miliony tokenów w prywatnej wersji testowej

Milion tokenów otwiera przed nami zupełnie nowe możliwości. To fascynujące, ale myślę, że możemy pójść jeszcze dalej.

Dlatego dziś rozszerzamy okno kontekstowe do 2 milionów tokenów i udostępniamy tę wersję deweloperom w prywatnej wersji testowej.

Niesamowite jest spojrzeć wstecz i zobaczyć, jak duży postęp poczyniliśmy w ciągu kilku miesięcy. To kolejny krok na naszej drodze do ostatecznego celu, jakim jest nieograniczony kontekst.

Gemini 1.5 Pro w Workspace

Do tej pory rozmawialiśmy o dwóch aspektach postępu technicznego: multimodalności i długim kontekście. Każdy z nich oferuje ogromne możliwości sam w sobie, ale razem ich zdolności i inteligencja są jeszcze bardziej imponujące.

Osiągnięcie tego jest możliwe w Google Workspace.

Użytkownicy często przeszukują swoje wiadomości e-mail w Gmailu. Pracujemy nad znacznym rozszerzeniem tej funkcjonalności dzięki Gemini. Na przykład jeśli rodzice chcą być na bieżąco ze wszystkim, co dzieje się w szkole ich dzieci, Gemini może w tym pomóc.

Teraz możecie poprosić Gemini o podsumowanie wszystkich ostatnich wiadomości e-mail ze szkoły. Narzędzie identyfikuje w tle odpowiednie wiadomości e-mail, a nawet analizuje załączniki, takie jak pliki PDF, po czym wyświetla podsumowanie najważniejszych punktów i działań. Jeśli podróż służbowa nie pozwoliła Wam uczestniczyć w zebraniu klasowym, ale jest dostępne godzinne nagranie ze spotkania z Google Meet, można poprosić Gemini o przedstawienie najważniejszych informacji. Jeśli okaże się na przykład, że grupa rodziców szuka wolontariuszy, a Wy macie tego dnia czas, Gemini może przygotować szkic wiadomości z odpowiedzią.

Istnieją niezliczone przykłady tego, jak narzędzie to może ułatwić życie użytkownikom. Gemini 1.5 Pro jest dostępny od dziś w Workspace Labs. Dodatkowe informacje przedstawia Aparna.

Wersje audio zawartości w NotebookLM

Właśnie opisaliśmy przykład z danymi tekstowymi. Ale dzięki modelowi multimodalnemu możemy zrobić o wiele więcej.

Robimy postępy w tej kwestii, a w przyszłości będzie ich jeszcze więcej. Dowodem na to są wersje audio zawartości w NotebookLM. Funkcja ta wykorzystuje Gemini do analizowania materiałów źródłowych i generowania spersonalizowanej i interaktywnej konwersacji audio.

Takie możliwości zapewnia multimodalność. Wkrótce możliwe będzie też mieszanie i dopasowywanie danych wejściowych i wyjściowych. To właśnie mamy na myśli, mówiąc o konferencji I/O nowej generacji. Ale co by było, gdybyśmy mogli pójść jeszcze dalej?

Jeszcze dalej – agenty AI

Pójście o krok dalej jest jedną z możliwości, jakie widzimy w agentach AI. Myślę o nich jako o inteligentnych systemach, które wykazują się rozumowaniem, planowaniem i pamięcią, są w stanie „myśleć” wiele kroków naprzód i pracować z różnym oprogramowaniem i systemami, a wszystko to w celu wykonania czegoś w imieniu użytkownika, a co najważniejsze, pod jego nadzorem.

Wciąż jesteśmy na wczesnym etapie prac, ale przedstawię kilka przykładów zastosowań, nad którymi nieustająco pracujemy.

Zacznijmy od zakupów. Kupowanie butów jest całkiem przyjemne, ale znacznie gorsze jest zwracanie ich, gdy okażą się być w niewłaściwym rozmiarze.

Wyobraźcie sobie, że Gemini może wykonać za Was wszystkie te działania:

Wyszukanie rachunku w skrzynce odbiorczej…

Zidentyfikowanie numeru zamówienia w e-mailu…

Wypełnienie formularza zwrotu…

A nawet zaplanowanie odbioru przez kuriera.

To znacznie łatwiejsze, prawda?

Weźmy inny, nieco bardziej złożony przykład.

Powiedzmy, że przeprowadzacie się do Krakowa – Gemini i Chrome pracują wspólnie, aby pomóc Wam zrobić wiele rzeczy w ramach przygotowań: organizują, wnioskują i syntetyzują w Waszym imieniu.

Na pewno będziecie chcieli poznać miasto i znaleźć usługi w pobliżu – od pralni chemicznych po wybiegi dla psów. Musicie też zaktualizować swój adres w dziesiątkach witryn internetowych.

Te zadania może wziąć na siebie Gemini, ai w razie potrzeby poprosi Was o więcej informacji, dzięki czemu zawsze będziecie mieć nad wszystkim kontrolę.

Ta część jest naprawdę ważna – podczas prototypowania tych funkcji nie przestajemy myśleć o tym, jak wdrożyć je w sposób chroniący prywatność, bezpieczny i wygodny dla wszystkich.

Są to proste przypadki zastosowań, które jednak dają dobre wyobrażenie o rodzajach problemów, które chcemy rozwiązać, budując inteligentne systemy, które prognozują, rozumują i planują – wszystko to w imieniu użytkownika.

Co to oznacza dla naszej misji

Moc Gemini – w tym multimodalność, długi kontekst i agenty – przybliża nas do naszego ostatecznego celu: uczynienia sztucznej inteligencji pomocną dla wszystkich.

Uważamy, że w ten sposób osiągniemy największy postęp w realizacji naszej misji: zorganizowaniu światowych informacji w każdej formie wejściowej, udostępnianiu ich we wszystkich formach wyjściowych oraz łączeniu światowych informacji z informacjami z WASZEGO świata w sposób, który jest naprawdę dla Was przydatny.

Przełamywanie barier

Aby w pełni wykorzystać potencjał sztucznej inteligencji, musimy przełamać pewne bariery. Pracuje nad tym zespół Google DeepMind.

Model 1.5 Pro i jego długie okno kontekstowe wzbudzają duże zainteresowanie. Deweloperzy jednak wspominają nam, że chcieliby czegoś szybszego i bardziej ekonomicznego. Dlatego jutro wprowadzamy Gemini 1.5 Flash, lżejszy model zbudowany z myślą o skalowalności i zoptymalizowany pod kątem zadań, w których kluczowe są niskie opóźnienia i koszty. Gemini 1.5 Flash będzie dostępny w AI Studio i Vertex AI we wtorek.

W dłuższej perspektywie zawsze chcieliśmy zbudować uniwersalnego agenta, który będzie przydatny w codziennym życiu. Projekt Astra wykazuje rozumowanie multimodalne i możliwości konwersacji w czasie rzeczywistym.

Poczyniliśmy również postępy w zakresie generowania wideo i obrazów dzięki Veo i Imagen 3, a także wprowadziliśmy Gemma 2.0 – kolejną generację otwartych modeli dla odpowiedzialnych innowacji AI. Artykuł Demisa Hassabisa na ten temat.

Infrastruktura w erze AI: przedstawiamy Trillium

Trenowanie najnowocześniejszych modeli wymaga dużej mocy obliczeniowej. W ciągu ostatnich sześciu lat zapotrzebowanie branży na obliczenia związane z uczeniem maszynowym wzrosło milion razy. I każdego roku rośnie dziesięciokrotnie.

Google został do tego stworzony. Od 25 lat inwestujemy w światowej klasy infrastrukturę techniczną, od najnowocześniejszego sprzętu, który zasila wyszukiwarkę, po niestandardowe jednostki przetwarzania tensorowego, które stoją za naszymi postępami w dziedzinie sztucznej inteligencji.

Gemini został przeszkolony i był obsługiwany w całości na naszych jednostkach TPU czwartej i piątej generacji. Inne wiodące firmy zajmujące się sztuczną inteligencją, w tym Anthropic, również trenowały swoje modele na procesorach TPU.

Z radością ogłaszamy dziś naszą 6. generację układów TPU o nazwie Trillium. Trillium to nasza najbardziej wydajna jednostka TPU, zapewniająca 4,7-krotny wzrost wydajności obliczeniowej na chip w porównaniu z poprzednią generacją, TPU v5e.

Udostępnimy Trillium klientom Google Cloud pod koniec 2024 roku.

Oprócz jednostek TPU oferujemy oczywiście procesory CPU i GPU umożliwiające obsługę dowolnego obciążenia. Obejmuje to ogłoszone w ubiegłym miesiącu nowe procesory Axion, nasze pierwsze niestandardowe procesory oparte na architekturze ARM, które zapewniają wiodącą w branży wydajność i energooszczędność.

Jesteśmy również dumni, że jako jeden z pierwszych dostawców usług w chmurze oferujemy najnowocześniejsze procesory graficzne Blackwell firmy Nvidia, które będą dostępne na początku 2025 roku. Niezwykle cenimy sobie naszą długoletnią współpracuję z firmą NVIDIA i cieszymy się, że możemy zaoferować naszym klientom przełomowe możliwości jednostek Blackwell.

Chipy są fundamentalną częścią naszego zintegrowanego, kompleksowego systemu. Od sprzętu zoptymalizowanego pod kątem wydajności i otwartego oprogramowania po elastyczne modele zużycia – wszystko to składa się na AI Hypercomputer, przełomową architekturę superkomputera.

Firmy i deweloperzy wykorzystują ją do radzenia sobie ze złożonymi wyzwaniami, co umożliwia wydajność ponad dwukrotnie wyższa niż w przypadku zakupu samego sprzętu i chipów. Nasze postępy związane z AI Hypercomputer są możliwe po części dzięki zastosowaniu innowacyjnego chłodzenia cieczą w naszych centrach danych.

Zaczęliśmy rozwijać ten system niemal dekadę temu, na długo zanim podejście to zostało uznane za najnowocześniejsze w branży. Obecnie łączna wydajność naszych systemów chłodzenia cieczą sięga niemal 1 gigawata i stale rośnie – to prawie 70 razy więcej niż w przypadku jakiegokolwiek innego systemu..

U podstaw tego leży sama skala naszej sieci, która łączy naszą infrastrukturę na całym świecie. Sieć Google obejmuje ponad 3 miliony kilometrów światłowodów naziemnych i podmorskich: to ponad 10 razy (!) więcej niż u kolejnego wiodącego dostawcy usług w chmurze.

Będziemy nadal dokonywać inwestycji niezbędnych do rozwoju innowacji w zakresie sztucznej inteligencji i dostarczania najnowocześniejszych rozwiązań.

Najbardziej ekscytujący rozdział w historii wyszukiwarki Google

Jednym z największych obszarów inwestycji i innowacji jest nasza oryginalna usługa, wyszukiwarka Google. Stworzyliśmy ją 25 lat temu, aby pomóc ludziom w uporządkowaniu fal informacji przepływających przez sieć.

Wraz z każdą zmianą platformy dostarczamy przełomowe rozwiązania, które pomagają lepiej odpowiadać na pytania użytkowników. Na urządzeniach mobilnych udostępniliśmy nowe rodzaje pytań i odpowiedzi – wykorzystujące lepszy kontekst, świadomość lokalizacji i informacje w czasie rzeczywistym. Dzięki postępom w rozumieniu języka naturalnego i komputerowym rozpoznawaniu obrazu umożliwiliśmy nowe sposoby wyszukiwania: za pomocą głosu lub nucenia, aby znaleźć nową ulubioną piosenkę, czy też za pomocą zdjęcia kwiatka zauważonego podczas spaceru. A teraz możecie użyć funkcji Zaznacz, aby wyszukać, by wyszukać te fajne nowe buty, które chcieliście kupić. Śmiało, zawsze możecie je zwrócić!

Oczywiście wyszukiwarka w erze Gemini przeniesie to na zupełnie nowy poziom, łącząc nasze zalety w zakresie infrastruktury, najnowsze możliwości sztucznej inteligencji, wysokie wymagania dotyczące jakości informacji i dziesięciolecia doświadczenia w łączeniu użytkowników z bogactwem sieci. Rezultatem jest usługa, która wykonuje pracę za użytkownika.

Wyszukiwarka Google to generatywna sztuczna inteligencja na skalę ludzkiej ciekawości. I najbardziej ekscytujący rozdział w historii wyszukiwarki Google. Więcej o wyszukiwarce w erze Gemini w artykule Liz Reid.

Bardziej inteligentne rozwiązania Gemini

Gemini to coś więcej niż czatbot; został zaprojektowany jako osobisty, praktyczny asystent, który może pomóc w rozwiązywaniu złożonych zadań i podejmowaniu działań w imieniu użytkownika.

Interakcja z Gemini powinna być intuicyjna i oparta na konwersacji. Ogłaszamy więc nowe rozwiązanie Gemini przybliżające nas do tej wizji: Live, które pozwala na rozmowę z Gemini na głębszym poziomie za pomocą głosu. Jeszcze w tym roku wprowadzimy również okno kontekstowe o długości 2 milionów tokenów do Gemini Advanced, co umożliwi przesyłanie i analizowanie bardzo złożonych plików, takich jak wideo i długie fragmenty kodu. Sissie Hsiao opowiada więcej.

Gemini na Androida

Z Androida korzystają miliardy użytkowników na całym świecie, dlatego z ogromną radością wprowadzamy głębszą integrację z Gemini, umożliwiającą optymalne wykorzystanie tego systemu operacyjnego. Gemini, Wasz nowy asystent AI, pomoże Wam zawsze i wszędzie. Do Androida dodaliśmy również modele Gemini, w tym nasz najnowszy model w urządzeniu: Gemini Nano z multimodalnością, który przetwarza tekst, obrazy, dźwięk i mowę, odblokowując nowe możliwości, a jednocześnie zachowując prywatność informacji na urządzeniu. Wszystkie wiadomości dotyczące Androida znajdziecie tutaj.

Odpowiedzialne podejście do sztucznej inteligencji

Do możliwości związanych z AI podchodzimy odważnie i z entuzjazmem. Dbamy również o to, by robić to odpowiedzialnie. Tworzymy najnowocześniejszą technologię, którą określamy jako red teaming wspomagany przez sztuczną inteligencję. Czerpie ona z przełomowych osiągnięć Google DeepMind w grach, z AlphaGo na czele. Ponadto rozszerzyliśmy nasze innowacje w zakresie technologicznych znaków wodnych, takie jak SynthID, o dwie nowe modalności: tekst i wideo, co ułatwia identyfikację treści wygenerowanych przez sztuczną inteligencję. James Manyika dzieli się dodatkowymi informacjami.

Wspólnie tworzymy przyszłość

Wszystko to pokazuje istotne postępy w naszym odważnym i odpowiedzialnym podejściu do osiągnięcia celu, czyli uczynienia sztucznej inteligencji pomocną dla wszystkich.

Jako firma od dawna stawiamy na sztuczną inteligencję. Od dziesięcioleci jesteśmy liderem w obszarze badań, które doprowadziły do wielu przełomów napędzających postęp AI w Google i całej branży. Ponadto dysponujemy:

  • wiodącą infrastrukturą stworzoną z myślą o erze sztucznej inteligencji,
  • najnowocześniejszymi innowacjami w wyszukiwarce, teraz wspieranymi przez Gemini,
  • usługami, które pomagają na niezwykłą skalę – w tym 15 produktami z co najmniej 500 milionami użytkowników,
  • a także platformami, które umożliwiają wszystkim – partnerom, klientom, twórcom i użytkownikom – tworzenie przyszłości.

Ten postęp jest możliwy tylko dzięki naszej wyjątkowej społeczności deweloperów. Urzeczywistniacie go dzięki rozwiązaniom i aplikacjom, które tworzycie każdego dnia. Tak więc wraz z wszystkimi obecnymi w Shoreline i milionami widzów z całego świata – świętujmy nadchodzące możliwości i ich wspólne tworzenie.