Przejdź do głównego menu

Blog Google Polska

Gemini wkracza na nowy poziom dzięki szybszemu modelowi, dłuższemu kontekstowi i agentom AI

Gemini wkracza na nowy poziom dzięki szybszemu modelowi, dłuższemu kontekstowi i agentom AI

15 Maj, 2024

Przedstawiamy szereg aktualizacji w całej rodzinie modeli Gemini, w tym 1.5 Flash, czyli nowy, lekki model zapewniający szybkość i wydajność, oraz projekt Astra stanowiący naszą wizję przyszłości asystentów AI.

Demis_headshot

Demis Hassabis

dyrektor generalny i współzałożyciel Google DeepMind

Abstract image of Gemini cubes

W grudniu wprowadziliśmy na rynek nasz pierwszy natywnie multimodalny model Gemini 1.0 w trzech rozmiarach: Ultra, Pro i Nano. Zaledwie kilka miesięcy później wydaliśmy wersję 1.5 Pro, charakteryzującą się wyższą wydajnością i przełomowo długim oknem kontekstowym obejmującym milion tokenów.

Deweloperzy i klienci biznesowi wykorzystują 1.5 Pro na wiele inspirujących sposobów i wyrażają opinię, że jego długie okno kontekstowe, możliwości rozumowania multimodalnego i imponująca ogólna wydajność są niezwykle użyteczne.

Z opinii użytkowników wiemy, że niektóre zastosowania wymagają mniejszych opóźnień i niższych kosztów obsługi. To zainspirowało nas do dalszych innowacji, wobec czego dzisiaj wprowadzamy Gemini 1.5 Flash: model lżejszy niż 1.5, zaprojektowany z myślą o szybkości i wydajności na dużą skalę.

Teraz zarówno 1.5 Pro, jak i 1.5 Flash są dostępne jako publiczne wersje przedpremierowe z oknem kontekstowym obejmującym 1 milion tokenów w Google AI Studio i Vertex AI. Okno kontekstowe z 2 milionami tokenów jest dostępne dla deweloperów i klientów Google Cloud po zapisaniu się na listę oczekujących.

Ogłaszamy również naszą kolejną generację otwartych modeli, Gemma 2, i krótko przedstawiamy Projekt Astra, oferujący spojrzenie na przyszłość uniwersalnych asystentów AI.

Długości kontekstów wiodących modeli podstawowych w porównaniu z możliwością obsługi 2 milionów tokenów przez Gemini 1.5.

Animacja porównująca długości kontekstów wiodących modeli podstawowych, określająca Gemini 1.0 Pro na poziomie 32 000 tokenów, GPT-4 Turbo na poziomie 128 000 tokenów, Claude 3 na poziomie 200 000 tokenów i Gemini 1.5 na poziomie 2 milionów tokenów

Aktualizacje w rodzinie modeli Gemini

Nowy model 1.5 Flash, zoptymalizowany pod kątem szybkości i wydajności

1.5 Flash jest najnowszym modelem w rodzinie Gemini i najszybszym modelem Gemini obsługiwanym w API. Został zaprojektowany z myślą o skalowalnej obsłudze zadań o dużej objętości i wysokiej częstotliwości, jego eksploatacja jest bardziej opłacalna, a jednocześnie model ten oferuje przełomowo długie okno kontekstowe.

Chociaż jest to model lżejszy niż 1.5 Pro, dysponuje zaawansowanymi multimodalnymi zdolnościami w zakresie wyciągania wniosków na podstawie ogromnych ilości informacji i zapewnia imponującą jakość w stosunku do swojego rozmiaru.

Nowy model Gemini 1.5 Flash jest zoptymalizowany pod kątem szybkości i wydajności, dysponuje zaawansowanymi multimodalnymi zdolnościami rozumowania i oferuje przełomowo długie okno kontekstowe.

Ilustracje i ikony wyjaśniające trzy kluczowe funkcje nowego modelu Gemini 1.5 Flash model: szybkość i wydajność, multimodalne wyciąganie wniosków i długie okno kontekstowe.

Model 1.5 Flash doskonale radzi sobie z podsumowywaniem, obsługą aplikacji do czatowania, napisami do obrazów i filmów, wyodrębnianiem danych z długich dokumentów i tabel i nie tylko. Dzieje się tak, ponieważ został on przeszkolony przez 1.5 Pro w procesie zwanym „destylacją”, w którym najważniejsza wiedza i umiejętności z większego modelu są przenoszone do modelu mniejszego i bardziej wydajnego.

Więcej o 1.5 Flash przeczytacie na stronie o technologii Gemini, a na blogu Google dowiecie się o dostępności i cenach 1.5 Flash. Wkrótce udostępnimy więcej szczegółów w zaktualizowanym raporcie technicznym Gemini 1.5.

Istotne ulepszenia 1.5 Pro

W ciągu ostatnich kilku miesięcy znacznie ulepszyliśmy 1.5 Pro, nasz najlepszy model do ogólnych zastosowań w szerokim zakresie zadań.

Oprócz rozszerzenia okna kontekstowego do 2 milionów tokenów, usprawniliśmy generowanie kodu, logiczne rozumowanie i planowanie, wielotorową konwersację oraz rozumienie dźwięku i obrazu poprzez ulepszenia danych i algorytmów.

1.5 Pro rozumie teraz coraz bardziej złożone i zniuansowane instrukcje, w tym te, które określają cechy na poziomie produktu, takie jak rola, format i styl. Poprawiliśmy kontrolę nad odpowiedziami modelu w konkretnych przypadkach użycia, takich jak kształtowanie persony i stylu odpowiedzi agenta czatu lub automatyzacja procesów poprzez wielokrotne wywołania funkcji. Umożliwiliśmy także użytkownikom kierowanie zachowaniem modelu poprzez ustawienie instrukcji systemowych.

Dodaliśmy również rozumienie dźwięku w interfejsie Gemini API i Google AI Studio, dzięki czemu 1.5 Pro może teraz analizować zarówno obrazy, jak i dźwięki w wideo przesłanych do Google AI Studio. Teraz integrujemy 1.5 Pro z uslugami Google, w tym Gemini Advanced i aplikacjami Workspace.

Więcej informacji o 1.5 Pro znajdziecie na stronie o technologii Gemini. Więcej szczegółów pojawi się wkrótce w naszym zaktualizowanym raporcie technicznym Gemini 1.5.

Gemini Nano rozumie multimodalne dane wejściowe

Gemini Nano rozszerza swoje możliwości poza tekstowe dane wejściowe o obrazy. Zaczynając od telefonu Pixel, aplikacje korzystające z Gemini Nano z multimodalnością będą mogły rozumieć świat tak, jak to robią ludzie - nie tylko poprzez tekst, ale także poprzez wizję, dźwięk i mowę.

Więcej o Gemini 1.0 Nano na Androidzie.

Następna generacja otwartych modeli

Dzisiaj dzielimy się także serią aktualizacji modelu Gemma z rodziny naszych otwartych modeli opartych na tych samych badaniach i technologii, które wykorzystano do stworzenia modeli Gemini.

Ogłaszamy Gemma 2, następną generację otwartych modeli do odpowiedzialnych innowacji w dziedzinie sztucznej inteligencji. Gemma 2 ma nową architekturę zaprojektowaną pod kątem przełomowej wydajności i efektywności. Będzie również dostępna w nowych rozmiarach.

Rodzina Gemma poszerza się również o PaliGemma, nasz pierwszy model językowo-wizyjny zainspirowany PaLI-3. Wzbogaciliśmy także nasz Zestaw Narzędzi Odpowiedzialnej AI o LLM Comparator służący do oceny jakości odpowiedzi modelu.

Więcej informacji znajdziecie na blogu deweloperskim.

Nasze postępy w tworzeniu uniwersalnych agentów AI

W ramach misji Google Deepmind, zakładającej odpowiedzialne tworzenie sztucznej inteligencji z korzyścią dla ludzkości, zawsze chcieliśmy stworzyć uniwersalnego agenta AI, który byłby pomocny w codziennym życiu. Dlatego dziś dzielimy się z Wami naszymi postępami w budowaniu przyszłości asystentów AI: Projektem Astra.

Aby być naprawdę użytecznym, agent musi rozumieć i reagować na złożony i dynamiczny świat, podobnie jak robią to ludzie, a także przyjmować i zapamiętywać to, co widzi, aby rozumieć kontekst i podejmować odpowiednie działania. Musi również przyswajać wiedzę oraz być aktywny i spersonalizowany, aby użytkownicy mogli z nim rozmawiać w sposób naturalny i bez opóźnień.

Poczyniliśmy niesamowite postępy w opracowywaniu systemów sztucznej inteligencji, które mogą rozumieć informacje multimodalne, jednak skrócenie czasu reakcji do poziomu umożliwiającego konwersację jest bardzo trudnym wyzwaniem inżynieryjnym. W ostatnich latach pracowaliśmy nad poprawą sposobu, w jaki nasze modele postrzegają, zapamiętują, rozumują i rozmawiają, aby zapewnić bardziej naturalne tempo i jakość interakcji.

Nasz prototypowy agenta składa się z dwóch części. Każda część została nagrana w jednym ujęciu, w czasie rzeczywistym.

Agenty zostały zbudowane w oparciu o Gemini i inne nasze modele dostosowane do konkretnych zadań. Zaprojektowano je tak, aby szybciej przetwarzały informacje poprzez stałe kodowanie klatek wideo, łączenie danych wejściowych wideo i mowy w oś czasu oraz buforowanie tych informacji w celu ich skutecznego odtwarzania.

Poprawiliśmy również ich brzmienie, wyposażając je w szerszy zakres intonacji. Agenty mogą teraz lepiej zrozumieć kontekst, w którym są używane, i szybciej reagować w rozmowie.

Teraz łatwo wyobrazić sobie przyszłość, w której ma się przy sobie profesjonalnego asystenta zasilanego AI dostępnego w telefonie lub okularach. Niektóre z tych funkcji pojawią się w usługach Google, takich jak aplikacja Gemini, jeszcze w tym roku.

Nieustannie poszukiwania

W rodzinie modeli Gemini zrobiliśmy ogromny krok naprzód i nieustannie pracujemy nad udoskonalaniem tej najnowocześniejszej technologii. Dzięki ciągłym innowacjom odkrywamy nowe, fascynujące możliwości Gemini i otwieramy drzwi do zupełnie nowych zastosowań.

Więcej informacji o Gemini i jego możliwościach.

MIEJSCE PUBLIKACJI: