Nasz model AI nowej generacji: Gemini 1.5

16 Lut, 2024

Gemini 1.5 to nasz model nowej generacji. Zapewnia radykalnie zwiększoną wydajność i przełom w zrozumieniu długiego kontekstu w różnych modalnościach.

Demis Hassabis

CEO of Google DeepMind

Sundar Pichai

CEO of Google and Alphabet

The word “Gemini 1.5” appears in a gradient of blue to orange against a black background.

Kilka słów od Sundara Pichaia, prezesa Google i Alphabet

W zeszłym tygodniu wprowadziliśmy na rynek nasz najbardziej wydajny model – Gemini 1.0 Ultra. Tym samym zrobiliśmy ogromny krok w kierunku jeszcze większej przydatności usług Google. Zaczęliśmy od udostępnienia Gemini Advanced. Dziś programiści i klienci Cloud również mogą zacząć współpracę z modelem 1.0 Ultra dzięki naszemu interfejsowi Gemini API w usłudze AI Studio i na platformie Vertex AI.

Nasze zespoły nieustannie przesuwają granice naszych najnowszych modeli, mając na uwadze bezpieczeństwo. Robią przy tym szybkie postępy. Właściwie jesteśmy już gotowi na wprowadzenie Gemini 1.5 – modelu nowej generacji, który charakteryzuje się radykalną poprawą w wielu aspektach, natomiast model Gemini 1.5 Pro osiąga jakość porównywalną do modelu Gemini 1.0 Ultra, zużywając przy tym mniej mocy obliczeniowej.

Ta nowa generacja naszego modelu zapewnia również przełom, jeśli chodzi o rozumienie szerokiego kontekstu. Udało nam się znacznie zwiększyć liczbę informacji, jaką mogą przetworzyć nasze modele: są w stanie stale obsługiwać do miliona tokenów, co pozwala uzyskać najdłuższe jak do tej pory okno kontekstowe spośród wszystkich dostępnych na rynku wielkoskalowych modeli podstawowych.

Dłuższe okna kontekstowe stanowią obietnicę tego, czego możemy spodziewać się w przyszłości. Zapewnią zupełnie nowe możliwości i pomogą programistom w tworzeniu znacznie bardziej przydatnych modeli i aplikacji. Cieszymy się, że możemy zaoferować ograniczoną wersję testową tej eksperymentalnej funkcji programistom i klientom korporacyjnym. Poniżej znajdziecie więcej informacji na temat możliwości, bezpieczeństwa, dostępności i cen Gemini 1.5.

– Sundar

Przedstawiamy Gemini 1.5

Demis Hassabis, prezes Google DeepMind (w imieniu zespołu Gemini)

To ekscytujący czas dla AI. Nowe osiągnięcia w tej dziedzinie mogą w nadchodzących latach sprawić, że sztuczna inteligencja stanie się bardziej pomocna dla miliardów ludzi. Od chwili wprowadzenia modelu Gemini 1.0 nieustannie testujemy go i udoskonalamy jego możliwości.

Dzisiaj chcielibyśmy przedstawić nasz model nowej generacji: Gemini 1.5.

Gemini 1.5 zapewnia znacznie większą wydajność, co stanowi olbrzymią zmianę w naszym podejściu opierającym się na innowacjach badawczych i inżynieryjnych w niemal każdym aspekcie rozwoju naszego podstawowego modelu i infrastruktury. Większe możliwości w zakresie trenowania modelu Gemini 1.5 i korzystania z niego udało nam się osiągnąć dzięki nowej architekturze Mixture–of-Experts (MoE).

Pierwszym modelem Gemini 1.5, który udostępniamy do wczesnych testów, jest Gemini 1.5 Pro – średniej wielkości model multimodalny zoptymalizowany pod kątem skalowania w szerokim zakresie zadań i działający na poziomie podobnym do modelu 1.0 Ultra, naszego największego do tej pory modelu. Gemini 1.5 Pro obejmuje także przełomową eksperymentalną funkcję rozumienia długiego kontekstu.

Gemini 1.5 Pro jest standardowo wyposażony w okno kontekstowe o pojemności 128 tysięcy tokenów, ale od dziś ograniczona grupa programistów i klientów korporacyjnych będzie mogła w ramach wersji przedpremierowej korzystać z okna kontekstowego o pojemności do miliona tokenów jako część usługi AI Studio i platformy Vertex AI.

Okno kontekstowe o pojemności całego miliona tokenów wymaga dużych mocy obliczeniowych i dalszych optymalizacji mających na celu zmniejszenie opóźnień, nad czym wciąż pracujemy. Cieszymy się, że użytkownicy i użytkowniczki mogą wypróbować tę przełomową funkcję. Poniżej udostępniamy więcej informacji na temat dostępności i cen tego modelu w przyszłości.

Ciągłe postępy w naszych modelach nowej generacji otworzą przed osobami zajmującymi się programowaniem oraz przed firmami nowe możliwości w zakresie korzystania ze sztucznej inteligencji przy wykonywaniu różnego rodzaju zadań.

Animacja przedstawiająca porównanie pojemności okna kontekstowego wiodących modeli podstawowych: Gemini 1.0 Pro – 32 tys. tokenów, GPT-4 Turbo – 128 tys. tokenów, Claude 2.1 – 200 tys. tokenów i Gemini 1.5 Pro – 1 mln tokenów oraz do 10 mln tokenów przetestowanych w ramach badań

Wysoce wydajna architektura

Gemini 1.5 powstał w oparciu o nasze badania nad architekturą Transformer i MoE. Tradycyjna architektura Transformer działa jak jedna wielka sieć neuronowa, natomiast architektura MoE jest podzielona na mniejsze, wyspecjalizowane sieci neuronowe.

W zależności od rodzaju danych wejściowych modele MoE uczą się selektywnie aktywować tylko najbardziej odpowiednie ścieżki w swoich sieciach neuronowych, co znacząco podnosi wydajność modelu. Google jako pierwszy zaczął stosować architekturę MoE w deep learningu w ramach takich badań jak m.in. Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer czy M4.

Nasze najnowsze innowacje w architekturze modeli pozwalają Gemini 1.5 szybciej uczyć się złożonych zadań i utrzymywać jakość, a przy tym sprawiają, że trenowanie modelu i korzystanie z niego jest znacznie efektywniejsze. Te usprawnienia pomagają naszym zespołom tworzyć, trenować i dostarczać bardziej zaawansowane wersje modelu Gemini szybciej niż kiedykolwiek wcześniej, dlatego pracujemy nad dalszymi optymalizacjami.

Większy kontekst, jeszcze bardziej przydatne funkcje

Okno kontekstowe modelu AI składa się z tokenów, czyli elementów, które służą do przetwarzania informacji. Tokenami mogą być całe bloki tekstu, obrazy, filmy, dźwięk czy kod albo ich części. Im większe okno kontekstowe modelu, tym więcej informacji może on przyjąć i przetworzyć w ramach danego promptu. Dzięki temu wygenerowana odpowiedź jest bardziej spójna, przydatna i użyteczna.

Dzięki licznym innowacjom w zakresie systemów uczących się w modelu 1.5 Pro znacznie zwiększyliśmy pojemność okna kontekstowego, która w modelu Gemini 1.0 wynosiła pierwotnie 32 tysiące tokenów. Obecnie jesteśmy w stanie uruchomić do miliona tokenów.

Oznacza to, że model 1.5 Pro jest w stanie przetworzyć ogromną liczbę informacji za jednym razem, w tym 1 godzinę filmu, 11 godzin nagrania dźwiękowego, bazy kodów zawierające ponad 30 tysięcy linijek kodu czy ponad 700 tysięcy słów tekstu. W ramach naszych badań udało nam się także przetestować okno kontekstowe o pojemności aż do 10 milionów tokenów.

Rozumienie ogromnych ilości informacji

Model 1.5 Pro potrafi przeanalizować, sklasyfikować i podsumować dużą ilość danych w ramach danego prompta. Na przykład po otrzymaniu liczącej 402 strony transkrypcji z misji Apollo 11 na Księżyc wyciąga wnioski na temat rozmów, wydarzeń, obrazów i innych szczegółów znajdujących się w tym dokumencie.

Gemini 1.5 Pro potrafi zrozumieć i wskazać ciekawe szczegóły znajdujące się w liczącej 402 strony transkrypcji z misji Apollo 11 na Księżyc oraz wyciągnąć z nich wnioski

Lepsze rozumienie różnorodnych typów danych

Gemini 1.5 Pro potrafi wykonywać bardzo skomplikowane zadania polegające na przetwarzaniu i rozumieniu różnego rodzaju danych, w tym filmów. Model na przykład przeanalizował różne punkty fabuły i wydarzenia w 44-minutowym niemym filmie Bustera Keatona, a nawet zinterpretował drobne szczegóły filmu, które można łatwo przeoczyć.

Większa wydajność

Testowana na kompleksowym panelu oceny tekstu, kodu, obrazu, dźwięku i wideo wersja 1.5 Pro przewyższa wersję 1.0 Pro w przypadku 87% testów porównawczych używanych do opracowywania naszych duży modeli językowych (LLM). W porównaniu z wersją 1.0 Ultra w tych samych testach wydajność jest na podobnym poziomie.

Gemini 1.5 Pro utrzymuje wysoki poziom wydajności nawet w miarę zwiększania pojemności okna kontekstowego. W badaniu Needle In A Haystack (NIAH), w którym mały fragment tekstu zawierający konkretny fakt lub stwierdzenie zostaje celowo umieszczony w długim bloku tekstu, model 1.5 Pro w 99% przypadków znajduje żądany tekst w danych wejściowych o długości miliona tokenów.

Gemini 1.5 Pro wykazuje również imponujące umiejętności „uczenia się w kontekście”, co oznacza, że może nauczyć się czegoś nowego na podstawie informacji podanych w długim prompcie, bez konieczności podawania dodatkowych szczegółów. Sprawdziliśmy to w teście porównawczym Machine Translation from One Book (MTOB), który pokazuje, jak dobrze model uczy się na podstawie informacji, których nigdy wcześniej nie widział. Po otrzymaniu podręcznika do gramatyki języka kalamang (języka, którym na całym świecie posługuje się mniej niż 200 osób) model uczy się tłumaczyć z języka angielskiego na kalamang na podobnym poziomie co osoba ucząca się na podstawie tych samych treści.

Ponieważ długie okno kontekstowe modelu 1.5 Pro jest pierwszym tego rodzaju oknem dostępnym w modelach wielkoskalowych, stale opracowujemy nowe metody oceny i punkty odniesienia do testowania jego nowatorskich możliwości.

Więcej informacji znajdziecie w naszym raporcie technicznym poświęconym modelowi Gemini 1.5 Pro.

Szeroko zakrojone testy pod kątem etyki i bezpieczeństwa

Zgodnie z naszymi zasadami dotyczącymi sztucznej inteligencji oraz obszernymi zasadami dotyczącymi bezpieczeństwa zapewniamy, że nasze modele przechodzą szeroko zakrojone testy pod kątem etyki i bezpieczeństwa. Wnioski z przeprowadzonych przez nas badań włączamy do naszych procesów zarządzania oraz opracowywania i oceny modeli, aby stale ulepszać nasze systemy sztucznej inteligencji.

Od czasu wprowadzenia w grudniu Gemini 1.0 Ultra nasze zespoły stale udoskonalają model, dbając o to, by był bezpieczniejszy. Przeprowadziliśmy także nowatorskie badania dotyczące zagrożeń bezpieczeństwa i opracowaliśmy testy red teaming w celu określenia różnego rodzaju potencjalnych szkód.

Przed wypuszczeniem wersji 1.5 Pro przyjęliśmy takie samo podejście do odpowiedzialnego wdrażania jak w przypadku naszych modeli Gemini 1.0. Przeprowadziliśmy szeroko zakrojone oceny różnych obszarów, biorąc pod uwagę m.in. bezpieczeństwo treści i szkody wizerunkowe. Będziemy nadal poszerzać te testy, między innymi o te, które uwzględniają nowe możliwości długiego okna kontekstowego wersji 1.5 Pro.

Korzystanie z modeli Gemini do wykonywania różnego rodzaju zadań i eksperymentów

Zależy nam na odpowiedzialnym udostępnianiu każdej nowej generacji modeli Gemini miliardom ludzi, osób zajmujących się programowaniem i przedsiębiorstw na całym świecie.

Od dzisiaj oferujemy wczesną wersję przedpremierową eksperymentalnej funkcji rozumienia obszernego kontekstu wybranym programistom i klientom korporacyjnym w ramach usługi AI Studio i platformy Vertex AI.

Gdy model będzie gotowy do udostępnienia szerszemu gronu użytkowników wprowadzimy także wersję 1.5 Pro z oknem kontekstowym o pojemności 128 tysięcy tokenów w standardzie. Już wkrótce planujemy wprowadzenie poziomów cenowych rozpoczynających się od wersji z oknem kontekstowym o pojemności właśnie 128 tysięcy tokenów i skalowanych do miliona tokenów w miarę ulepszania modelu.

Testerzy wczesnej wersji mogą bezpłatnie wypróbować okno kontekstowe o pojemności miliona tokenów, chociaż w przypadku tej eksperymentalnej funkcji mogą spodziewać się większych opóźnień. Na horyzoncie widać już jednak znaczną poprawę szybkości.

Osoby zajmujące się programowaniem zainteresowane testowaniem wersji 1.5 Pro mogą już teraz zarejestrować się w Google AI Studio, natomiast klienci korporacyjni mogą skontaktować się z zespołem ds. kont na platformie Vertex AI.

MIEJSCE PUBLIKACJI: