Przejdź do głównego menu

Blog Google Polska

Przedstawiamy Gemini: nasz największy i najbardziej zaawansowany model AI

[]

Przedstawiamy Gemini: nasz największy i najbardziej zaawansowany model AI

06 Gru, 2023

Dziś jesteśmy o krok bliżej do zrealizowania naszej wizji – przedstawiamy Gemini, najbardziej rozwinięty i wszechstronny model, jaki dotąd stworzyliśmy.

Demis_headshot

Demis Hassabis

CEO and Co-Founder, Google DeepMind, on behalf of the Gemini Team

Sundar Pichai CEO, Google y Alphabet

CEO, Google y Alphabet

Każdy przełom technologiczny jest szansą na postęp w zakresie odkryć naukowych, a także na przyspieszenie rozwoju ludzkości i poprawę życia. Wierzę, że zmiany, które obecnie obserwujemy w związku z rozwojem AI, będą większe niż kiedykolwiek dotąd, a na pewno znacznie większe niż wcześniejsze pojawienie się urządzeń mobilnych lub internetu. AI ma potencjał kreowania nowych możliwości – od rzeczy codziennych po niezwykłe – z korzyścią dla ludzi na całym świecie. Przyniesie innowacje i postęp gospodarczy oraz będzie napędzać rozwój nauki i sposobów uczenia się, kreatywność oraz produktywność na skalę, jakiej wcześniej nie widzieliśmy.

Na tym zależy mi najbardziej: żeby AI stała się pomocna dla wszystkich, w każdym miejscu na świecie.

Od blisko ośmiu lat nasza firma skoncentrowana jest na AI, a tempo postępu w tej dziedzinie jest coraz większe – miliony ludzi korzystają obecnie z generatywnej AI w ramach naszych usług, aby robić rzeczy, które jeszcze rok temu nie były możliwe. Od znajdowania odpowiedzi na bardziej złożone pytania dotyczące korzystania z nowych narzędzi po współpracę i działalność twórczą. Jednocześnie programiści wykorzystują nasze modele i infrastrukturę do tworzenia nowych aplikacji opartych na generatywnej AI, a start-upy i przedsiębiorstwa na całym świecie rozwijają się dzięki naszym narzędziom AI.

Tempo rozwoju tej technologii jest niesamowite, a tak naprawdę dopiero zaczynamy poznawać jej możliwości.

Podchodzimy do tej pracy odważnie i odpowiedzialnie. Oznacza to ambitne podejście do badań i wykorzystywanie możliwości, które przyniosą ogromne korzyści ludziom i społeczeństwu, przy jednoczesnym tworzeniu zabezpieczeń i podejmowaniu współpracy z instytucjami państwowymi i ekspertami w celu eliminowania zagrożeń w miarę zwiększania się możliwości AI. Nadal inwestujemy w najlepsze narzędzia, podstawowe modele i infrastrukturę oraz wdrażamy je w usługach naszych i innych, kierując się naszymi zasadami dotyczącymi AI.

Teraz robimy kolejny krok na tej drodze, oferując Gemini – nasz najbardziej jak dotąd wydajny i wszechstronny model, którego ultranowoczesne działanie można podziwiać w wielu wiodących testach porównawczych. Pierwsza wersja modelu, Gemini 1.0, jest zoptymalizowana pod kątem różnych rozmiarów: Ultra, Pro i Nano. To pierwsze modele Gemini i początek realizacji naszej wizji, która przyświeca nam, odkąd na początku tego roku tworzyliśmy Google DeepMind. Wkroczyliśmy w nową erę modeli, która jest rezultatem największego w historii naszej firmy wysiłku w zakresie działań naukowych i inżynieryjnych. Z radością i ciekawością będę obserwował, co przyniesie przyszłość, i jakie nowe możliwości odkryją ludzie na całym świecie dzięki Gemini.

– Sundar

Zarówno dla mnie, jak i dla wielu moich kolegów badaczy AI jest centralnym punktem pracy. Towarzyszyła mi w czasach, gdy jako nastolatek zajmowałem się programowaniem AI na potrzeby gier komputerowych, a następnie przez lata badań w zakresie neurobiologii, podczas których starałem się zrozumieć funkcjonowanie mózgu. Zawsze wierzyłem, że jeśli zdołamy stworzyć bardziej inteligentne urządzenia, znajdziemy niesamowite sposoby na wykorzystanie ich dla dobra ludzkości.

Naszej pracy w Google DeepMind przyświeca idea tworzenia odpowiedzialnej AI, z której korzystać będą ludzie na całym świecie. Od dawna pracujemy nad nową generacją modeli AI inspirowanych funkcjonowaniem ludzi w obecnym świecie. Chcemy, aby AI była nie tyle inteligentnym oprogramowaniem, co przydatnym i intuicyjnym współpracownikiem, wyspecjalizowanym pomocnikiem.

Dziś jesteśmy o krok bliżej do zrealizowania naszej wizji – przedstawiamy Gemini, najbardziej rozwinięty i wszechstronny model, jaki dotąd stworzyliśmy.

Model Gemini powstał w efekcie szeroko zakrojonej współpracy wielu zespołów w Google, w tym naszych kolegów i koleżanek z zespołu ds. badań Google. Został on zbudowany od podstaw z założeniem, że ma być modelem multimodalnym, czyli takim, który może generalizować i z łatwością rozumieć, wykorzystywać i łączyć różne rodzaje informacji, w tym tekst, obrazy, dźwięki, filmy i kod.

Gemini jest ponadto najbardziej elastycznym z naszych modeli, ponieważ działa sprawnie na dowolnych urządzeniach – od centrów danych po urządzenia mobilne. Dzięki swoim ultranowoczesnym możliwościom będzie mieć znaczący wpływ na sposób, w jaki deweloperzy i klienci biznesowi tworzą i skalują swoje działania z wykorzystaniem AI.

Naszą pierwszą wersję modelu, Gemini 1.0, zoptymalizowaliśmy pod kątem różnych zadań, oferując trzy warianty:

Gemini Ultra – nasz najbardziej wydajny i największy model przeznaczony do realizacji bardzo złożonych zadań.
Gemini Pro – najlepszy model do skalowania bardzo zróżnicowanych zadań.
Gemini Nano – najskuteczniejszy model do realizacji zadań na urządzeniach mobilnych.

Supernowoczesne działanie

Starannie testowaliśmy nasze modele Gemini i sprawdzaliśmy ich działanie na najróżniejszych zadaniach. Od rozumienia naturalnych obrazów przez rozumowanie matematyczne po analizę materiałów audio i wideo. Wyniki Gemini Ultra przewyższają obecne osiągnięcia w 30 z 32 powszechnie stosowanych testów i standardów akademickich stosowanych w badaniach i rozwoju dużych modeli językowych (LLM).

Z wynikiem 90,00% Gemini Ultra jest pierwszym modelem, który przewyższa w działaniu ekspertów w zakresie MMLU (masowe wielozadaniowe rozumienie języka). MMLU wykorzystuje połączenie 57 dziedzin nauki, takich jak matematyka, fizyka, historia, prawo, medycyna czy etyka, w celu testowania zarówno światowej wiedzy, jak i możliwości rozwiązywania problemów.

Nasze nowe wzorcowe podejście do MMLU umożliwia Gemini wykorzystanie zdolności rozumowania do dokładniejszego przemyślenia przed udzieleniem odpowiedzi na trudne pytania, co prowadzi do znacznych ulepszeń.

Wyniki Gemini przewyższają dotychczasowe osiągnięcia w powszechnie stosowanych testach branżowych, w tym w analizie tekstu i kodowaniu.

Tekst alternatywny: wykres przedstawiający wydajność Gemini Ultra w popularnych testach tekstowych w porównaniu z GPT-4 (liczby API obliczono w przypadku braku zgłoszonych liczb).

Gemini Ultra osiąga ponadto wynik 59,4% w testach MMMU, które obejmują realizację wielomodalnych zadań z wykorzystaniem wielu domen, wymagających jednocześnie zastosowania przemyślanej argumentacji.

W testach analizy obrazów Gemini Ultra pokonał dotychczasowe nowoczesne modele i to bez wsparcia systemów rozpoznawania znaków (OCR). Wyniki te pokazują naturalną multimodalność Gemini i wskazują jednocześnie na potencjalnie bardziej złożone multimodalne możliwości rozumowania.

Więcej szczegółów znajdziesz w naszym raporcie technicznym na temat Gemini.

Gemini przewyższa aktualne wyniki w licznych multimodalnych testach porównawczych

Wykres przedstawiający wydajność Gemini Ultra w multimodalnych testach porównawczych w porównaniu z GPT-4V, z poprzednimi modelami SOTA wymienionymi w miejscach, gdzie funkcje nie są obsługiwane w GPT-4V.

Ultranowoczesne możliwości

Dotychczas standardowe podejście do tworzenia modeli multimodalnych obejmowało trenowanie oddzielnych komponentów dla różnych modalności, a następnie łączenie ich w celu ogólnego odzwierciedlenia niektórych funkcji. Te modele mogą czasami skutecznie wykonywać niektóre zadania, np. opisywać obrazy, jednak mają problemy z bardziej konceptualnym i kompleksowym rozumowaniem.

Zaprojektowaliśmy Gemini w taki sposób, aby model ten w naturalny sposób był multimodalny i od początku wstępnie wytrenowany na różnych modalnościach. Następnie ulepszyliśmy go, dodając kolejne dane multimodalne, aby zwiększyć wydajność. Dzięki temu Gemini z łatwością rozumie i wyciąga wnioski, o wiele lepiej niż dotychczasowe modele multimodalne, i może pochwalić się supernowoczesnymi możliwościami w niemalże każdej domenie.

Learn more about Gemini’s capabilities and see how it works.

Zaawansowane rozumowanie

Nieprzeciętne możliwości rozumowania multimodalnego, jakie posiada Gemini 1.0 pomagają zrozumieć złożone informacje tekstowe i wizualne. Są one szczególnie przydatne, jeśli chodzi o uzyskanie konkretnych informacji spośród ogromnego gąszczu danych.

Niezwykła zdolność tego modelu do wyodrębniania sedna informacji z setek tysięcy dokumentów, poprzez ich czytanie, filtrowanie i analizowanie, z pewnością przyczyni się do nowych, błyskawicznych odkryć w różnych dziedzinach, od nauki po finanse.

Rozumienie tekstu, obrazów, dźwięku i wiele więcej

Gemini 1.0 został wytrenowany, aby w tym samym czasie rozpoznawać i rozumieć tekst, obrazy, dźwięki i wiele więcej. Dzięki temu lepiej rozumie niuanse zawarte w informacjach i może odpowiadać na pytania dotyczące skomplikowanych zagadnień.

Sprawdza się zwłaszcza w wyjaśnianiu rozumowania matematycznego i z zakresu fizyki, dzięki czemu może służyć jako osobisty doradca podczas odrabiania pracy domowej.

Rozbudowane kodowanie

Nasza pierwsza wersja Gemini może zrozumieć, wyjaśnić i wygenerować wysokiej jakości kod w najpopularniejszych na świecie językach programowania takich jak Python Java, C++ i Go. Dzięki pracy z zastosowaniem różnych języków i możliwości analizowania złożonych informacji Gemini jest jednym z wiodących podstawowych modeli kodowania na świecie.

Gemini Ultra wyróżnia się w kilku testach porównawczych kodowania, w tym HumanEval, ważnym standardzie branżowym służącym do oceny wydajności zadań związanych z kodowaniem, oraz Natural2Code, naszym wewnętrznym zestawie danych, który wykorzystuje źródła generowane przez autorów zamiast informacji internetowych.

Model Gemini może być również używany jako napęd dla bardziej zaawansowanych systemów kodowania. Dwa lata temu zaprezentowaliśmy AlphaCode, czyli oparty na AI system generowania kodu, który osiągnął wysoki konkurencyjny poziom wymagany na konkursach programistycznych.

Wykorzystując wyspecjalizowaną wersję Gemini, stworzyliśmy jeszcze bardziej zaawansowany system generowania kodu, AlphaCode 2, który doskonale radzi sobie z trudnymi problemami programistycznymi obejmującymi nie tylko kodowanie, ale również złożone zagadnienia matematyczne i informatyczne.

AlphaCode 2 rozwinął się na tej samej platformie co AlphaCode, jednak zawiera ulepszenia na ogromną skalę, dzięki którym może rozwiązywać dwa razy więcej problemów. Szacujemy jednocześnie, że działa on lepiej niż 85% konkurencyjnych systemów – w tym o blisko 50% lepiej niż AlphaCode. Jego wydajność jest jeszcze wyższa, gdy programiści korzystają jednocześnie z Gemini, definiując określone właściwości przykładowych kodów.

Cieszymy się, że programiści coraz chętniej wykorzystują jako narzędzia pomocnicze wysoko wydajne modele AI, które pomagają im w wyjaśnianiu problemów oraz projektowaniu i wdrażaniu kodu – dzięki czemu mogą szybciej udostępniać aplikacje i projektować lepsze usługi.

Więcej informacji znajdziesz w naszym raporcie technicznym na temat AlphaCode 2.

Bardziej niezawodny, skalowalny i wydajny

Model Gemini 1.0 wytrenowaliśmy na dużą skalę w oparciu o naszą zoptymalizowaną przez AI infrastrukturę, wykorzystując zaprojektowane przez Google systemy Tensor Processing Units (TPUs) v4 i v5e. Naszym założeniem było stworzenie jak najbardziej niezawodnego i skalowalnego modelu treningowego, który będzie wydajny, jeśli chodzi o efekty.

Dzięki systemom TPU Gemini działa zdecydowanie szybciej niż wcześniejsze, mniejsze i mniej wydajne modele. Te specjalnie zaprojektowane systemy funkcjonujące jako akceleratory AI stanowią podstawę działania opartych na AI usług Google, z których korzystają miliardy użytkowników i użytkowniczek, m.in. wyszukiwarki, YouTube, Gmaila, Map Google, Google Play i Androida. Umożliwiamy również firmom na całym świecie trenowanie na dużą skalę modeli AI przy niewielkich nakładach finansowych.

Dzisiaj przedstawiamy również najbardziej jak dotąd zaawansowany i skalowalny system TPU, Cloud TPU v5p, który zaprojektowaliśmy do trenowania najnowocześniejszych modeli AI. Ten system TPU nowej generacji przyspieszy rozwój modelu Gemini i będzie stanowić wsparcie dla deweloperów i klientów biznesowych, którym zależy na szybszym trenowaniu modeli generatywnej AI na dużą skalę i szybszym oferowaniu nowych produktów i usług.

Rząd superkomputerów akceleratora AI Cloud TPU v5p w centrum danych Google

Rząd superkomputerów akceleratora AI Cloud TPU v5p w centrum danych Google

Odpowiedzialność i bezpieczeństwo jako podstawy

W Google staramy się na każdym kroku rozwijać AI w sposób odważny i odpowiedzialny. Rozwijając nasze usługi, działamy w oparciu o nasze zasady dotyczące AI oraz rozbudowane zasady dotyczące bezpieczeństwa, a obecnie dodajemy również nowe zabezpieczenia konta niezbędne w przypadku wielomodalnych możliwości modelu Gemini. Na każdym etapie prac bierzemy pod uwagę potencjalne zagrożenia, a następnie staramy się je sprawdzać i minimalizować.

Gemini oferuje najbardziej kompleksowe jak dotąd możliwości oceny bezpieczeństwa ze wszystkich modeli AI od Google, uwzględniające uprzedzenia i toksyczność. Przeprowadziliśmy nowe badania w zakresie potencjalnych obszarów zagrożeń, takich jak cyberprzestępstwa, perswazja czy autonomia, i zastosowaliśmy opracowane przez zespół ds. badań Google, najlepsze w swojej klasie techniki testów kontradyktoryjnych, które ułatwiają identyfikowanie poważnych problemów z bezpieczeństwem przed wdrożeniem modelu Gemini.

Aby zidentyfikować słabe punkty w naszym podejściu do wewnętrznych testów, pracujemy z wszechstronną grupą zewnętrznych ekspertów i partnerów. Dzięki temu możemy testować nasze modele w skrajnych warunkach obejmujących różne problemy.

W celu identyfikowania problemów z bezpieczeństwem na etapach testowania modelu Gemini, a także zapewnienia zgodności z naszymi zasadami, korzystamy z testów porównawczych takich jak Real Toxicity Prompts – zestawu pochodzących z sieci 100 000 promptów o różnym stopniu toksyczności. Testy te zostały opracowane przez ekspertów w Allen Institute of AI. Więcej szczegółów na ten temat już wkrótce.

Aby ograniczyć ewentualne szkody, opracowaliśmy specjalne klasyfikatory zabezpieczeń, które mają na celu wychwytywanie, oznaczanie i sortowanie treści zawierających np. przemoc lub negatywne stereotypy. W połączeniu z rozbudowanymi filtrami to wielowarstwowe podejście ma sprawić, że Gemini będzie bezpieczniejszy i bardziej inkluzywny dla wszystkich. Nadal również zajmujemy się znanymi już wyzwaniami, takimi jak zgodność z prawdą, weryfikacja, atrybucja i potwierdzenie.

Odpowiedzialność i bezpieczeństwo zawsze będą nam przyświecać podczas rozwijania i wdrażania naszych modeli. Jest to długofalowe zobowiązanie, które wymaga współpracy, dlatego działamy wspólnie z ekspertami z branży i szeroko pojętego ekosystemu nad opracowywaniem testów bezpieczeństwa i najlepszych praktyk. Wspierają nas w tych działaniach takie organizacje jak MLCommons, Frontier Model Forum oraz należący do niej AI Safety Fund, a także Secure AI Framework (SAIF), które powstały, aby zwalczać problemy związane z bezpieczeństwem w systemach AI zarówno w sektorach publicznych, jak i prywatnych. Rozwijając Gemini, w dalszym ciągu będziemy pracować razem z badaczami, instytucjami rządowymi i organizacjami obywatelskimi z całego świata.

Dostępność modelu Gemini na świecie

Obecnie wprowadzamy model Gemini 1.0 w wielu usługach i na różnych platformach.

Gemini Pro w usługach Google

Udostępniamy Gemini miliardom użytkowników usług Google.

Od dzisiaj Bard będzie używał Gemini Pro i będzie radził sobie o wiele sprawniej z rozumieniem i podsumowywaniem, argumentowaniem, burzą mózgów, pisaniem i planowaniem. To największe ulepszenie jakie wprowadzamy do Barda od chwili udostępnienia usługi.

Będzie on dostępny w języku angielskim w ponad 170 krajach i regionach, a w najbliższej przyszłości planujemy rozszerzenie dostępnych opcji oraz udostępnienie usługi w kolejnych miejscach i językach.

Również Pixel zostanie wzbogacony o Gemini. Pixel 8 Pro to pierwszy smartfon, który będzie działać z Gemini Nano, dzięki czemu zyska nowe funkcje, np. podsumowanie w aplikacji Dyktafon czy Inteligentną odpowiedź w Gboard — początkowo w aplikacji WhatsApp, a w przyszłym roku w kolejnych aplikacjach do obsługi wiadomości.

W najbliższych miesiącach dodamy Gemini do kolejnych z naszych kluczowych usług, takich jak wyszukiwarka, Google Ads, Chrome i Duet AI.

Już zaczynamy eksperymentować z Gemini w wyszukiwarce, dzięki czemu nasza generatywna AI w wyszukiwarce staje się szybsza dla użytkowników, zmniejszając opóźnienia o 40% w języku angielskim w USA, a także poprawiając jakość.

Tworzenie z wykorzystaniem Gemini

Od 13 grudnia deweloperzy i klienci biznesowi będą mieli dostęp do modelu Gemini Pro poprzez Gemini API w Google AI Studio lub Google Cloud Vertex AI

Google AI Studio to bezpłatne, dostępne online narzędzie deweloperskie, które umożliwia szybkie tworzenie prototypów aplikacji i ich udostępnianie za pomocą klucza API. A jeśli potrzebna jest w pełni zarządzana platforma AI, warto skorzystać z Vertex AI, która umożliwia dostosowanie Gemini z zachowaniem pełnej kontroli nad danymi. Platforma ta daje również dostęp do funkcji Google Cloud zapewniających zabezpieczenia dla firm obejmujące bezpieczeństwo, prywatność, zarządzanie danymi i zgodność.

Deweloperzy Androida, za pośrednictwem AICore, będą również mieli do dyspozycji Google Nano, nasz najbardziej wydajny model dla urządzeń mobilnych. AICore to nowa funkcjonalność systemu Android 14, która będzie dostępna na Pixelu 8 Pro – można się zarejestrować, aby wypróbować wczesną wersję przedpremierową.

Gemini Ultra – już wkrótce

Nasze prace przed udostępnieniem modelu Gemini Ultra polegają obecnie na przeprowadzaniu rozległych testów zaufania i bezpieczeństwa, w tym z użyciem metody red-teaming przy udziale zaufanych testerów zewnętrznych. Staramy się również jeszcze bardziej udoskonalać model poprzez dostrajanie i uczenie przez wzmacnianie na podstawie opinii użytkowników (RLHF).

W ramach tego procesu udostępnimy Gemini Ultra jako wczesny eksperyment wybranym klientom, deweloperom, partnerom oraz ekspertom ds. bezpieczeństwa i odpowiedzialności, aby po zebraniu opinii móc go udostępnić deweloperom i klientom biznesowym na początku przyszłego roku.

W pierwszej części przyszłego roku udostępnimy również zaawansowaną wersję Barda, czyli nowe, jeszcze nowocześniejsze narzędzie AI, które umożliwi dostęp do naszych najlepszych modeli i możliwości, zaczynając od modelu Gemini Ultra

Era Gemini: przyszłość pełna innowacji

To dla nas w Google ważny kamień milowy w rozwoju AI i początek nowej ery, która będzie wypełniona szybko powstającymi innowacjami i odpowiedzialnym rozwijaniem możliwości naszych modeli.

Poczyniliśmy już ogromne postępy w udoskonalaniu Gemini, a obecnie ciężko pracujemy, żeby wytrenować kolejną wersję modelu, tak aby jeszcze bardziej rozwinąć jego możliwości, w tym zdolność do planowania i zapamiętywania, a także dodawać nowe funkcje, np. okno kontekstowe umożliwiające przetwarzanie większych ilości informacji.

Pokładamy duże nadzieje w możliwościach, jakie niesie za sobą przyszłość odpowiedzialnie wspierana przez AI – wypełniona innowacjami, które będą pobudzały kreatywność, poszerzały naszą wiedzę, przyspieszały rozwój nauki i zmieniały życie i pracę miliardów ludzi na całym świecie.

MIEJSCE PUBLIKACJI: