Přeskočit na hlavní obsah
Blog Česko

Gemini překonává hranice: rychlejší model, delší kontext a AI agenti

Ilustrační obrázek

Představujeme řadu aktualizací napříč celou rodinou modelů Gemini, včetně nového odlehčeného modelu 1.5 Flash optimalizovaného pro rychlost a efektivitu a také naší vizi AI agentů budoucnosti nazvanou Projekt Astra.

Demis Hassabis, generální ředitel a spoluzakladatel Google DeepMind

V prosinci jsme uvedli na trh náš první nativně multimodální model Gemini 1.0 ve třech formátech: Ultra, Pro a Nano. Jen o několik měsíců později jsme vydali verzi 1.5 Pro s vylepšeným výkonem a dosud nejdelším kontextovým oknem dosahujícím až milion tokenů.

Vývojáři a zákazníci dokázali využít verzi 1.5 Pro mnoha neuvěřitelnými způsoby a jako její hlavní výhodu uvádějí dlouhé kontextové okno, multimodální uvažování a obecně působivý výkon.

Od uživatelů víme, že některé aplikace vyžadují ke svému fungování nižší latenci a nižší náklady na obsluhu. To nás inspirovalo k dalším inovacím a proto dnes představujeme model Gemini 1.5 Flash, který je odlehčenější než 1.5 Pro a navržený pro vyšší rychlost a efektivitu.

Verze 1.5 Pro i 1.5 Flash jsou dostupné v tzv. public preview verzi v nástrojích Google AI Studio a Vertex AI a to včetně kontextového okna pro 1 milion tokenů. A k dnešnímu dni je prostřednictvím čekací listiny k dispozici i kontextové okno se dvěma miliony tokenů a to vývojářům využívajícím API a zákazníkům Google Cloudu.

Rovněž představujeme další generaci našich otevřených modelů, kterou jsme nazvali Gemma 2 a pokrok v oblasti AI asistentů budoucnosti, který jsme nazvali projekt Astra.

Gemini je nyní ve čtyřech velikostech: Ultra, Pro, Flash a Nano.

Gemini je nyní ve čtyřech velikostech: Ultra, Pro, Flash a Nano.

Aktualizace řady modelů rodiny Gemini

Nový 1.5 Flash, optimalizovaný pro rychlost a efektivitu
1.5 Flash je nejnovějším přírůstkem do rodiny Gemini a zároveň nejrychlejším Gemini modelem běžícím v rozhraní API. Je optimalizovaný pro velkoobjemové a vysokofrekvenční úkoly ve velkém měřítku, je nákladově efektivnější, přitom si ale zachovává naše průlomové dlouhé kontextové okno.

I přestože je odlehčenější než model 1.5 Pro, dosahuje mimořádných výsledků v multimodálním uvažování napříč velkým množstvím informací a dodává vzhledem ke své velikosti úctyhodnou kvalitu.

Nový model Gemini 1.5 Flash je optimalizován pro rychlost a efektivitu, je vysoce schopný multimodálního uvažování a obsahuje naše průlomové dlouhé kontextové okno.

Nový model Gemini 1.5 Flash je optimalizován pro rychlost a efektivitu, je vysoce schopný multimodálního uvažování a obsahuje naše průlomové dlouhé kontextové okno.

1.5 Flash vyniká například v psaní shrnutí nebo titulků k obrázkům a videím, ve vytváření chatovacích aplikací, extrakci dat z dlouhých dokumentů či tabulek a v mnoha dalších úkonech. Byl totiž vytrénován modelem 1.5 Pro procesem zvaným „destilace“, tzn. přenosem nejpodstatnějších znalostí a dovedností většího modelu do modelu menšího a efektivnějšího.

Více informací o 1.5 Flash najdete na technologické stránce Gemini a zde se pak dozvíte více o dostupnosti a cenách verze 1.5 Flash.

Výrazné vylepšení verze 1.5 ProV posledních měsících jsme výrazně vylepšili náš nejlepší model 1.5 Pro napříč širokým spektrem úloh. Kromě rozšíření jeho kontextového okna na dva miliony tokenů, jsme zdokonalili jeho generování kódu, logické uvažování a plánování, delší konverzaci a porozumění zvuku i obrazu prostřednictvím dat a algoritmických pokroků. U každé z těchto úloh jsme zaznamenali výrazné zlepšení veřejných i interních referenčních hodnot.

Tento model nyní dokáže sledovat stále složitější pokyny s rozlišováním drobných rozdílů, včetně pokynů, které určují chování na úrovni konkrétní služby, například roli, formát a styl. Vylepšili jsme také kontrolu nad odpověďmi modelu pro specifické případy použití, jako je vytváření persony a stylu odpovědí chatovacího agenta nebo automatizace pracovních postupů prostřednictvím vyvolání více funkcí najednou. A umožnili jsme uživatelům řídit chování modelu nastavením systémových instrukcí.

Do rozhraní Gemini API a aplikace Google AI Studio jsme také přidali porozumění zvuku, takže verze 1.5 Pro teď dokáže uvažovat napříč obrazem a zvukem u videí nahraných do aplikace Google AI Studio. 1.5 Pro teď integrujeme do Gemini Advanced a aplikací Workspace.

Přečtěte si víc o 1.5 Pro na technologické stránce Gemini.

Aktualizace Gemini Nano do on-device modelu/systému Android

Gemini Nano se učí chápat víc než jen text a nově bude zvládat i obrázky. Počínaje řadou Pixel, budou aplikace využívající Gemini Nano s Multimodalitou schopny porozumět světu tak, jak ho vidíme my, lidé - nejen prostřednictvím textových vstupů, ale také pomocí zraku, zvuku a mluvené řeči.

Více se dozvíte zde Gemini 1.0 Nano on Android.

Gemini Nano rozumí multimodálním vstupůmGemini Nano se rozšiřuje nejen o textové vstupy, ale také o obrázky. Počínaje Pixelem budou aplikace využívající Gemini Nano s multimodalitou schopny porozumět světu stejně jako lidé - nejen prostřednictvím textu, ale také zraku, zvuku a mluvené řeči.
Přečtěte si více o aplikaci Gemini 1.0 Nano v systému Android.

Další generace otevřených modelůDnes také uvádíme několik aktualizací do modelů Gemma, naší rodiny otevřených modelů vystavěných na stejném výzkumu a technologiích využitých k tvorbě modelů Gemini.

Oznamujeme Gemmu 2, naši novou generaci otevřených modelů pro zodpovědné AI inovace. Gemma 2 má novou architekturu pro průlomový výkon a efektivitu a bude k dispozici v nových velikostech.

Rodina modelů Gemma se také rozrůstá o PaliGemma, náš první vision-language model inspirovaný PaLI-3. A vylepšili jsme naši sadu nástrojů Responsible Generative AI Toolkit o nástroj LLM Comparator pro vyhodnocování kvality odpovědí modelu.

Více se dozvíte na Developer blogu.

Náš pokrok ve vývoji univerzálního AI agentaV rámci poslání Google DeepMindu vytvářet umělou inteligenci zodpovědně ve prospěch lidstva jsme vždy chtěli vyvinout univerzální agenty umělé inteligence, kteří budou užiteční v každodenním životě. Proto dnes představíme náš pokrok v budování budoucích AI asistentů: Projekt Astra (advanced seeing and talking responsive agent).

Aby byli skutečně užiteční, musí agenti rozumět složitému a dynamickému světu okolo nás. Umět na něj reagovat stejně jako lidé, vnímat a pamatovat si, co vidí nebo slyší tak, aby pochopili souvislosti. Musí být také proaktivní, učenliví a osobní, aby s nimi uživatelé mohli mluvit přirozeně bez prodlev a zpoždění.

Ačkoli jsme dosáhli neuvěřitelného pokroku ve vývoji systémů umělé inteligence, které dokážou porozumět multimodálním informacím, snížit dobu odezvy na konverzační úroveň je obtížný inženýrský úkol. V posledních několika letech jsme pracovali na zlepšení způsobu, jakým naše modely vnímají, uvažují a konverzují, aby tempo a kvalita interakce působily přirozeněji.

Dvoudílná ukázka projektu Astra, naší vize budoucnosti asistentů s umělou inteligencí. Každá část byla natočena na jeden záběr v reálném čase.
10:25

Dvoudílná ukázka projektu Astra, naší vize budoucnosti asistentů s umělou inteligencí. Každá část byla natočena na jeden záběr v reálném čase.

Tito asistenti byli postaveni na našem modelu Gemini a dalších modelech specifických pro daný úkol. Byli navrženi tak, aby zpracovávali informace rychleji díky průběžnému kódování videosnímků, spojování videozáznamu a řečového vstupu do časové osy událostí a ukládání těchto informací do mezipaměti pro lepší uchovávání vstupů

S využitím našich špičkových modelů řeči jsme také vylepšili jejich zvukovou podobu a poskytli asistentům širší škálu intonací. Díky tomu lépe rozumí kontextu, ve kterém jsou používáni, a rychle reagují v konverzacích.

Je snadné si představit budoucnost, kdy budete mít po svém boku odborného asistenta prostřednictvím telefonu nebo brýlí. Některé z těchto schopností se objeví v produktech společnosti Google, například v aplikaci Gemini, ještě letos.

Pokračující zkoumání

Dosud jsme s naší rodinou modelů Gemini udělali neuvěřitelný pokrok a neustále se snažíme posouvat se ještě dál. Díky investicím do inovací jsme schopni zkoumat nové myšlenky za hranicemi toho, co jsme dřív považovali za možné. To všechno odkrývá možnosti nových a vzrušujících využití modelů Gemini.

Více informací o Gemini a jeho schopnostech.