Představujeme Gemini 2.0: náš nový AI model pro éru AI agentů

11. Pro 2024

Sundar Pichai

Úvodní slovo od generálního ředitele společností Google a Alphabet, Sundara Pichaie:

Informace jsou jádrem lidského pokroku. Naším posláním je proto už déle než než 26 let uspořádat informace z celého světa tak, aby byly všeobecně přístupné a užitečné. . To je důvod, proč pořád posouváme pokrok v oblasti umělé inteligence: chceme, aby informace uspořádala na každém vstupu a zpřístupnila je všemi dostupnými výstupy. Tak, aby informace pro vás byly skutečně užitečné.

Touto vizí jsme se řídili, když jsme během loňského prosince představili Gemini 1.0. První model vytvořený tak, aby byl ze své podstaty multimodální. Verze 1.0 a 1.5 přinesly velký pokrok díky multimodalitě a dlouhému kontextu, který modelům umožňuje porozumět a zpracovat informace napříč textem, videem, obrazem, zvukem i kódem.

Na Gemini teď staví své aplikace miliony vývojářů. Nám pomáhá přetvářet všechny naše stávající služby včetně těch sedmi, které mají nyní přes dvě miliardy uživatelů i vytvářet služby nové. Produkt NotebookLM je naprosto skvělým příkladem toho, co multimodalita a dlouhé kontextové okno umožňuje lidem dokázat a proč jsou tyhle nové možnosti mezi lidmi tak oblíbené.

Během posledního roku jsme investovali do vývoje víc agentních modelů, které dokážou líp porozumět světu kolem vás, myslet na několik kroků dopředu a jednat vaším jménem, přičemž vy na ně budete jen dohlížet.

S potěšením představujeme novou verzi modelů vytvořených pro novou éru AI agentů: seznamte se s Gemini 2.0, naším dosud nejschopnějším modelem. Nové pokroky v oblasti multimodality, jako je například vlastní obrazový a zvukový výstup a přímé využití dalších nástrojů tímto modelem, nám umožní vytvářet nové AI agenty, kteří nás zase o něco přiblíží univerzálnímu asistentovi.

Model 2.0 se dnes dostává do rukou vývojářů a vybrané skupiny testerů. Zároveň pracujeme na tom, aby se brzy stal součástí našich služeb a to především Gemini a Vyhledávání. Již dnes zpřístupňujeme experimentální model Gemini 2.0 ve verzi Flash všem uživatelům Gemini. Zavádíme také novou funkci nazvanou Deep Research, která díky pokročilému uvažování a dlouhému kontextu slouží jako výzkumný asistent. Pomáhá uživatelům prozkoumat složitá témata a případně z tohoto bádání sestavit i výslednou zprávu. Ode dneška je k dispozici v rámci Gemini Advanced.

Žádnou službu neproměnila umělá inteligence natolik, jako Vyhledávání. Naše AI Overviews se dnes zobrazují miliardě lidí a umožňují jim klást úplně nové typy otázek. Díky tomu se rychle stávají jednou z nejoblíbenějších funkcí Vyhledávání vůbec. V dalším kroku proto přinášíme pokročilé uvažování Gemini 2.0 do AI Overviews, které díky tomu zvládnou vyřešit i složitější témata a otázky o více krocích. A to včetně pokročilých matematických rovnic, multimodálních dotazů a programování. Tento týden jsme zahájili prvotní testování a počátkem příštího roku plánujeme Gemini 2.0 do AI Overviews zavést obecněji. V průběhu příštího roku plánujeme do dalších zemí a jazyků rozšiřovat i samotné AI Overviews.

Pokroky modelu 2.0 stojí na dekádách investic do našeho uceleného přístupu k inovacím v oblasti umělé inteligence. Model je postaven na našem vlastním hardwaru Trillium, což je naše TPU šesté generace. Na těchto TPU’s probíhalo veškeré učení modelu Gemini 2.0. Trillium je dnes obecně dostupné zákazníkům, takže na něm mohou začít stavět své aplikace také.

Byl-li model Gemini 1.0 především o třídění a porozumění informacím, pak je Gemini 2.0 o tom, učinit tyto informace všeobecně užitečné. Nemůžu se dočkat, co tato další éra přinese.

– Sundar

Zveřejněno v:

Představujeme Gemini 2.0: náš nový AI model pro éru AI agentů

Související události