Přeskočit na hlavní obsah

Google I/O 2024: I/O pro novou generaci

[]

Google I/O 2024: I/O pro novou generaci

14. Kvě 2024

Czechia Blog Team

Konference I/O 2024, Image

Poznámka redakce: Níže přinášíme přepis vystoupení Sundara Pichaie na konferenci I/O 2024 upravený tak, aby obsahoval informace, které zazněly na pódiu, v podrobnější formě. Všechna oznámení najdete v naší sbírce blogů k I/O 2024.

Google plně přešel do éry Gemini

Ještě než se do toho ale dáme, chtěl bych tuhle chvíli věnovat krátkému zamyšlení. Do umělé inteligence investujeme už více než deset let a přinášíme inovace na všech úrovních: od výzkumu přes služby až po infrastrukturu, a o tom všem dnes budeme mluvit.

Jsme pořád na začátku, ten největší pokrok umělou inteligenci teprve čeká. Vidíme před sebou obrovskou spoustu příležitostí. Pro tvůrce, vývojáře, startupy, zkrátka pro všechny. Naše éra Gemini je o tom pomáhat tyhle příležitosti rozvíjet. Tak jdeme na to.

Éra Gemini

O plány s Gemini jsme se poprvé podělili před rokem právě na pódiu I/O: jedná se o přední model sestavený tak, aby byl přirozeně multimodální a uměl pracovat se vším od textu přes obrázky, videa až po kód, a to není zdaleka všechno. Je to předzvěst obrovského pokroku v transformaci jakéhokoli vstupu (I) na jakýkoli výstup (O) –⁠⁠⁠⁠⁠⁠ prostě „I/O“ pro novou generaci.

Na začátku roku jsme představili naše dosud nejvýkonnější modely Gemini, které prokázaly špičkový výkon ve všech multimodálních benchmarcích. O dva měsíce později jsme představili model Gemini 1.5 Pro, který přinesl velký průlom v dlouhých kontextech. Zvládá konzistentně pracovat s 1 milionem tokenů, což zatím žádný velký základní model neumí.

A přejeme si, aby z toho, co Gemini umí, mohl těžit každý. Proto jsme se vývoj snažili co nejvíc urychlit a podělit se s vámi všemi o tento pokrok. Dnes používá modely Gemini více než 1,5 milionu vývojářů napříč našimi nástroji. Využívají ho například k ladění kódu, získávání nových poznatků a vytváření AI aplikací nové generace.

Průlomové schopnosti Gemini nyní zavádíme i do našich dalších služeb. Dnes si ukážeme příklady ve Vyhledávání, Fotkách, Workspace, Androidu a dalších.

Pokrok v našich produktech

V současné době používají Gemini všechny naše produkty s celkem 2 miliardami uživatelů.

Představili jsme také nová prostředí, včetně těch v mobilních zařízeních, kde lidé mohou komunikovat s Gemini přímo prostřednictvím aplikace, která je už dostupná pro Android i iOS. A také prostřednictvím služby Gemini Advanced, která poskytuje přístup k našim nejvýkonějším modelům. Během pouhých tří měsíců se zaregistrovalo přes milion lidí a zájem stále roste.

Rozšíření AI Overviews ve Vyhledávání

Jedna z nejzajímavějších transformací v rámci Gemini proběhla ve Vyhledávání Google.

V uplynulém roce jsme v rámci Vyhledávání s podporou generativní umělé inteligence zodpověděli miliardy dotazů. Lidé jej používají k Vyhledávání zcela neobvyklými způsoby, pokládají nové typy dotazů, které jsou delší a složitější, a dokonce vyhledávají pomocí fotek. Na základě toho pak získávají ty nejlepší výsledky, jaké web nabízí.

AI Overviews

Zmíněné prostředí jsme testovali i mimo Labs. A povzbudilo nás, že jsme zaznamenali nejen nárůst v používání Vyhledávání, ale i větší spokojenost uživatelů.

S potěšením bych rád oznámil, že v tomto týdnu plánujeme kompletně přepracované AI Overveiws spustit pro celé USA. A pak budou následovat další země.

Ve službě Vyhledávání se těch inovací děje opravdu hodně. Díky technologii Gemini bude vyhledávání mnohem výkonnější, a to i v rámci našich produktů.

Představení funkce Ask Photos

Ze slíbených příkladů uvedeme Fotky Google, které jsme spustili téměř před devíti lety. Od té doby je lidé používají k organizování svých nejdůležitějších vzpomínek. A realita je taková, že lidé každý den nahrávají přes 6 miliard fotografií a videí.

Rádi zkrátka používají Fotky k vyhledávání napříč svým životem. Se službou Gemini to ale bude všechno mnohem snazší.

Řekněme, že jste na parkovišti, platíte, ale nemůžete si vybavit svoji SPZ. Dříve jste mohli ve Fotkách vyhledat určitá klíčová slova a pak si najít SPZ v rok starých fotkách. Teď se ale Fotek jednoduše zeptáte. Ví, která auta se objevují nejčastěji, triangulují to vaše a vaši SPZ vám řeknou.

Funkce Ask Photos vám zkrátka pomůže zapátrat ve vzpomínkách ještě hlouběji. Můžete například zavzpomínat na první významné okamžiky své dcery Lucie. Fotek se třeba můžete zeptat: „Kdy se Lucie naučila plavat?“

A můžete navázat ještě něčím složitějším: „Ukaž mi, jak se Lucčino plavání vyvíjelo.“

Gemini překračuje hranice prostého vyhledávání a rozpoznává různé souvislosti –⁠⁠⁠⁠⁠⁠ od plavání přes šnorchlování v oceánu až po text a data na plaveckých diplomech, které vaše dcera získala. Fotky to všechno zabalí do souhrnného přehledu, takže si to všechno můžete skutečně dát do souvislostí a prožít ty úžasné vzpomínky znovu. Službu Ask Photos zavedeme letos v létě a další možnosti budou následovat.

Odemykání dalších znalostí pomocí multimodality a dlouhého kontextu

Zpřístupnění znalostí napříč různými formáty je přesně tím důvodem, proč Gemini stavíme od základů jako multimodální. Cílem je mít jednotný model, ve kterém jsou implementovány všechny modality. Jde o model, který rozumí jednotlivým druhům vstupů –⁠⁠⁠⁠⁠⁠ a současně mezi nimi nachází souvislosti.

Multimodalita rychle rozšiřuje paletu dotazů, které můžeme klást, a odpovědí, které dostáváme zpátky. Dlouhý kontext to posouvá ještě o krok dál a ukazuje stále se zvětšující šíři informací, které dokážeme přinášet: můžou to být stovky stránek textu, hodiny audia, hodina videa, celé repozitáře kódu... nebo, třeba 96 meníček z Cheesecake Factory.

Na tolik meníček je potřeba kontextové okno s jedním milionem tokenů, a to teď Gemini 1.5 Pro má. A vývojáři to využívají velmi zajímavými způsoby.

V posledních několika měsících jsme zaváděli Gemini 1.5 Pro s ukázkou dlouhého kontextu. Máme za sebou řadu kvalitativních vylepšení v oblasti překladu, kódování i usuzování. A počínaje dneškem se aktualizace začnou reflektovat v modelu samotném.

S potěšením vám oznamuji, že tato vylepšená verze Gemini 1.5 Pro bude k dispozici všem vývojářům po celém světě. Navíc mají dnes Gemini 1.5 Pro s kontextovým oknem a 1 milionem tokenů k dispozici i přímo zákazníci ve formě služby Gemini Advanced, kterou lze používat ve 35 jazycích.

Rozšíření na 2 miliony tokenů v neveřejném náhledu

Jeden milion tokenů otevírá zcela nové možnosti. Je to neuvěřitelné, ale podle mě můžeme jít ještě dál.

Kontextové okno tedy dnes rozšiřujeme na 2 miliony tokenů a zpřístupňujeme ho vývojářům v soukromém náhledu.

Když se ohlédneme, vidíme, jak velký pokrok jsme za pár měsíců udělali. Současně je to další krůček na naší cestě k vysněnému cíli, kterým je nekonečný kontext.

Zavedení Gemini 1.5 Pro do Workspace

Dosud byla řeč o dvou technických pokrocích, multimodalitě a dlouhém kontextu. Každý z nich znamená neuvěřitelné schopnosti. Když se ale skloubí, úroveň schopností a inteligence se posouvá ještě mnohem dál.

V Google Workspace tomuto všemu vdechujeme život.

Lidé pořád v Gmailu hledají nějaké e-maily. Pracujeme na tom, aby bylo možností s Gemini ještě víc. Jako rodič chcete mít například přehled o tom, co se děje ve škole vašeho dítěte. A Gemini vám v tom pomůže.

Službu Gemini můžeme požádat, aby nám zpracovala souhrn všech e-mailů, které ze školy přišly. Ta pak na pozadí identifikuje relevantní e-maily, a dokonce analyzuje přílohy, například soubory PDF. Získáte tím shrnutí klíčových bodů a položek, které si žádají nějakou vaší aktivitu. Dejme tomu, že jste tenhle týden byli na služební cestě a nemohli jste se zúčastnit třídní schůzky. Záznam schůzky má hodinu. Pokud proběhla na Google Meetu, můžete Gemini požádat, ať vám vypíchne ty nejdůležitější informace. Například že skupina rodičů shání dobrovolníky. Vy tam na daný den nic nemáte a Gemini vám samozřejmě připraví i koncept odpovědi.

A příkladů, jak vám služba může usnadnit život, existuje celá řada. Aplikace Gemini 1.5 Pro je od dnešního dne k dispozici ve Workspace Labs. Víc vám k tomu poví Aparna.

Zvukové výstupy ve službě NotebookLM

Právě jsme si prošli příklad, kde je výstupem text. S multimodálním modelem toho ale můžeme dělat mnohem víc.

Děláme pokroky a máme toho před sebou spoustu. Důkazem našeho pokroku jsou zvukové přehledy ve službě NotebookLM. Ta Gemini využívá k čerpání zdrojových materiálů a ke zpracování personalizované a interaktivní zvukové konverzace.

To je právě to, co multimodalita přináší. Brzy budete moci vstupy a výstupy různě kombinovat. A právě to máme na mysli, když říkáme, že se jedná o I/O pro novou generaci. Co ale jít ještě o krok dál?

Agenti s umělou inteligencí nové úrovně

Agenti s umělou inteligencí jsou další příležitostí, jak celou oblast posunout ještě o kus dál. Já o nich uvažuji jako o inteligentních systémech, které vykazují rysy uvažování, plánování i paměti, dokáží „myslet“ několik kroků dopředu a pracovat napříč softwarem a systémy. S jediným cílem, aby vám pod vaším dohledem pomohly.

Pořád jsme na začátku, ale dovolte mi, abych vám ukázal různé případy použití, které se snažíme usilovně rozlousknout.

Začneme s nákupy. Kupovat boty je zábava. Ale když vám nesedí, vracet je už tak zábavné není.

A teď si představte, že by za vás celý postup vyřešilo Gemini:

Vyhledání účtenky v poště…

Vyhledání čísla objednávky v e-mailu…

Vyplnění formuláře pro vrácení zboží…

A dokonce i naplánování vyzvednutí z místa uložení.

Zní to dobře, ne?

Podíváme se ale na jeden příklad, který je o něco komplexnější.

Řekněme, že jste se právě přestěhovali do Chicaga. Představte si, že Gemini a Chrome spolupracují a pomáhají vám s přípravou na spoustu úkolů – organizovat, odůvodňovat, sumarizovat informace atd.

Dejme tomu, že si chcete prohlédnout město a vyhledat v okolí různé služby – od čistírny až po venčení psů. A kvůli tomu budete muset na desítkách webů aktualizovat svoji adresu.

Gemini dokáže všechny tyhle úkoly zpracovat a případně se doptá na doplňující informace – takže nad vším máte vždycky kontrolu vy.

Tato část je velmi důležitá, při zkoušení těhle scénářů se hledáme cestu, jak to udělat tak, aby to vyhovovalo všem a bylo to bezpečné.

Uvedené případy použití jsou sice jednoduché, ale dají vám dobrou představu o typech problémů, které chceme řešit. Proto jsme vytvořili systémy, které za vás dokážou myslet dopředu, uvažovat, plánovat a vyřešit věci až do konce.

Jak se to propisuje do našeho poslání

Potenciál Gemini – s multimodalitou, dlouhým kontextem a agenty – nás posouvá blíž našemu hlavnímu cíli: nechat umělou inteligenci pomáhat všem.

Největšího pokroku na cestě k našim cílům dosáhneme tím, že utřídíme informace ze světa napříč všemi vstupy, zpřístupníme je v libovolném výstupu a informace z okolního světa umožníme kombinovat s informacemi z VAŠEHO světa tak, aby pro vás byly skutečně užitečné.

Překonávání nových překážek

Abychom mohli využít potenciál umělé inteligence naplno, musíme jít ještě dál. Tým Google DeepMind na tom usilovně pracuje.

Verze 1.5 Pro a její okno s dlouhým kontextem zaznamenalo obrovskou vlnu nadšení.
Od vývojářů se k nám ale také dostalo, že chtějí něco rychlejšího a úspornějšího. Zítra tedy představíme Gemini 1.5 Flash, odlehčený model vytvořený s ohledem na škálovatelnost. Byl optimalizován pro úlohy, kde největší roli hraje nízká latence a cena. Verze 1.5 Flash bude k dispozici v AI Studiu a Vertex AI od úterý.

Pokud nahlédneme dále do budoucnosti, odjakživa jsme chtěli vytvořit univerzálního agenta, který bude přinášet užitek v každodenním životě. Projekt Astra prokazuje multimodální porozumění a schopnost konverzace v reálném čase.

Také jsme pokročili v oblasti generování videí a obrázků s nástroji Veo a Imagen 3. Představili jsme Gemmu 2.0, naši další generaci otevřených modelů pro zodpovědné inovace v oblasti umělé inteligence. Další informace od Demise Hassabise.

Infrastruktura pro éru umělé inteligence: představujeme Trillium

Trénování těch nejmodernějších modelů vyžaduje obrovský výpočetní výkon. Za posledních šest let vzrostla poptávka odvětví po výpočetním výkonu pro strojové učení milionkrát. A každý rok se desetinásobně zvyšuje.

Google s tím počítá. Už 25 let investujeme do prvotřídní technické infrastruktury.

Od špičkového hardwaru, na kterém běží Vyhledávání, až po naše vlastní jednotky pro zpracování tenzorů (TPU), které umožňují naše pokroky v oblasti umělé inteligence.

Služba Gemini byla natrénována a provozována výhradně na našich jednotkách TPU čtvrté a páté generace. Na jednotkách TPU trénovaly své modely i další přední společnosti zabývající se umělou inteligencí, včetně společnosti Anthropic.

Dnes s potěšením oznamujeme naši šestou generaci jednotek TPU s názvem Trillium. Trillium představuje dosud nejvýkonnější a nejefektivnější jednotku TPU, která oproti předchozí generaci TPU v5e přináší 4,7násobné zvýšení výpočetního výkonu na čip.

Trillium zpřístupníme našim cloudovým zákazníkům koncem roku 2024.

Jsme hrdí na to, že vedle našich jednotek TPU nabízíme i CPU a GPU, které si poradí s jakoukoli pracovní zátěží.

Mezi ně patří nové procesory Axion, které jsme oznámili minulý měsíc. Jedná se o první procesory založené na architektuře Arm, které přinášejí špičkový výkon a energetickou účinnost.

Jako jeden z prvních poskytovatelů cloudu nabízíme špičkové grafické procesory Blackwell od společnosti NVIDIA, které budou k dispozici na začátku roku 2025. Máme štěstí, že se společností NVIDIA dlouhodobě spolupracujeme a jsme nadšení, že můžeme našim zákazníkům přinést přelomové schopnosti Blackwellu.

Čipy jsou základní součástí našeho integrovaného end-to-end systému. Od hardwaru optimalizovaného na výkon, otevřeného softwaru, až po flexibilní modely spotřeby. To vše se spojuje v našem AI Hypercomputeru, superpočítači s přelomovou architekturou.

Podniky i vývojáři ji používají k řešení složitějších výzev s více než dvojnásobnou efektivitou oproti pouhému nákupu hardwaru a čipů. Naše pokroky v oblasti AI Hypercomputeru jsou možné částečně i díky našemu přístupu ke kapalinovému chlazení v datových centrech.

U nás se tímhle směrem ubíráme víc než deset let, dávno předtím, než se to v tomto odvětví stalo standardem. Dnes je celková kapacita naší nasazené flotily systémů s kapalinovým chlazením téměř 1 gigawatt a stále roste, to je v podstatě 70krát větší kapacita než u jakékoli jiné flotily.

A pak tu ještě máme samotný rozsah naší sítě, která propojuje naši infrastrukturu po celém světě. Naše síť se táhne přes více než 3,2 milionů kilometrů pozemních a podmořských optických vláken: to je víc než desetinásobek, oproti dalšímu přednímu poskytovateli cloudových služeb.

Do rozvoje inovací v oblasti umělé inteligence a poskytování těch nejmodernějších funkcí plánujeme investovat i nadále.

Zatím nejzajímavější kapitola Vyhledávání

Podstatná část našich zdrojů z investis a inovací jde do Vyhledávání. Před 25 lety jsme vytvořili Vyhledávání, abychom lidem pomohli orientovat se ve velkém množství informací na internetu.

Každý další posun přinášel průlomové novinky, které pomohly najít lepší odpovědi na vaše dotazy.

Na mobilních zařízeních jsme zpřístupnili nové typy otázek a odpovědí, které pracují s kontextem, povědomím o poloze a informacemi v reálném čase. Pokrok v chápání přirozeného jazyka a počítačového vidění umožňuje vyhledávat úplně novým způsobem – oblíbené skladby pomocí zpěvu či broukání, květiny pomocí fotek z procházky atd. Můžete dokonce využít i funkci Zakroužkuj a hledej, která vám umožní najít právě ty skvělé nové boty, o kterých jste snili. Jděte do toho, vrátit je můžete vždycky!

Vyhledávání se v éře Gemini posune ještě na úplně novou úroveň a spojí naše silné stránky skvělou infrastrukturu, nejnovější schopnosti AI, naše vysoké nároky na kvalitu informací a desítky let zkušeností s tím, jak vám co nejlépe zprostředkovat všechno to bohatství internetu. Výsledkem je služba, která udělá hodně práce za vás.

Vyhledávání Google je generativní umělá inteligence na úrovni lidské zvědavosti. A je to naše dosud nejzajímavější kapitola Vyhledávání. Přečtěte si více o éře Gemini ve Vyhledávání od Liz Reid.

Další inteligentní prostředí Gemini

Gemini je víc než chatbot. Je navržen tak, aby se stal osobním asistentem, který vám pomůže řešit složité úkoly.

Interakce s Gemini by měla být intuitivním rozhovorem. Právě proto oznamujeme, že nové Gemini se tomu přibližuje. Nazvali jsme to Live a umožní vést s Gemini hluboké konverzace pomocí vašeho hlasu. Koncem roku ve službě Gemini Advanced přineseme 2 miliony tokenů, které umožní nahrávat a analyzovat velmi komplexní soubory, jako jsou videa a dlouhé kódy. Víc vám k tomu poví Sissie Hsiao.

Gemini pro Android

Systém Android využívají miliardy uživatelů po celém světě a my máme radost, že bude Gemini ještě integrovanější do operačního systému. Stane se vaším novým asistentem, který bude připravený pomoct kdykoli a kdekoli. Modely Gemini hrají zásadní roli v Androidu, včetně našeho nejnovějšího modelu Gemini Nano s funkcí Multimodality, která zpracovává text, obrázky, zvuk a řeč. To vše otevírá nové zážitky a zároveň zachovává soukromí informací. Veškeré novinky o systému Android najdete tady.

Zastáváme zodpovědný přístup k umělé inteligenci

K příležitostem, jaké nám AI nabízí, přistupujeme i nadále odvážně a s nadšením. Snažíme se ale také, abychom to dělali zodpovědně. Vyvíjíme špičkovou techniku, které říkáme AI-Assisted Red Teaming a vychází z průlomů společnosti Google DeepMind v oblasti her, například z AlphaGo. Rozšířili jsme naše technické inovace v oblasti vodoznaků, jako je třeba SynthID, o dvě nové modality (text a video), aby šlo obsah vytvořený umělou inteligencí lehce identifikovat. Víc vám k tomu poví James Manyika.

Společné utváření budoucnosti

Tohle všechno ukazuje náš velký pokrok, kterého jsme dosáhli odvážným a zodpovědným přístupem, kvůli tomu, aby byla AI užitečná pro všechny.

Ještě než se ale dostaneme k úplnému závěru, něco mi říká, že tam venku určitě bude někdo počítat, kolikrát tu dneska padlo slovo AI. Řekl bych, že párkrát ještě padne.

To s tím počítáním ale neříkám pro nic za nic. Odráží to něco mnohem hlubšího. V přístupu, který razíme, je AI na prvním místě už dlouho. Naše vedoucí pozice ve výzkumu, kterou už držíme desítky let, stála u zrodu mnoha přelomových objevů v oblasti AI, které umožňují pokrok, a to nejen pro nás, ale pro celé odvětví. Kromě toho máme:

● špičkovou světovou infrastrukturu postavenou přímo pro éru AI

● špičkové inovace ve Vyhledávání, které teď běží na systému Gemini
● služby, které pomáhají v mimořádném rozsahu – včetně 15 služeb s půl miliardou uživatelů
● a platformy, které umožňují každému – partnerům, zákazníkům, tvůrcům i vám všem – tvořit budoucnost.

Celý tento pokrok by nebyl možný bez našich neuvěřitelných vývojářů. Všechno tohle se stává skutečností díky vám, prostřednictvím nových zážitků a aplikací, které každý den vytváříte. Takže všem tady v Shoreline a dalším milionům lidí po celém světě, kteří nás právě teď sledují, na budoucí možnosti a jejich společné vytváření.

Zveřejněno v: