Přeskočit na hlavní obsah

Představujeme Gemini: náš největší a nejschopnější model umělé inteligence

Představujeme Gemini: náš největší a nejschopnější model umělé inteligence

06. Pro 2023

Sundar Pichai

CEO, Google

Demis_headshot

Demis Hassabis

Co-founder and CEO of Google DeepMind

Gemini

Užitečnější umělá inteligence pro všechny

Úvodní slovo CEO Googlu a společnosti Alphabet, Sundara Pichaie:

Každý technologický posun představuje příležitost k dalšímu rozvoji vědy, urychlení pokroku a zlepšení životů lidí. Věřím, že změny související s umělou inteligencí, které kolem nás právě probíhají, budou ty nejzásadnější v našich životech, mnohem větší než přinesl nástup mobilních telefonů nebo webu. Umělá inteligence má potenciál vytvářet příležitosti – od těch každodenních až po ty mimořádné – pro lidi na celém světě. Tato technologie přinese nové vlny inovací a hospodářského pokroku a podpoří znalosti, učení, kreativitu a produktivitu v dosud nevídaném měřítku.

To je to, co mě fascinuje: máme příležitost učinit umělou inteligenci užitečnou pro všechny, všude na světě.

Po téměř osmi letech, kdy je pro nás AI prioritou, se tempo pokroku stále zrychluje. Miliony lidí nyní využívají generativní AI napříč našimi produkty k úkolům, které byly ještě před rokem nemožné, od hledání odpovědí na složitější otázky až po používání nových nástrojů ke spolupráci i tvorbě. Zároveň vývojáři využívají naše modely a infrastrukturu k vytváření nových aplikací s generativní AI. Startupům a podnikům po celém světě pomáhají naše AI nástroje růst.

Je to neuvěřitelná dynamika, a přesto teprve začínáme objevovat, co všechno je možné.

K této práci přistupujeme odvážně a zodpovědně. To znamená být ambiciózní v našem výzkumu a rozvíjet schopnosti, které přinesou lidem a celé společnosti co největší užitek, a současně vytvářet ochranná opatření a spolupracovat s vládami a odborníky na řešení rizik, která se s rostoucí schopností umělé inteligence objevují. Nadále investujeme do těch nejlepších nástrojů, základních modelů a infrastruktury a přinášíme je do našich produktů i ostatním, přičemž se řídíme našimi Zásadami AI.

Dnes činíme další krok na naší cestě s modelem Gemini, naším dosud nejschopnějším a nejuniverzálnějším modelem s mimořádnými výkony v mnoha předních srovnávacích testech. Naše první verze, Gemini 1.0, je optimalizovaná pro různé velikosti: Ultra, Pro a Nano. Jedná se o první modely éry Gemini a první realizaci vize, kterou jsme měli, když jsme na začátku roku zformovali Google DeepMind. Tato nová éra pokročilých jazykových modelů představuje jeden z největších vědeckých a inženýrských pokroků, které jsme jako společnost podnikli. Upřímně se těším na to, co nás čeká, a na příležitosti, které Gemini otevře lidem na celém světě.

Sundar Pichai, CEO Googlu

Představujeme Gemini

Umělá inteligence je pro mě, stejně jako pro mé kolegy z výzkumu, středobodem naší celoživotní práce. Od doby, kdy jsem jako teenager programoval umělou inteligenci pro počítačové hry, přes celá léta, kdy jsem se jako výzkumník v oblasti neurověd snažil pochopit fungování mozku, jsem celou dobu věřil, že kdybychom dokázali vytvořit chytřejší stroje, mohli bychom je neuvěřitelným způsobem využít ve prospěch lidstva.

Tento příslib světa zodpovědně posíleného umělou inteligencí je i nadále hnacím motorem naší práce v Google DeepMind. Dlouho jsme chtěli vytvořit novou generaci AI modelů, inspirovanou tím, jak lidé chápou svět a jak s ním komunikují. Umělou inteligenci, kterou by lidé vnímali méně jako chytrý software a více jako něco užitečného a intuitivního - jako odborného spolupracovníka nebo pomocníka.

Dnes jsme této vizi o krok blíže, protože představujeme Gemini , nejschopnější a nejuniverzálnější model, jaký jsme kdy vytvořili.

Gemini je výsledkem rozsáhlé spolupráce týmů napříč společností Google, včetně týmu výzkumu Google Research. Byl od základu vytvořen jako multimodální, což znamená, že dokáže zobecňovat, jednoduše chápat, pracovat a kombinovat různé typy informací včetně textu, kódu, zvuku, obrázků a videa.

Gemini je také náš dosud nejflexibilnější model. Lze ho efektivně provozovat na všem od datových center až po mobilní zařízení. Jeho nejmodernější schopnosti výrazně zlepší způsob, jakým vývojáři a velké podniky vytvářejí a škálují AI.

Gemini 1.0, naši první verzi modelu, jsme zoptimalizovali na tři různé velikosti:

Gemini Ultra – náš největší a nejschopnější model pro vysoce komplexní úlohy.
Gemini Pro – náš nejlepší model pro širokou škálu úloh.
Gemini Nano – náš nejvýkonnější model pro úlohy přímo na zařízeních.

Nejmodernější výkon

Jednotlivé modely Gemini jsme důkladně testovali a vyhodnocovali na široké škále úloh. Gemini Ultra překonává v oblastech přirozeného porozumění obrazu, zvuku a videu i v oblasti matematických úvah 30 z 32 široce využívaných akademických benchmarků, které se používají v oblasti vývoje a výzkumu velkých jazykových modelů.

S výsledkem 90,0 % je Gemini Ultra prvním modelem, který překonal lidské experty v testu MMLU (massive multitask language understanding). MMLU využívá pro testování znalostí a schopností řešit problémy kombinaci 57 oborů, jako jsou matematika, fyzika, historie, právo, medicína a etika.

Náš nový benchmarkový přístup k MMLU umožňuje modelu Gemini před zodpovězením obtížných dotazů využít své uvažovací schopnosti k pečlivějšímu posouzení odpovědi, což vede k výraznému zlepšení oproti využívání pouze prvního dojmu.

Gemini překonává nejmodernější výkon v řadě srovnávacích testů včetně textu a kódování.

Gemini překonává nejmodernější výkon v řadě srovnávacích testů včetně textu a kódování.

Gemini Ultra také dosahuje špičkového skóre 59,4 % v novém benchmarku MMMU , který se skládá z multimodálních úloh zahrnujících různé oblasti vyžadující záměrné uvažování.

U testovaných obrazových benchmarků model Gemini Ultra překonal dosud nejmodernější modely, a to bez pomoci systémů pro rozpoznávání znaků objektů (Object character recognition - OCR). Tyto benchmarky zdůrazňují přirozenou multimodalitu modelu Gemini a naznačují rané známky komplexnějších uvažovacích schopností.

Další podrobnosti naleznete v naší technické zprávě o modelu Gemini.

Gemini překonává nejmodernější výkony v řadě multimodálních srovnávacích testů.

Gemini odemyká nové vědecké poznatky. ,

Schopnosti nové generace

Standardní přístup k vytváření multimodálních modelů dosud zahrnoval trénování samostatných komponent pro různé modality a jejich následné propojování, aby došlo k přibližnému napodobení některé z těchto funkcí. Tyto modely mohou být zdatné při provádění určitých úloh, jako je třeba popis obrázků, ale mají potíže s koncepčnějším a složitějším uvažováním.

Model Gemini jsme navrhli tak, aby byl přirozeně multimodální, od začátku předtrénovaný na různé modality. Následně jsme jej doladili pomocí dalších multimodálních dat, abychom ještě zdokonalili jeho efektivitu. Díky tomu Gemini bez problémů rozumí všem druhům vstupů a od začátku o nich uvažuje mnohem lépe než stávající multimodální modely - a jeho schopnosti jsou na špičkové úrovni téměř ve všech oblastech.

Přečtěte si více o schopnostech modelu Gemini a podívejte se, jak funguje.

Sofistikované uvažování

Pokročilé schopnosti Gemini 1.0 v oblasti multimodálního uvažování mohou pomáhat ve snaze pochopit složité písemné a vizuální informace. Díky tomu má jedinečnou dovednost odhalovat poznatky, které nelze v obrovském množství dat snadno rozpoznat.

Pozoruhodná schopnost modelu získávat poznatky ze stovek tisíc dokumentů prostřednictvím čtení, filtrování a porozumění informacím pomůže přinést nové průlomové objevy v mnoha oblastech od vědy až po finance.

Porozumění textu, obrázkům, zvuku a dalším informacím

Gemini 1.0 byl vycvičen k rozpoznávání a pochopení textu, obrázků, zvuku a dalších druhů informací najednou, takže lépe porozumí různorodým typům obsahů a dokáže odpovídat na složitější otázky. Díky tomu je obzvláště zdatný při vysvětlování úvah v komplexních předmětech, jako je matematika a fyzika.

Pokročilé kódování

Naše první verze modelu Gemini dokáže porozumět, vysvětlit a generovat vysoce kvalitní kód v nejoblíbenějších programovacích jazycích, jako jsou Python, Java, C++ a Go. Jeho schopnost pracovat napříč jazyky a uvažovat o komplexních informacích z něj dělá jeden z předních základních modelů pro kódování na světě.

Gemini Ultra vyniká v několika srovnávacích testech kódování, včetně HumanEval, důležitý průmyslový standard pro hodnocení výkonu v kódovacích úlohách, a Natural2Code, náš interní soubor dat, který využívá autorské zdroje namísto webových informací.

Gemini lze také použít jako pohon pro pokročilejší systémy kódování. Před dvěma lety jsme představili AlphaCode, první systém pro generování kódu umělou inteligencí, který dosáhl konkurenceschopné úrovně výkonu v soutěžích v programování.

Pomocí specializované verze systému Gemini jsme vytvořili pokročilejší systém generování kódu AlphaCode 2, který vyniká při řešení soutěžních programátorských úloh přesahujících rámec kódování a zahrnujících složitou matematiku a teoretickou informatiku.

Při hodnocení na stejné platformě jako původní AlphaCode vykazuje AlphaCode 2 obrovské zlepšení, řeší téměř dvakrát více úloh. Podle našich odhadů dosahuje lepších výsledků než 85 % účastníků soutěží - oproti téměř 50 % u AlphaCode. AlphaCode 2 navíc funguje ještě lépe, když programátoři definují určité vlastnosti, kterými se mají vzorky kódu řídit.

Těšíme se, že programátoři budou stále častěji využívat vysoce výkonné modely umělé inteligence jako nástroje pro spolupráci usnadňující uvažování o problémech, navrhování kódů a asistenci při implementaci - takže budou moci rychleji vydávat aplikace a navrhovat lepší služby.

Další podrobnosti najdete v naší technické zprávě AlphaCode 2.

Spolehlivější, škálovatelnější a efektivnější

Gemini 1.0 jsme trénovali ve velkém měřítku na vlastní infrastruktuře optimalizované pro umělou inteligenci pomocí jednotek pro zpracování tenzorů (Tensor Processing Units - TPU) v4 a v5e. Je vytvořený tak, aby byl naším nejspolehlivějším a nejškálovatelnějším modelem pro trénování, a aby byl jeho provoz nejefektivnější.

Na jednotkách TPU běží Gemini výrazně rychleji než dřívější, menší a méně výkonné modely. Tyto na míru navržené AI akcelerátory se staly základem produktů společnosti Google poháněných umělou inteligencí, které slouží miliardám uživatelů, ať už jde o Vyhledávání, YouTube, Gmail, Google Maps, Google Play nebo třeba Android. Zároveň umožnily společnostem po celém světě nákladově efektivně trénovat rozsáhlé modely umělé inteligence.

Dnes také oznamujeme dosud nejvýkonnější, nejefektivnější a nejškálovatelnější systém TPU, Cloud TPU v5p, určený k trénování špičkových modelů umělé inteligence. Tato nová generace TPU urychlí vývoj Gemini a pomůže vývojářům a podnikovým zákazníkům rychleji trénovat rozsáhlé generativní modely umělé inteligence, díky čemuž se nové produkty a funkce dostanou k zákazníkům dříve.

Řada superpočítačů akcelerátoru AI Cloud TPU v5p v datovém centru společnosti Google.

Gemini překonává nejmodernější výkony v řadě multimodálních srovnávacích testů.

Vytvořeno s ohledem na odpovědnost a bezpečnost

K rozvoji umělé inteligence ve společnosti Google přistupujeme odvážně a zodpovědně. V návaznosti na Zásady umělé inteligence společnosti Google a přísná pravidla pro bezpečnost všech našich produktů přidáváme nové ochrany, které zohledňují multimodální schopnosti modelu Gemini. V každé fázi vývoje zvažujeme možná rizika a pracujeme na jejich ověření a odstranění.

Gemini má dosud nejkomplexnější hodnocení bezpečnosti ze všech modelů umělé inteligence společnosti Google, včetně hodnocení zkreslení a toxicity. Provedli jsme nový výzkum potenciálních rizikových oblastí, jako je například kybernetický útok a použili jsme techniky adversariálního testování Google Research, jež jsou nejlepší ve své třídě k identifikaci kritických bezpečnostních problémů ještě před nasazením modelu Gemini.

Abychom identifikovali slepá místa v našem interním přístupu k hodnocení, na zátěžových testech našich modelů spolupracujeme s širokou skupinou externích odborníků a partnerů

Používáme také srovnávací testy, jako je Real Toxicity Prompts, za účelem diagnostikování problémů s bezpečností obsahu ve fázích tréninku Gemini a k zajištění, že výstupy budou v souladu s našimi zásadami. Tento test je vyvinutý odborníky z Allenova institutu umělé inteligence a obsahuje sadu 100 000 promptů s různým stupněm toxicity, které byly staženy z webu.

Odpovědnost a bezpečnost budou vždy ústředním bodem vývoje a nasazení našich modelů. Jedná se o dlouhodobý závazek, který vyžaduje budování ve spolupráci, takže spolupracujeme s průmyslem a širším ekosystémem na stanovení osvědčených postupů a bezpečnostních a ochranných měřítek, a to prostřednictvím organizací, jako je MLCommons, Frontier Model Forum a jejich AI Safety Fund, včetně našeho Secure AI Framework (SAIF), který byl navržen za účelem zmírňování bezpečnostních rizik specifických pro systémy umělé inteligence ve veřejném i soukromém sektoru. Při vývoji Gemini budeme i nadále spolupracovat s výzkumnými pracovníky, vládami a skupinami občanské společnosti po celém světě.

Zpřístupnění Gemini světu

Gemini 1.0 se nyní rozšiřuje v celé řadě produktů a platforem:

Gemini Pro v produktech Google

Prostřednictvím produktů Google zpřístupňujeme Gemini miliardám lidí.

Počínaje dneškem bude Bard s vyladěnou verzí Gemini Pro mnohem schopnější ve věcech, jako je například uvažování, plánování a porozumění. Jedná se o největší upgrade Barda od jeho uvedení na trh.

Bude k dispozici v angličtině ve více než 170 zemích a teritoriích a v blízké době plánujeme rozšíření na různé modality a podporu nových míst a jazyků.

Přinášíme také Gemini pro Pixel. Pixel 8 Pro je první chytrý telefon zkonstruovaný tak, aby na něm běžel model Gemini Nano, který pohání nové funkce, jako je Sumarizovat v aplikaci Diktafon, a také se zavádí v aplikaci Chytrá odpověď v Gboard, počínaje aplikací WhatsApp a dalšími aplikacemi pro zasílání zpráv v příštím roce.

V následujících měsících bude Gemini k dispozici v dalších našich klíčových produktech a službách, jako je Vyhledávání, Ads, Chrome a Duet AI.

S technologií Gemini již začínáme experimentovat ve Vyhledávání, kde uživatelům zrychluje naše vyhledávání s podporou generativní AI (Search Generative Experience – SGE), přičemž v angličtině v USA došlo ke snížení latence o 40 % a zároveň ke zlepšení kvality.

Budování s Gemini

Od 13. prosince mohou vývojáři a firemní zákazníci přistupovat ke službě Gemini Pro prostřednictvím rozhraní Gemini API v aplikaci Google AI Studio nebo Google Cloud Vertex AI.

Google AI Studio je bezplatný webový vývojářský nástroj, který pomáhá vývojářům a podnikovým zákazníkům rychle vytvářet prototypy a spouštět aplikace pomocí klíče API. Ve chvíli, kdy přijde čas na plně spravovanou platformu AI, Vertex AI umožňuje přizpůsobení Gemini s plnou kontrolou dat a využívá další funkce Google Cloud pro podnikové zabezpečení, bezpečnost, ochranu soukromí a správu dat a dodržování předpisů.

Vývojáři pro systém Android budou také moci tvořit s Gemini Nano, naším nejefektivnějším modelem pro úlohy na zařízení, prostřednictvím AICore. AICore je nová systémová funkce dostupná v systému Android 14, počínaje zařízeními Pixel 8 Pro. Zaregistrujte se k odběru novinek.

Gemini Ultra již brzy

U modelu Gemini Ultra v současné době dokončujeme rozsáhlé kontroly důvěryhodnosti a bezpečnosti, včetně red-teamingu důvěryhodnými externími stranami, a před jeho uvedením na trh jej dále zdokonalujeme pomocí jemného dolaďování a posilování učení z lidské zpětné vazby (RLHF).

V rámci tohoto procesu zpřístupníme Gemini Ultra vybraným zákazníkům, vývojářům, partnerům a odborníkům na bezpečnost a odpovědnost pro počáteční experimentování a zpětnou vazbu, než jej začátkem příštího roku široce zpřístupníme vývojářům a podnikovým zákazníkům.

Začátkem příštího roku také spustíme Bard Advanced, nové, špičkové rozhraní s umělou inteligencí, které vám poskytne přístup k našim nejlepším modelům, počínaje modelem Gemini Ultra.

Éra Gemini: Budoucnost plná inovací

Jedná se o významný milník ve vývoji umělé inteligence a začátek nové éry pro nás ve společnosti Google, kdy budeme pokračovat v rychlých inovacích a zodpovědném rozvoji schopností našich modelů.

Na modelu Gemini jsme zatím udělali neuvěřitelný pokrok a usilovně pracujeme na dalším rozšiřování jeho schopností pro budoucí verze, včetně pokroku v plánování a paměti, zvětšení kontextového okna pro zpracování ještě většího množství informací a poskytování lepších reakcí.

Jsme nadšeni úžasnými možnostmi světa zodpovědně využívajícího umělou inteligenci - budoucnost plnou inovací, které zvýší kreativitu, rozšíří znalosti, přispějí k vědeckým pokrokům a změní způsob života a práce miliard lidí na celém světě.

Zveřejněno v: