Toegankelijkheid

The Keyword Nederland

Google introduceert Gemini 2.0: gebouwd voor AI-agents

[]

Google introduceert Gemini 2.0: gebouwd voor AI-agents

11 dec 2024

koray

Koray Kavukcuoglu

CTO of Google DeepMind

Demis_headshot

Demis Hassabis

CEO and Co-Founder, Google DeepMind

Abstracte afbeelding met daarop de tekst Gemini 2.0

Het afgelopen jaar hebben we ongelooflijke vooruitgang geboekt op het gebied van artificial intelligence. Vandaag brengen we het eerste model uit van de reeks modellen van Gemini 2.0 - een experimentele versie van Gemini 2.0 Flash, ons werkpaardmodel met lage latency en verbeterde prestaties met onze geavanceerde technologie, op schaal.

We delen ook onze vorderingen op het gebied van agentisch onderzoek door prototypes te tonen die mogelijk zijn dankzij de multimodale mogelijkheden van Gemini 2.0.

Gemini 2.0 Flash

Gemini 2.0 Flash bouwt voort op het succes van 1.5 Flash, ons populairste model voor ontwikkelaars tot nu toe, met verbeterde prestaties met dezelfde snelle responstijden. Met een twee keer zo hoge snelheid presteert 2.0 Flash zelfs beter dan 1.5 Pro op belangrijke benchmarks. 2.0 Flash biedt ook nieuwe mogelijkheden. Naast ondersteuning voor multimodale invoer zoals afbeeldingen, video en audio, ondersteunt 2.0 Flash nu ook multimodale uitvoer zoals native gegenereerde afbeeldingen met tekst en bestuurbare tekst-naar-spraak (TTS) in audio voor meerdere talen. Het kan ook tools zoals Google Search gebruiken, code uitvoeren en door gebruiker gedefinieerde functies van derden gebruiken.

Vergelijking in prestaties tussen de verschillende modellen

Ons doel is om onze modellen veilig en snel door mensen in gebruik te laten nemen. In de afgelopen maand hebben we vroege, experimentele versies van Gemini 2.0 gedeeld en we hebben goede feedback gekregen van ontwikkelaars.

Gemini 2.0 Flash is nu beschikbaar als experimenteel model voor ontwikkelaars via de Gemini API in Google AI Studio en Vertex AI met multimodale invoer en tekstuitvoer beschikbaar voor alle ontwikkelaars , tekst-naar-spraak en native beeldgeneratie beschikbaar voor partners met vroege toegang. In juni wordt het model algemeen beschikbaar in verschillende modelgroottes.

Om ontwikkelaars te helpen dynamische en interactieve toepassingen te bouwen, brengen we ook een nieuwe Multimodal Live API uit die beschikt over realtime audio, videostreaming-input en de mogelijkheid om meerdere, gecombineerde tools te gebruiken. Meer informatie over 2.0 Flash en de Multimodal Live API is te vinden op onze blog voor ontwikkelaars.

Gemini 2.0 beschikbaar in de Gemini-app, onze AI-assistent

Vanaf vandaag hebben Gemini-gebruikers wereldwijd toegang tot een versie van 2.0 Flash Experimental die geoptimaliseerd is voor chatten. Gebruikers kunnen deze versie selecteren in het dropdownmenu van het model op hun desktop en mobiel web. Binnenkort is het model ook beschikbaar in de mobiele app van Gemini. Met dit nieuwe model kunnen gebruikers een nog behulpzamere Gemini-assistent ervaren.

Begin volgend jaar breiden we Gemini 2.0 uit naar meer Google-producten.

Agentische ervaringen ontsluiten met Gemini 2.0

De native mogelijkheden van de gebruikersinterface van de Gemini 2.0 Flash samen met andere verbeteringen zoals multimodaal redeneren, het begrijpen van lange contexten, het volgen en plannen van complexe instructies, compositionele functieaanroepen, native toolgebruik en verbeterde latentie, werken allemaal samen om een nieuwe klasse van agentische ervaringen mogelijk te maken.

De praktische toepassing van AI-agents is een onderzoeksgebied vol opwindende mogelijkheden. We verkennen deze nieuwe wereld met een reeks prototypes die mensen kunnen helpen taken uit te voeren en dingen gedaan te krijgen. Onderdeel hiervan is een update van Project Astra, ons prototype voor onderzoek dat de toekomstige mogelijkheden van een universele AI-assistent verkent; het nieuwe Project Mariner, dat de toekomst van de interactie tussen mens en AI-agent verkent, te beginnen met je browser; en Jules, een AI-gestuurde agent op het gebied van programmeren die ontwikkelaars kan helpen.

We zitten nog in het beginstadium van de ontwikkeling, maar we zijn benieuwd hoe betrouwbare testers deze nieuwe mogelijkheden gebruiken en wat we daarvan kunnen leren, zodat we ze in de toekomst op grotere schaal beschikbaar kunnen maken in producten.

Project Astra: agents die multimodaal kennis toepassen in de echte wereld

Nadat we Project Astra hebben geïntroduceerd op I/O, hebben we veel geleerd van betrouwbare testers die het op Android-telefoons gebruiken. Dankzij hun waardevolle feedback begrijpen we beter hoe een universele AI-assistent in de praktijk zou kunnen werken, inclusief de implicaties ervan voor veiligheid en ethiek. Verbeteringen in de nieuwste versie die is ontwikkeld met Gemini 2.0, zijn onder andere:

Betere dialoog: Project Astra kan nu praten in meerdere talen en in verschillende talen tegelijk, eb begrijpt accenten en ongebruikelijke woorden beter.
Gebruik van nieuwe tools: Met Gemini 2.0 kan Project Astra Google Search, Lens en Maps gebruiken, waardoor het nuttiger wordt als assistent in je dagelijks leven.
Verbeterd geheugen: We hebben het vermogen van Project Astra om dingen te onthouden verbeterd, terwijl jij de controle behoudt. Het heeft nu tot 10 minuten geheugen per sessie en kan meer van je voorgaande gesprekken onthouden, zodat het beter op jou is afgestemd.
Verbeterde latentie: Dankzij nieuwe streamingmogelijkheden en native begrip van audio kan de agent taal begrijpen met ongeveer dezelfde latentie van een gesprek tussen mensen.

We werken eraan om dit soort mogelijkheden toe te passen op Google-producten zoals de Gemini-app, onze AI-assistent, en op andere vormfactoren zoals brillen. En we beginnen ons betrouwbare tester-programma uit te breiden naar meer mensen, waaronder een kleine groep die binnenkort begint met het testen van Project Astra op een prototype van een bril.

GEPLAATST IN: