Toegankelijkheid

The Keyword Nederland

Gemini verlegt grenzen: snellere modellen, langere context en AI-assistenten

Gemini verlegt grenzen: snellere modellen, langere context en AI-assistenten

14 mei 2024

We introduceren een aantal nieuwe modellen in de Gemini-modellenfamilie, waaronder 1.5 Flash, ons snelste en meest kostenefficiënte model tot nu toe.

Demis_headshot

Demis Hassabis

CEO and Co-Founder, Google DeepMind

Een grafische voorstelling van een neuraal netwerk

Afgelopen december lanceerden we ons eerste native multimodaal model Gemini 1.0 in 3 formaten: Ultra, Pro en Nano. Slechts een paar maanden later lanceerden we 1.5 Pro met krachtiger prestaties en het langste contextvenster (1 miljoen tokens) van alle grootschalige funderingsmodellen tot nu toe.

Ontwikkelaars en zakelijke klanten hebben 1.5 Pro op fantastische manieren benut. Ze vinden het lange contextvenster, de multimodale redeneringscapaciteiten en de indrukwekkende algemene prestaties ontzettend nuttig.

Op basis van gebruikersfeedback weten we dat bepaalde toepassingen minder vertraging en lagere gebruikskosten vereisen. Dat is waarom we Gemini 1.5 Flash introduceren: een lichtergewicht model dan 1.5 Pro, bedoeld om kostenefficiënt en snel op grote schaal te zijn.

Zowel 1.5 Flash als 1.5 Pro zijn beschikbaar in een publieke preview met 1 miljoen tokens op Vertex AI. Een versie met 2 miljoen tokens is beschikbaar voor API-gebruikers via een wachtlijst en voor klanten van Google Cloud.

Naast een aantal updates van onze Gemini-modellenfamilie, hebben we ook voor het eerst Project Astra laten zien. Dit is ons nieuwe onderzoeksprototype waarmee we onze visie voor de toekomst van AI-assistenten tentoonstellen.

Een vergelijking tussen de contextvensters van verschillende modellen

Overzicht van modellen

Gemini 1.5 Flash: geoptimaliseerd voor snelheid en efficiëntie

1.5 Flash is het nieuwste model in de Gemini-familie, geoptimaliseerd voor taken met hoge volumes en hoge frequenties op grote schaal en is kostenefficiënter in gebruik, terwijl het een groot contextvenster heeft. Het is het snelste model dat beschikbaar is via de API.

Hoewel het een lichter model is dan de 1.5 Pro, is het zeer goed in staat om multimodaal te redeneren over grote hoeveelheden informatie en levert het een indrukwekkende kwaliteit voor zijn formaat.

1.5 Flash blinkt uit in samenvattingen, chattoepassingen, ondertiteling van afbeeldingen en video's, gegevensextractie uit lange documenten en tabellen, en meer. Dit komt omdat het door 1.5 Pro is getraind via een proces dat ‘destillatie’ wordt genoemd, waarbij de meest essentiële kennis en vaardigheden van een groter model worden overgebracht naar een kleiner, efficiënter model.

Een overzicht van Gemini Flash

Een significant verbeterd 1.5 Pro

De afgelopen maanden hebben we 1.5 Pro, ons beste model voor algemene prestaties bij een breed scala aan taken, aanzienlijk verbeterd. Naast het uitbreiden van het contextvenster naar 2 miljoen tokens, hebben we de codegeneratie, logische redenering en planning, multi-turn conversatie en audio- en beeldbegrip verbeterd door middel van gegevens- en algoritmische verbeteringen.

De nieuwste versie van 1.5 Pro realiseert sterke verbeteringen op openbare benchmarks in verschillende domeinen, zoals redeneren en coderen, evenals ultramoderne prestaties op meerdere benchmarks voor het begrijpen van afbeeldingen en video's.

1.5 Pro kan nu steeds complexere en genuanceerdere instructies volgen, inclusief instructies die gedrag op productniveau specificeren, zoals rol, formaat en stijl. We hebben de controle over de reacties van het model voor specifieke gebruiksscenario’s verbeterd, zoals het opstellen van de persona en de reactiestijl van een chatagent of het automatiseren van workflows via meerdere functieaanroepen. En we hebben gebruikers in staat gesteld het modelgedrag te sturen door systeeminstructies in te stellen.

We hebben ook audiobegrip toegevoegd in de Gemini API en Google AI Studio, zodat 1.5 Pro nu kan redeneren over beeld en geluid in video's die zijn geüpload in Google AI Studio.

Gemini Nano begrijpt multimodale inputs

Gemini Nano breidt zich verder uit dan alleen tekstinvoer en omvat ook afbeeldingen. Pixel zal als eerste applicaties die Gemini Nano met Multimodality gebruiken de wereld kunnen begrijpen zoals mensen dat doen – niet alleen via tekst, maar ook via beeld, geluid en gesproken taal.

Lees meer over Gemini 1.0 Nano op Android.

De volgende generatie open modellen

Vandaag delen we ook een reeks updates voor Gemma, onze familie van open modellen die zijn opgebouwd op basis van hetzelfde onderzoek en dezelfde technologie die is gebruikt om de Gemini-modellen te maken.

We kondigen Gemma 2 aan, onze volgende generatie open modellen voor verantwoorde AI-innovatie. Gemma 2 heeft een nieuwe architectuur die is ontworpen voor baanbrekende prestaties en efficiëntie, en zal beschikbaar zijn in verschillende groottes.

De Gemma-familie breidt zich ook uit met PaliGemma, ons eerste visie-taalmodel geïnspireerd op PaLI-3. En we hebben onze Responsible Generative AI Toolkit geüpgraded met LLM Comparator voor het evalueren van de kwaliteit van modelreacties.

Lees meer op ons ontwikkelaarsblog.

Voortgang universele AI-assistenten

Als onderdeel van de missie van Google DeepMind om de mensheid te dienen door AI op een verantwoorde manier te ontwikkelen, hebben we altijd een universele AI-agent willen creëren die nuttig is voor het dagelijks leven.

Om echt nuttig te zijn, moet deze agent net als een mens de complexe, veranderende wereld begrijpen en erop kunnen reageren. Hij moet onthouden wat hij ziet om context te begrijpen en actie te ondernemen. Ook moet hij proactief, trainbaar en persoonlijk zijn, zodat gebruikers er zonder vertraging een natuurlijk gesprek mee kunnen voeren.

Hoewel we zeer ver zijn gekomen in het ontwikkelen van AI-systemen die multimodale informatie begrijpen, is het een grote technische uitdaging om de responstijden terug te brengen tot het niveau van een gesprek. Daarom hebben we de afgelopen jaren de manieren verbeterd waarop onze modellen waarnemen, onthouden, redeneren en gesprekken voeren om de snelheid en kwaliteit van interactie natuurlijker te maken.

Deze assistenten zijn gebouwd op ons Gemini-model en andere taakspecifieke modellen, en zijn ontworpen om informatie sneller te verwerken door continu videoframes te coderen, de video- en spraakinvoer te combineren in een tijdlijn met gebeurtenissen en deze informatie in de cache op te slaan om efficiënt op te roepen.

Door gebruik te maken van onze toonaangevende spraakmodellen hebben we ook de manier waarop ze klinken verbeterd, waardoor de agenten een breder scala aan intonaties krijgen. Deze agenten kunnen de context waarin ze worden gebruikt beter begrijpen en snel reageren in gesprekken.

Het is gemakkelijk om je een toekomst voor te stellen waarin je via je telefoon of bril een deskundige assistent aan je zijde kunt hebben. Sommige van deze mogelijkheden komen later dit jaar naar Google-producten, zoals de Gemini-app.

Constant op zoek naar nieuwe ideeën

We hebben tot nu toe ongelooflijke vooruitgang geboekt met onze familie Gemini-modellen, en we streven er altijd naar om de state-of-the-art nog verder te verbeteren. Door te investeren in een meedogenloze productielijn van innovatie, kunnen we nieuwe ideeën verkennen op het gebied van grensverleggende ontwikkelingen, terwijl we ook de mogelijkheid van nieuwe en opwindende Gemini-gebruiksscenario's ontsluiten.

GEPLAATST IN: