Wir stellen Gemini 2.0 vor: unser neues Modell für die Ära der KI-Agenten
Eine Mitteilung von Google und Alphabet CEO Sundar Pichai:
Information ist das Herzstück des menschlichen Fortschritts. Deshalb konzentrieren wir uns seit über 26 Jahren auf unsere Mission, die Informationen der Welt zu organisieren und für alle Menschen zugänglich und nutzbar zu machen. Und aus diesem Grund setzen wir weiterhin alles daran, die Grenzen der KI zu erweitern, um diese Informationen - egal in welcher Form - zu organisieren und über verschiedene Wege zugänglich zu machen, damit sie wirklich hilfreich für euch sind.
Das war unsere Vision, als wir im vergangenen Dezember Gemini 1.0 eingeführt haben. Gemini 1.0 und 1.5, die ersten Modelle die nativ multimodal entwickelt wurden, brachten große Fortschritte bei Multimodalität und langem Kontext, um Informationen in Texten, Videos, Bildern, Audio und Code zu verstehen und viel mehr davon zu verarbeiten.
Heute arbeiten Millionen von Entwickler*innen mit Gemini. Und es hilft uns, all unsere Produkte – einschließlich der sieben Produkte mit jeweils zwei Milliarden Nutzer*innen – neu zu überdenken und neu zu konzipieren. NotebookLM ist ein großartiges Beispiel dafür, was Multimodalität und langer Kontext für Menschen ermöglichen kann und warum so viele davon begeistert sind.
Im letzten Jahr haben wir stark in die Entwicklung von KI-Agenten investiert, das heißt, sie können mehr über die Welt um euch herum verstehen, mehrere Schritte im Voraus denken und in eurem Auftrag Aufgaben erledigen – und das alles kontrolliert durch euch.
Heute freuen wir uns, die nächste Ära von Modellen einzuläuten, die für diese neue Ära der KI-Agenten entwickelt wurden: Gemini 2.0, unser bisher leistungsfähigstes Modell. Mit neuen Fortschritten in der Multimodalität – wie nativem Bild- und Audio-Output – und nativer Tool-Nutzung können wir neue KI-Agenten entwickeln, die uns unserer Vision eines universellen Assistenten näherbringen.
Wir geben 2.0 heute in die Hände von Entwickler*innen und Trusted Testern. Und wir arbeiten schnell daran, es in unsere Produkte zu integrieren, beginnend mit Gemini und der Google Suche. Ab heute wird unser experimentelles Modell Gemini 2.0 Flash allen Gemini-Nutzer*innen zur Verfügung stehen. Wir führen auch eine neue Funktion namens “Deep Research” ein, die fortschrittliche Fähigkeiten im logischen Schlussfolgern und ein langes Kontextverständnis nutzt, um als Assistent für eure Recherche zu agieren und komplexe Themen zu erkunden sowie Berichte in eurem Auftrag zu erstellen. Gemini 2.0 Flash ist ab heute in Gemini Advanced verfügbar.
Kein Produkt wurde stärker von KI transformiert als die Google Suche. Unsere Übersichten mit KI erreichen jetzt global 1 Milliarde Menschen und ermöglichen es euch, völlig neue Arten von Fragen zu stellen – und dies entwickelt sich schnell zu einer unserer beliebtesten Suchfunktionen aller Zeiten. Als nächsten Schritt fügen wir die fortschrittliche Fähigkeiten im logischen Schlussfolgern von Gemini 2.0 zu Übersichten mit KI hinzu, um komplexere Themen und mehrstufige Fragen zu behandeln, einschließlich fortschrittlicher mathematischer Gleichungen, multimodaler Abfragen und Coding. Wir haben diese Woche mit eingeschränkten Tests begonnen und werden sie Anfang nächsten Jahres auf einer breiteren Ebene einführen. Außerdem werden wir im nächsten Jahr Übersichten mit KI in mehr Ländern und Sprachen bereitstellen.
Die Fortschritte von Gemini 2.0 basieren auf jahrzehntelangen Investitionen in unseren differenzierten Full-Stack-Ansatz für KI-Innovationen. Dies basiert auf maßgeschneiderter Hardware wie Trillium, unseren TPUs der sechsten Generation. TPUs haben 100 % des Trainings und der Inferenz von Gemini 2.0 gestützt, und heute ist Trillium allgemein für Kund*innen erhältlich, damit sie es auch zur Erstellung verwenden können.
Wenn es bei Gemini 1.0 darum ging, Informationen zu systematisieren und zu verstehen, geht es bei Gemini 2.0 darum, sie viel hilfreicher zu machen. Ich kann es kaum erwarten zu sehen, was diese nächste Ära mit sich bringt.
-Sundar
Im vergangenen Jahr haben wir im Bereich der künstlichen Intelligenz weiterhin große Fortschritte gemacht. Heute veröffentlichen wir das erste Modell der Gemini 2.0-Modellfamilie: eine experimentelle Version von Gemini 2.0 Flash. Es ist unser Arbeitsmodell mit geringer Latenz und verbesserter Leistung auf dem neuesten Stand unserer Technologie.
Wir zeigen neue Grenzen unserer Forschung an KI-Agenten, indem wir Prototypen präsentieren, die durch die nativen multimodalen Fähigkeiten von Gemini 2.0 ermöglicht werden.
Gemini 2.0 Flash
Gemini 2.0 Flash baut auf dem Erfolg von 1.5 Flash auf, unserem bisher beliebtesten Modell für Entwickler*innen, mit verbesserter Leistung bei ähnlich schnellen Reaktionszeiten. Bemerkenswert ist, dass 2.0 Flash bei wichtigen Benchmarks sogar doppelt so schnell ist wie 1.5 Pro. 2.0 Flash bietet auch neue Funktionen – es unterstützt nicht nur multimodale Eingaben wie Bilder, Video und Audio, sondern auch multimodale Ausgaben wie nativ generierte Bilder gemischt mit Text und steuerbarer Sprachausgabe in mehreren Sprachen. Außerdem kann 2.0 Flash auch nativ Tools wie die Google Suche, die Codeausführung sowie benutzerdefinierte Funktionen von Drittanbietern aufrufen.
Unser Ziel ist es, unsere Modelle sicher und schnell für alle verfügbar zu machen. Im vergangenen Monat haben wir frühe, experimentelle Versionen von Gemini 2.0 veröffentlicht und dabei viel Feedback von Entwickler*innen erhalten.
Gemini 2.0 Flash ist ab sofort als experimentelles Modell für Entwickler*innen über die Gemini-API in Google AI Studio und Vertex AI zugänglich, mit multimodaler Eingabe, Text und Sprachausgabe sowie nativer Bilderzeugung für ausgewählte Tester. Die allgemeine Verfügbarkeit wird im Januar zusammen mit weiteren Modellgrößen folgen.
Um Entwickler*innen bei der Erstellung dynamischer und interaktiver Anwendungen zu unterstützen, veröffentlichen wir außerdem eine neue Multimodal Live API mit Echtzeit-Audio, Video-Streaming-Eingabe und der Möglichkeit, mehrere, kombinierte Tools zu verwenden. Weitere Informationen über Flash 2.0 und die Multimodal Live API findet ihr auf unserem Developer Blog.
Gemini 2.0 verfügbar in unserem KI-Assistenten Gemini
Ab heute können Gemini Nutzer*innen weltweit außerdem auf eine für Chats optimierte Version von 2.0 Flash Experimental zugreifen, indem sie diese im Dropdown-Menü zur Auswahl der Gemini-Modelle auf Desktop und im mobilen Browser auswählen; sie wird in Kürze auch in der Gemini App verfügbar sein. Mit diesem neuen Modell können Nutzer*innen einen noch hilfreicheren KI-Assistenten erleben.
Anfang nächsten Jahres werden wir Gemini 2.0 auf weitere Google-Produkte ausweiten.
Neue Möglichkeiten für KI-Agenten mit Hilfe von Gemini 2.0
Die native Benutzeroberfläche von Gemini 2.0 Flash ist jetzt noch besser und hat ganz neue Handlungsmöglichkeiten. Dynamische Analysefähigkeiten, langes Kontextverständnis, die Fähigkeit, komplexe Anweisungen und Pläne auszuführen, kompositorisches Aufrufen von Funktionen, nativer Einsatz von Tools und verbesserte Latenzzeiten wirken zusammen und machen neue auf KI-Agenten basierende Erfahrungen möglich.
Die praktische Anwendung von KI-Agenten ist ein Forschungsgebiet voller spannender Möglichkeiten. Wir erforschen dieses neue Gebiet mit einer Reihe von Prototypen, die Menschen dabei helfen können, Aufgaben zu erledigen. Dazu gehören ein Update von Project Astra, unserem Forschungsprototyp, der die zukünftigen Fähigkeiten eines universellen KI-Assistenten erforscht, das neue Project Mariner, das, beginnend mit eurem Browser, die Zukunft der Interaktion von Menschen und KI-Agenten erforscht, und Jules, ein KI-gestützter Code-Agent, der Entwickler*innen unterstützen kann.
Wir befinden uns noch in einem frühen Entwicklungsstadium, aber wir sind gespannt darauf, wie Trusted Tester diese neuen Funktionen nutzen und was wir daraus lernen können, damit wir sie zukünftig in mehr Produkten verfügbar machen können.
Project Astra: KI-Agenten mit multimodalem Verständnis in der realen Welt
Seit wir Project Astra auf der I/O vorgestellt haben, haben wir Feedback von Trusted Testern erhalten, die es auf Android-Telefonen verwenden. Das hat uns geholfen, besser zu verstehen, wie ein universeller KI-Assistent in der Praxis funktionieren könnte, einschließlich der Auswirkungen auf Sicherheit und Ethik. Zu den Verbesserungen in der neuesten Version, die mit Gemini 2.0 erstellt wurde, gehören:
- Verbesserte Dialoge: Project Astra kann sich jetzt in mehreren Sprachen und in gemischten Sprachen unterhalten und versteht dabei Akzente und ungewöhnliche Wörter besser.
- Verwendung neuer Tools: Mit Gemini 2.0 kann Project Astra die Google Suche, Google Lens und Google Maps nutzen, was es als Assistenten im Alltag noch nützlicher macht.
- Besseres Gedächtnis: Wir haben die Fähigkeit von Project Astra verbessert, sich Dinge zu merken, während ihr weiterhin die Kontrolle behaltet. Es verfügt jetzt über einen Speicher von bis zu 10 Minuten und kann sich an mehr Gespräche erinnern, die ihr geführt habt, sodass es besser auf euch zugeschnitten ist.
- Verbesserte Latenzzeit: Mit den neuen Streaming-Funktionen und dem nativen Audio-Verständnis kann der KI-Agent Sprache mit einer Latenz verstehen, die einer menschlichen Konversation entspricht.
Wir arbeiten daran, diese Art von Funktionen in Google-Produkte wie unseren KI-Assistenten Gemini und in andere Formfaktoren wie Brillen zu integrieren. Und wir beginnen damit, unser Programm für Trusted Tester auf weitere Personen auszuweiten. Dazu zählt auch eine kleine Gruppe, die in Kürze damit beginnen wird, Project Astra auf Prototyp-Brillen zu testen.
Project Mariner: KI-Agenten, die euch helfen, komplexe Aufgaben zu erledigen
Project Mariner ist ein früher Forschungsprototyp, der mit Gemini 2.0 erstellt wurde und die Zukunft der Interaktion von Menschen und KI-Agenten erforscht, beginnend mit eurem Browser. Als Forschungsprototyp ist Project Mariner in der Lage, Informationen in eurem Browserfenster zu verstehen und zu verarbeiten. Dazu zählen auch Pixel und Webelemente wie Text, Code, Bilder und Formulare. Anschließend nutzt es diese Informationen über eine experimentelle Chrome-Erweiterung, um Aufgaben für euch zu erledigen.
Beim Vergleich mit der WebVoyager-Benchmark, die die Leistung von KI-Agenten bei End-to-End-Aufgaben in der realen Welt testet, erreichte Project Mariner ein Spitzenergebnis von 83,5 % bei der Arbeit als Single Agent Setup.
Project Mariner steckt noch in den Kinderschuhen, aber es zeigt, dass es technisch in der Lage sein wird, in einem Browser zu navigieren. Auch wenn es zurzeit noch etwas ungenau und langsam bei der Aufgabenerledigung funktioniert, wird sich dies mit der Zeit schnell verbessern.
Um dabei sicher und verantwortungsvoll zu entwickeln, führen wir aktive Forschungen zu neuen Arten von Risiken durch und wie wir sie reduzieren können. Dabei beziehen wir auch Menschen in den Prozess mit ein. Zum Beispiel kann Project Mariner nur auf dem aktiven Tab eures Browsers tippen, scrollen oder klicken und bittet die Nutzer*innen um eine endgültige Bestätigung, bevor bestimmte sensible Aktionen durchgeführt werden, wie zum Beispiel ein Kauf.
Trusted Tester beginnen jetzt, Project Mariner mit einer experimentellen Chrome-Erweiterung zu testen, und wir gehen parallel mit dem Web-Ökosystem ins Gespräch.
Jules: KI-Agenten für Entwickler*innen
Darüber hinaus erforschen wir, wie KI-Agenten Entwickler*innen mit Jules helfen können – einem experimentellen, KI-gestützten Code-Agenten, der direkt in einen GitHub-Workflow integriert wird. Er kann ein Problem angehen, einen Plan entwickeln und ihn unter der Leitung und Aufsicht eines Entwicklers oder einer Entwicklerin ausführen. Dieses Vorhaben ist Teil unseres langfristigen Ziels, KI-Agenten zu entwickeln, die in allen Bereichen, einschließlich des Codings, hilfreich sind.
Mehr Informationen zu diesem laufenden Experiment findet ihr in unserem Developer-Blogpost
KI-Agenten in Spielen und anderen Bereichen
Google DeepMind hat eine lange Historie, Spiele für das Verbessern von KI-Modellen hinsichtlich des Befolgens von Regeln, der Planung und Logik zu verwenden. Erst letzte Woche haben wir zum Beispiel Genie 2 eingeführt, unser KI-Modell, das eine endlose Vielfalt an spielbaren 3D-Welten aus nur einem einzigen Bild erstellen kann. Auf dieser Tradition aufbauend haben wir KI-Agenten entwickelt, die Gemini 2.0 verwenden, und euch unterstützen, in der virtuellen Welt von Videospielen zu navigieren. Es kann das Spiel allein auf der Grundlage der Aktionen auf dem Bildschirm verstehen und in Echtzeit Vorschläge machen, was als Nächstes zu tun ist.
Wir arbeiten mit führenden Spieleentwickler*innen wie Supercell zusammen, um zu erforschen, wie diese KI-Agenten funktionieren, und testen ihre Fähigkeit, Regeln und Herausforderungen in einer Vielzahl von Spielen zu interpretieren. Dazu zählen Strategiespiele wie „Clash of Clans“ genauso wie Landwirtschafts-Simulatoren wie „Hay Day“.
Neben ihrer Rolle als virtuelle Spielbegleiter können diese KI-Agenten sogar auf die Google Suche zugreifen und euch so umfangreiches Wissen über Spiele aus dem Web präsentieren.
Zusätzlich zur Erforschung der Fähigkeiten von KI-Agenten in der virtuellen Welt experimentieren wir mit KI-Agenten, die in der realen Welt helfen können, indem die räumliche Denkfähigkeit von Gemini 2.0 auf die Robotik angewendet wird. Auch wenn sich diese Entwicklung noch am Anfang befindet, sind wir begeistert vom Potenzial der KI-Agenten, die uns in der realen Welt unterstützen können.
Weitere Informationen zu diesen Forschungsprototypen und Experimenten findet ihr unter labs.google.
Verantwortungsbewusstes Erstellen im Zeitalter von KI-Agenten
Gemini 2.0 Flash und unsere Forschungsprototypen ermöglichen es uns, neue Fähigkeiten an der Spitze der KI-Forschung zu testen und weiterzuentwickeln, die Google-Produkte letztendlich hilfreicher machen werden.
Während wir diese neuen Technologien entwickeln, sind wir uns der Verantwortung, die damit verbunden ist, und der vielen Fragen bewusst, die KI-Agenten in Bezug auf Sicherheit aufwerfen. Aus diesem Grund verfolgen wir bei der Entwicklung einen explorativen und schrittweisen Ansatz, führen Forschungen an mehreren Prototypen durch, implementieren schrittweise Sicherheitsschulungen, arbeiten mit Trusted Testern und externen Expert*innen zusammen und führen umfangreiche Risikobewertungen sowie Sicherheitsbewertungen durch.
Zum Beispiel:
- Im Rahmen unseres Sicherheitsprozesses haben wir mit unserem Responsibility and Safety Committee (RSC), unserer langjährigen internen Prüfgruppe, zusammengearbeitet, um potenzielle Risiken zu identifizieren und zu verstehen.
- Die Fähigkeiten von Gemini 2.0 zum logischen Schlussfolgern haben große Fortschritte in unserem KI-gestützten Red-Teaming-Ansatz ermöglicht, einschließlich der Fähigkeit, über die bloße Erkennung von Risiken hinauszugehen und jetzt automatisch Bewertungen und Trainingsdaten zu generieren, um diese zu mindern. Dies bedeutet, dass wir das Modell effizienter und umfangreich auf Sicherheit optimieren können.
- Da die Multimodalität von Gemini 2.0 die Komplexität potenzieller Outputs erhöht, werden wir die Bild- und Audioausgabe des Modells weiterhin evaluieren und trainieren, um zur Verbesserung der Sicherheit beizutragen.
- Mit Project Astra erforschen wir potenzielle Maßnahmen gegen die unbeabsichtigte Weitergabe sensibler Informationen an den KI-Agenten und haben bereits Datenschutzkontrollen integriert, die es den Nutzer*innen erleichtern, Sitzungen zu löschen. Wir forschen auch weiterhin nach Möglichkeiten, um sicherzustellen, dass KI-Agents als zuverlässige Informationsquellen agieren und keine unbeabsichtigten Handlungen in eurem Namen ausführen.
- Mit Project Mariner arbeiten wir daran, sicherzustellen, dass das Modell lernt, Nutzeranweisungen gegenüber Versuchen Dritter, Eingabeaufforderungen zu manipulieren, zu priorisieren, damit es potenziell bösartige Anweisungen aus externen Quellen identifizieren und Missbrauch verhindern kann. Dies verhindert, dass Nutzer*innen Betrug und Phishing-Versuchen ausgesetzt werden, wie z. B. bösartigen Anweisungen, die in E-Mails, Dokumenten oder Websites versteckt sind.
Wir sind fest davon überzeugt, dass der einzige Weg, KI zu entwickeln, darin besteht, von Anfang an verantwortungsbewusst zu handeln, und wir werden weiterhin die Sicherheit und Verantwortung als Schlüsselelement unseres Modellentwicklungsprozesses priorisieren, während wir unsere Modelle und KI-Agenten weiterentwickeln.
Gemini 2.0, KI-Agenten und mehr
Die heutigen Veröffentlichungen markieren ein neues Kapitel für unser Gemini-Modell. Mit der Veröffentlichung von Gemini 2.0 Flash und der Reihe von Forschungsprototypen, welche die Möglichkeiten von KI-Agenten erkunden, haben wir einen aufregenden Meilenstein in der Gemini-Ära erreicht. Wir freuen uns darauf, weiterhin alle neuen Möglichkeiten sicher zu erkunden, während wir auf AGI (Artificial General Intelligence) hinarbeiten.