Unsere Vision für die Entwicklung eines universellen KI-Assistenten

Im Laufe des letzten Jahrzehnts haben wir viele der Grundlagen für die moderne KI entwickelt, von der bahnbrechenden Transformer-Architektur, die das Fundament für alle Large Language-Modelle bildet, hin zu KI-Agentensystemen wie AlphaGo und AlphaZero.
Mit Hilfe dieser Technologie haben wir die Forschung in Bereichen wie Quantencomputing, Mathematik, Life Sciences und algorithmische Entdeckungen entscheidend vorangetrieben. Indem wir weiter in Grundlagenforschung, sowohl in der Breite als auch in der Tiefe, investieren, werden wir die nächsten Durchbrüche möglich machen, die für die allgemeine künstliche Intelligenz (Artificial General Intelligence, AGI) notwendig sind.
Aus diesem Grund arbeiten wir daran, unser bestes multimodales Foundation-Modell, Gemini 2.5 Pro, zu einem „Universalmodell“ zu machen. Dieses kann durch Simulation von unterschiedlichen Aspekten der Welt eigenständig Pläne entwickeln, neue Erlebnisse verstehen und simulieren – ganz so, wie es das menschliche Gehirn tut.
Aus unserer Sicht ist dies eher eine Weiter- statt einer Neuentwicklung. Dies hat unsere Pionierarbeit beim Trainieren von Agenten für die Beherrschung komplexer Spiele wie Go und StarCraft oder die Entwicklung von Genie 2 gezeigt, einem Modell, das anhand eines einzigen Bildprompts interaktive 3D-simulierte Umgebungen generieren kann.
Teile dieser neuen Technologien sind bereits heute verfügbar. Gemini ist in der Lage, das vorhandene Wissen der Welt und sein Urteilsvermögen zu nutzen, um die natürliche Umwelt zu visualisieren und zu simulieren, Auch Veo besitzt ein tiefes Verständnis für intuitive Physik. Und Gemini Robotics bringt Robotern bei, Gegenstände zu ergreifen, Anweisungen zu befolgen und sich dynamisch an neue Situationen anzupassen.
Die Transformation von Gemini in ein Universalmodell ist ein wichtiger Schritt bei der Entwicklung einer neuen, allgemeingültigeren und nützlicheren Art der KI – eines universellen KI-Assistenten. Dies ist eine Form von KI, die intelligent ist, den jeweiligen Kontext versteht und – egal, auf welcher Art von Gerät – für euch Aufgaben plant und erledigt.
Integration der Live-Funktionen von Project Astra in unsere Produkte
Unser Ziel ist es, Gemini zu einem universellen KI-Assistenten zu machen, der sich für uns um alltägliche Aufgaben kümmert, uns neue Dinge oder Herangehensweisen vorschlägt, uns produktiver macht und unser Leben bereichert.
Dies beginnt mit den Funktionen, mit denen wir letztes Jahr im Rahmen unseres Forschungsprototyps Project Astra experimentiert haben, wie Videoinhalte oder den geteilten Bildschirm zu verstehen sowie sich an diese Inhalte fast wie ein „Gedächtnis“ zu erinnern.
Wir haben seit letztem Jahr Funktionen in Gemini Live 1 integriert, wo sie von Nutzer*innen ausprobiert werden können. Wir verbessern diese stetig und ergänzen sie um neue Funktionen. Wir haben z. B. die Sprachausgabe natürlicher gestaltet und mit nativer Audioausgabe, besserem Gedächtnis und zusätzlicher Computersteuerung versehen.
Wir holen derzeit Feedback von ausgewählten Tester*innen ein und arbeiten daran, dieses in Gemini Live und neue Erlebnisse in der Google Suche und der Live API für Entwicklungszwecke, sowie in neue Geräte, wie Brillen, zu integrieren.
Bei jedem Schritt dieses Prozesses sind Sicherheit und Verantwortlichkeit zentrale Leitlinien unserer Arbeit. In unseren bisher größten Forschungsprojekten haben wir uns mit den ethischen Fragen rund um moderne KI-Assistenten beschäftigt und diese Arbeit bildet nach wie vor die Grundlage für unsere Forschung, Entwicklung und Bereitstellung der Produkten.
Entwicklung multitaskingfähiger KI
Im Rahmen von Project Mariner haben wir uns auch damit beschäftigt, wie Agierende-KI-Funktionen Menschen dabei helfen können, mehrere Dinge gleichzeitig zu erledigen. Dieser Forschungsprototyp widmet sich der Zukunft der Interaktion zwischen Mensch und KI-Agent, wobei zunächst Browser im Mittelpunkt der Entwicklung stehen.
Seit dem Start von Project Mariner letzten Dezember arbeiten wir eng mit einer Gruppe ausgewählter Testerinnen und Tester zusammen, um Feedback zu erhalten und die Entwicklungsphasen weiter zu verbessern.
Project Mariner bietet jetzt ein System von KI-Agenten, das bis zu zehn unterschiedliche Aufgaben gleichzeitig erledigen kann. Diese Agenten können u. a. beim Nachschlagen von Informationen, bei Reservierungsaufgaben, beim Einkaufen und bei der Recherche helfen – alles zur selben Zeit.
Das aktualisierte Project Mariner steht Nutzer*innen im Rahmen eines Google AI Ultra-Abos in den USA zur Verfügung. Wir arbeiten daran, einige seiner Funktionen in die Gemini API zu integrieren sowie im Laufe des Jahres in weiteren Google-Produkten verfügbar zu machen.
Mehr über die KI-Agenten-Funktionen in der Google Suche findet ihr in diesem Blogpost und mehr über die KI-Agenten-Funktionen in Gemini erfahrt ihr hier.
All dies sowie unsere gesamte wegweisende Arbeit tragen dazu bei, dass wir KI entwickeln, die persönlicher, proaktiver und leistungsfähiger ist, unser Leben reicher macht, den wissenschaftlichen Fortschritt beschleunigt und ein neues goldenes Zeitalter voller Entdeckungen und Wunder einläutet.