Google I/O 2024: eine I/O für eine neue Generation
Anmerkung der Redaktion: Nachfolgend findet ihr ein bearbeitetes Transkript von Sundar Pichais Eröffnungs-Keynote zur I/O 2024.
Google ist mittendrin in der Gemini-Ära.
Bevor wir einsteigen, möchte ich kurz den Moment reflektieren, in dem wir uns gerade befinden. Wir investieren seit mehr als einem Jahrzehnt in KI – und entwickeln Innovationen auf allen Ebenen: Forschung, Produkt, Infrastruktur. Darüber werden wir heute sprechen.
Dennoch stehen wir erst am Anfang des Plattformwandels durch KI. Wir sehen so viele Möglichkeiten für Kreative, für Entwickler*innen, Start-ups – für alle. Diese Möglichkeiten voranzutreiben, darum geht es in unserer Gemini-Ära. Also lasst uns anfangen.
Die Gemini-Ära
Vor einem Jahr haben wir auf der I/O-Bühne erstmals unsere Pläne für Gemini vorgestellt: ein zukunftsweisendes Modell, das von Anfang an multimodal konzipiert wurde und Text, Bilder, Videos, Code und mehr verarbeiten kann. Es stellt einen großen Schritt dar, jeden Input in einen beliebigen Output umzuwandeln – ein „I/O“ für eine neue Generation.
Seitdem haben wir die ersten Gemini-Modelle eingeführt, unsere bisher leistungsfähigsten. Sie zeigten in allen multimodalen Benchmarks Spitzenleistungen. Zwei Monate später stellten wir Gemini 1.5 Pro vor, das einen großen Durchbruch bei langen Kontexten erzielte. Es kann 1 Million Token ausführen, und zwar konsistent, mehr als jedes andere große Basismodell bisher.
Wir möchten, dass alle von dem profitieren, was Gemini leisten kann. Deshalb haben wir uns bemüht, diese Fortschritte schnellstmöglich mit euch allen zu teilen. Heute nutzen mehr als 1,5 Millionen Entwickler*innen Gemini-Modelle in unseren Tools. Sie verwenden sie, um Code zu debuggen, neue Erkenntnisse zu gewinnen und die nächste Generation von KI-Anwendungen zu entwickeln.
Wir haben auch die bahnbrechenden Fähigkeiten von Gemini auf beeindruckende Weise in unsere Produkte integriert. Wir zeigen heute Beispiele für die Google Suche, Google Fotos, Workspace, Android und mehr.
Fortschritte bei unseren Produkten
Alle unsere Produkte, die von mehr als zwei Milliarden Nutzerinnen und Nutzer genutzt werden, greifen auf Gemini zurück.
Und wir haben einiges Neues in petto, unter anderem können Nutzerinnen und Nutzer nun auf ihren Mobilgeräten unter Android und iOS Gemini direkt über die App verwenden. Und über Gemini Advanced, das unsere leistungsfähigsten Modelle nutzt. Über eine Million Menschen haben sich innerhalb von nur drei Monaten angemeldet, um es auszuprobieren, und wir sehen weiterhin großes Interesse.
Erweiterung der KI-basierten Übersichten in der Google Suche
Eine der aufregendsten Veränderungen mit Gemini fand in der Google Suche statt.
Im vergangenen Jahr haben wir im Rahmen unserer Search Generative Experience Milliarden von Anfragen beantwortet. Nutzer*innen haben die neue Test-Funktion genutzt, um auf völlig neue Weise zu suchen, andere Arten von Fragen zu stellen und noch längere und komplexere Suchanfragen zu stellen – sogar mit Fotos zu suchen – und haben das Relevanteste aus dem Web angezeigt bekommen.
Wir haben dieses Funktion außerhalb von Labs getestet und festgestellt, dass nicht nur die Nutzung der Suche zunimmt, sondern auch die Nutzerzufriedenheit steigt.
Daher freue ich mich, bekannt zu geben, dass wir diese Woche mit der Einführung der sogenannten KI-basierten Übersichten, für alle in den USA starten werden. Und sie auch schon bald in weitere Länder bringen werden.
Es gibt so viele Innovationen in der Google Suche. Dank Gemini können wir viel leistungsfähigere Sucherlebnisse schaffen, auch innerhalb unserer Produkte.
Wir stellen vor: Ask Photos
Ein Beispiel ist Google Fotos, das wir vor fast neun Jahren gestartet haben. Seitdem nutzen Menschen es, um ihre wichtigsten Erinnerungen zu organisieren. Heute sind das mehr als 6 Milliarden Fotos und Videos, die jeden Tag hochgeladen werden.
Und Menschen lieben es, ihre Erinnerungen mit Google Fotos festzuhalten. Mit Gemini könnt ihr jetzt schöne Momente in Google Fotos noch einfacher finden.
Angenommen, ihr seid in San Francisco und bezahlt am Parkscheinautomaten, könnt euch aber nicht an euer Nummernschild erinnern. Früher konntet ihr Fotos nach Schlüsselwörtern durchsuchen und dann durch uralte Fotos scrollen, um nach Nummernschildern zu suchen. Jetzt könnt ihr einfach die Funktion „Ask Photos“ (im Deutschen: „Google Fotos fragen“) nutzen – es erkennt, welche Autos ihr häufig fotografiert habt und teilt euch das Nummernschild mit.
Und Ask Photos kann euch dabei helfen, tiefer in eure Erinnerungen einzutauchen. Vielleicht erinnert ihr euch zum Beispiel an die ersten Meilensteine eurer Tochter Lucia. Jetzt könnt ihr Fotos fragen: „Wann hat Lucia schwimmen gelernt?“
Und ihr könnt noch etwas Komplexeres hinzufügen: „Zeige mir, wie Lucias Schwimmen sich entwickelt hat.“
Hier geht Gemini über eine einfache Suche hinaus und erkennt verschiedene Kontexte – vom Bahnenziehen im Pool über das Schnorcheln im Meer bis hin zu Texten und Daten auf den Schwimmabzeichen. Google Fotos fasst alles in einer Übersicht zusammen, sodass ihr die Ergebnisse auf euch wirken lassen und tolle Erinnerungen noch einmal erleben könnt. Wir führen Ask Photos diesen Sommer ein, weitere Funktionen folgen in Kürze.
Schafft euch Zugang zu mehr Wissen dank Multimodalität und langem Kontext
Die Möglichkeit, sich über verschiedene Formate hinweg Wissen zu erschließen, ist der Grund, warum wir Gemini von Grund auf multimodal aufgebaut haben. Es handelt sich um ein einziges Modell, integriert mit all den Modalitäten. Es versteht also nicht nur jede Art von Eingabe – es findet auch Verbindungen zwischen ihnen.
Multimodalität erweitert die Fragen, die wir stellen können, und die Antworten, die wir zurückbekommen.
Der lange Kontext macht das nochmal besser und ermöglicht es uns, noch mehr Informationen einzubringen:
hunderte Seiten Text, Stunden von Audiospuren oder eine Stunde Video, ganze Code-Repos … oder, wenn ihr möchtet, ungefähr 96 Cheesecake Factory-Menüs.
Für so viele Menüs benötigt ihr ein Kontextfenster mit einer Million Token, was jetzt mit Gemini 1.5 Pro möglich ist. Entwickler*innen haben es auf äußerst interessante Weise genutzt.
Wir haben in den letzten Monaten Gemini 1.5 Pro mit langem Kontext in der Vorschau eingeführt. Wir haben eine Reihe von Qualitätsverbesserungen in den Bereichen Übersetzung, Coding und Argumentation vorgenommen. Ab heute werdet ihr sehen, dass sich diese Aktualisierungen im Modell widerspiegeln.
Jetzt freue ich mich, euch mitteilen zu können, dass wir diese verbesserte Version von Gemini 1.5 Pro Entwickler*innen weltweit zur Verfügung stellen. Darüber hinaus ist Gemini 1.5 Pro mit 1 Million Kontext jetzt direkt für Nutzer*innen in Gemini Advanced verfügbar und kann in 35 Sprachen verwendet werden.
Erweiterung auf 2 Millionen Token in der privaten Vorschau
Eine Million Token eröffnen völlig neue Möglichkeiten. Es ist aufregend, aber ich denke, wir können uns noch weiter steigern.
Deshalb erweitern wir heute das Kontextfenster auf 2 Millionen Token und stellen es Entwickler*innen in der privaten Vorschau zur Verfügung.
Es ist toll, zurückzublicken und zu sehen, wie viele Fortschritte wir in ein paar Monaten gemacht haben. Und es ist ein weiterer Schritt auf unserer Reise zum ultimativen Ziel eines unendlichen Kontexts.
Wir bringen Gemini 1.5 Pro in Workspace
Bisher haben wir über zwei technische Fortschritte gesprochen: Multimodalität und langen Kontext. Jeder für sich ist beeindruckend. Aber gemeinsam erschließen sie tiefere Fähigkeiten und mehr Intelligenz.
Das wird in Google Workspace sichtbar.
Unsere Nutzer*innen durchsuchen ständig ihre E-Mails in Gmail. Wir arbeiten daran, Gemini noch leistungsfähiger zu machen. Als Elternteil möchtet ihr beispielsweise über alles informiert sein, was in der Schule eures Kindes vor sich geht. Gemini kann euch helfen, auf dem Laufenden zu bleiben.
Jetzt können wir Gemini bitten, alle aktuellen E-Mails der Schule zusammenzufassen. Im Hintergrund werden relevante E-Mails identifiziert und sogar Anhänge wie PDFs analysiert. Ihr erhaltet eine Zusammenfassung der wichtigsten Punkte und Aktionen. Vielleicht seid ihr diese Woche unterwegs gewesen und konntet nicht zum Elternabend kommen. Die Aufzeichnung des Treffens dauert eine Stunde. Wenn sie von Google Meet stammt, könnt ihr Gemini bitten, euch die Highlights zu nennen. Es gibt eine Elterngruppe, die nach Freiwilligen sucht, und ihr habt an diesem Tag Zeit. Gemini kann natürlich eine Antwort verfassen.
Es gibt unzählige weitere Beispiele, wie Gemini das Leben einfacher imachen kann. Gemini 1.5 Pro ist ab heute in Workspace Labs verfügbar. Meine Kollegin Aparna teilt hier mehr Details.
Audioausgänge in NotebookLM
Wir haben uns gerade ein Beispiel mit Textausgaben angesehen. Aber mit einem multimodalen Modell können wir noch viel mehr tun.
Wir machen hier Fortschritte, und es werden noch weitere folgen. Audioübersichten in NotebookLM zeigen den Fortschritt. Es verwendet Gemini, um eure Quellmaterialien zu nutzen und eine personalisierte und interaktive Audiokonversation zu generieren.
Das ist die Chance der Multimodalität. Bald könnt ihr Ein- und Ausgänge kombinieren und anpassen. Das meinen wir, wenn wir sagen, dass es sich um eine I/O für eine neue Generation handelt. Aber was wäre, wenn wir noch weiter gehen könnten?
Mit KI-Agenten noch weiter gehen
Wenn wir all das weiterdenken, sehen wir die Möglichkeiten, die KI-Agenten mit sich bringen könnten. Ich betrachte sie als intelligente Systeme, die sich durch Denkvermögen, Planung und Gedächtnis auszeichnen, mehrere Schritte vorausdenken können, software- und systemübergreifend arbeiten, alles, um etwas für euch zu erledigen und vor allem unter eurer Aufsicht.
Wir stecken noch in den Anfängen, aber lasst mich euch zeigen, an welchen Anwendungsfällen wir zur Zeit arbeiten.
Beginnen wir mit dem Einkaufen. Es macht Spaß, Schuhe zu kaufen, aber viel weniger Spaß, sie zurückzugeben, wenn sie nicht passen.
Stellt euch vor, Gemini könnte alle Schritte für euch erledigen:
Durchsucht euren Posteingang nach der Bestellbestätigung bzw. Rechnung…
Findet die Bestellnummer in eurer E-Mail…
Füllt ein Rücksendeformular aus…
Vereinbart sogar eine Abholung durch einen Paketdienstleister.
Das ist viel einfacher, oder?
Nehmen wir ein anderes Beispiel, das etwas komplexer ist: Angenommen, ihr seid gerade nach Chicago gezogen. Stellt euch vor, wie Gemini und Chrome zusammenarbeiten, um euch dabei zu helfen, euch auf eine Reihe von Dingen vorzubereiten – etwas für euch zu organisieren, zu argumentieren und zusammenzufassen.
Ihr möchtet beispielsweise die Stadt erkunden und nach Dienstleistungen in der Nähe suchen – von der Reinigung bis zu Hunde Sittern. Und ihr müsst eure neue Adresse auf Dutzenden von Websites aktualisieren.
Gemini kann diese Aufgaben übernehmen und wird euch bei Bedarf um weitere Informationen bitten – so behaltet ihr immer die Kontrolle.
Und dieser Aspekt ist sehr wichtig – während wir diese Erfahrungen prototypisieren, denken wir intensiv darüber nach, wie wir dies auf eine Weise tun können, die privat und sicher ist und für alle funktioniert.
Es sind einfache Anwendungsfälle, aber sie vermitteln euch einen guten Eindruck von den Arten von Problemen, die wir lösen möchten, indem wir intelligente Systeme bauen, die für euch vorausdenken, argumentieren und planen.
Was diese Entwicklungen für unsere Mission bedeuten
Geminis Leistungsfähigkeit – mit Multimodalität, großem Kontextfenster und KI-Agenten – bringt uns unserem großen Ziel näher: KI für alle nützlich und leicht zugänglich zu machen.
Wir sehen darin einen großen Fortschritt bei der Verwirklichung unserer Mission: Die Informationen der Welt zu organisieren, ganz gleich wie sie eingegeben werden, sie über alle Geräte zugänglich zu machen und die Informationen der Welt mit den Informationen in EURER Welt auf eine für euch wirklich nützliche Weise zu kombinieren.
Neue Wege beschreiten
Um das volle Potenzial von KI auszuschöpfen, müssen wir neue Wege gehen. Das Google DeepMind-Team hat hart daran gearbeitet.
Wir haben so viel Begeisterung rund um 1.5 Pro und sein langes Kontextfenster gesehen. Aber wir haben auch von Entwickler*innen gehört, dass sie etwas schnelleres und kostengünstigeres wollten. Deshalb stellen wir Gemini 1.5 Flash vor, ein einfacheres Modell, das skalierbar ist. Es ist für Aufgaben optimiert, bei denen niedrige Latenz und Kosten am wichtigsten sind. 1.5 Flash wird am Dienstag in AI Studio und Vertex AI verfügbar sein.
Mit Blick auf die Zukunft wollten wir schon immer einen universellen KI-Agenten entwickeln, der im Alltag nützlich ist. Project Astra zeigt multimodales Verständnis und kann Konversationen in Echtzeit führen.
Außerdem haben wir mit Veo und Imagen 3 Fortschritte bei der Video- und Bildgenerierung gemacht und Gemma 2.0 eingeführt, unsere nächste Generation offener Modelle für verantwortungsvolle KI-Innovation. Lest mehr von Demis Hassabis.
Infrastruktur für das KI-Zeitalter: Trillium
Das Training hochmoderner Modelle erfordert viel Rechenleistung. Die Nachfrage nach ML-Computing innerhalb der Branche ist in den letzten sechs Jahren um den Faktor 1 Million gestiegen. Und jedes Jahr verzehnfacht sie sich.
Dafür ist Google ausgelegt: Seit 25 Jahren investieren wir in erstklassige technische Infrastruktur,
Von hochmoderner Hardware, die die Google Suche antreibt, bis hin zu unseren maßgeschneiderten Tensor-Prozessoren, die unsere KI-Fortschritte voranbringen.
Gemini wurde vollständig auf unseren TPUs der vierten und fünften Generation trainiert. Und auch andere führende KI-Unternehmen, darunter Anthropic, haben ihre Modelle auf TPUs trainiert.
Wir freuen uns, heute unsere 6. TPU-Generation namens Trillium vorzustellen. Trillium ist unser bisher leistungsstärkstes und effizientestes TPU und bietet eine 4,7-fache Verbesserung der Rechenleistung pro Chip im Vergleich zur vorherigen Generation – TPU v5e.
Ende dieses Jahres werden wir Trillium für unsere Cloud-Kund*innen verfügbar machen.
Neben unseren TPUs sind wir stolz darauf, CPUs und GPUs für verschiedenste Arbeitslasten anbieten zu können.
Dazu gehören die neuen Axion-Prozessoren, die wir letzten Monat angekündigt haben – unsere erste maßgeschneiderte ARM-basierte CPU, die branchenführende Leistung und Energieeffizienz bietet.
Wir sind auch stolz darauf, einer der ersten Cloud-Anbieter zu sein, der die hochmodernen Blackwell-GPUs von Nvidia anbietet, die Anfang 2025 verfügbar sein werden. Wir haben das Glück, eine langjährige Partnerschaft mit NVIDIA zu haben, und freuen uns, unseren Kund*innen die bahnbrechenden Fähigkeiten von Blackwell anbieten zu können.
Prozessoren sind ein grundlegender Bestandteil unseres integrierten End-to-End-Systems. Von leistungsoptimierter Hardware und offener Software bis hin zu flexiblen Verbrauchsmodellen. Dies alles kommt in unserem AI Hypercomputer zusammen, einer bahnbrechenden Supercomputer-Architektur.
Unternehmen und Entwickler*innen nutzen diese, um komplexere Herausforderungen zu bewältigen – und zwar mit mehr als der doppelten Effizienz im Vergleich zum bloßen Kauf der Rohhardware und Prozessoren. Unsere Fortschritte bei AI Hypercomputern werden zum Teil durch unseren Ansatz zur Flüssigkeitskühlung in unseren Rechenzentren ermöglicht.
Wir sind hier schon seit fast einem Jahrzehnt aktiv – lange bevor es zum Stand der Technik in der Branche wurde. Und heute beträgt die Gesamtkapazität unserer Flotte für Flüssigkeitskühlsysteme fast 1 Gigawatt, Tendenz steigend. Das ist fast das 70-fache der Kapazität jeder anderen Flotte.
Der Grund dafür ist die Größe unseres Netzwerks, das unsere Infrastruktur weltweit verbindet. Unser Netzwerk umfasst mehr als 2 Millionen Meilen terrestrischer und unterseeischer Glasfaser: mehr als das Zehnfache (!) der Reichweite des nächsten führenden Cloud-Anbieters.
Wir werden weiterhin die notwendigen Investitionen tätigen, um die KI-Innovation voranzutreiben und modernste Fähigkeiten bereitzustellen.
Das bisher aufregendste Kapitel der Google Suche
Einer unserer größten Investitions- und Innovationsbereiche liegt in unserem allerersten Produkt – der Google Suche. Vor 25 Jahren haben wir sie ins Leben gerufen, um Menschen dabei zu helfen, die riesigen Mengen an Informationen im Internet zu verstehen.
Mit jedem Plattformwechsel haben wir bahnbrechende Fortschritte erzielt, um eure Fragen besser beantworten zu können.
Auf mobilen Endgeräten haben wir neue Arten von Fragen und Antworten freigeschaltet – durch besseren Kontext, Standorterkennung und Echtzeitinformationen. Mit Fortschritten im Verständnis natürlicher Sprache und Computer Vision haben wir neue Möglichkeiten der Google Suche eröffnet – mit der Stimme oder einem einfachen Summen, um euer neues Lieblingslied zu finden. Oder mit einem Foto der Blume, die ihr auf eurem Spaziergang gesehen habt. Und mit Circle to Search könnt ihr jetzt sogar nach den coolen neuen Sneakern suchen, die euch online gerade begegnet sind.
Natürlich wird die Google Suche in der Gemini-Ära das alles auf eine ganz neue Ebene heben, indem es unsere Infrastrukturstärken, die neuesten KI-Fähigkeiten, unseren hohen Anspruch an die Informationsqualität und unsere jahrzehntelange Erfahrung kombiniert und ihr so die Vielfalt des Internets nutzen könnt. Das Ergebnis ist ein Produkt, das die Arbeit für euch erledigt.
Die Google Suche ist generative KI im Ausmaß der menschlichen Neugier. Und es ist unser bisher aufregendstes Kapitel der Suche. Lest mehr über die Gemini-Ära der Google Suche von Liz Reid.
Intelligentere Gemini-Erlebnisse
Gemini ist mehr als ein Chatbot; es ist als euer persönlicher, hilfreicher Assistent konzipiert, der euch bei komplexen Aufgaben und Alltäglichem unterstützen kann.
Die Interaktion mit Gemini sollte sich intuitiv und nach einem Gespräch anfühlen. Deshalb kündigen wir eine neue Gemini-Funktion namens Gemini Live an, die uns dieser Vision näher bringt. Gemini Live ermöglicht euch, mit Hilfe eurer Stimme ein ausführliches Gespräch zu führen. Später in diesem Jahr werden wir auch zwei Millionen Token zu Gemini Advanced bringen, um das Hochladen und Analysieren von sehr komplexen Dateien wie Videos und langem Code zu ermöglichen. Sissie Hsiao hat hier mehr Informationen.
Gemini für Android
Mit Milliarden von Android-Nutzer*innen weltweit freuen wir uns, noch stärker integrierte Gemini-Funktionen auf Betriebssystemebene einzuführen. Als euer neuer KI-Assistent ist Gemini für euch da. Und wir haben Gemini-Modelle in Android auf ausgewählten Geräten integriert, darunter unser neuestes On-Device-Modell: Gemini Nano, das euch ein integriertes Foundation Model bietet, das auf dem Gerät ausgeführt wird. Dieses bietet euch Multimodalität, das Text, Bilder, Audio und Sprache verarbeitet, um neue Erlebnisse zu ermöglichen und gleichzeitig die Informationen auf eurem Gerät privat zu halten. Alle Android-Neuigkeiten hier.
Unser verantwortungsvoller Umgang mit KI
Wir gehen die Möglichkeiten der KI weiterhin ambitioniert und voller Begeisterung an. Wir achten auch darauf, dass wir verantwortungsbewusst vorgehen. Wir entwickeln eine hochmoderne Technik, die wir KI-unterstütztes Red Teaming nennen und die auf den Gaming-Durchbrüchen von Google DeepMind wie AlphaGo basiert. Darüber hinaus haben wir unsere technischen Innovationen, um KI-generierte Inhalte mit SynthID mit einem Wasserzeichen versehen und um zwei neue Text- und Videomodalitäten erweitert. Dadurch sind KI-generierte Inhalte leichter zu identifizieren. James Manyika teilt hier mehr.
Gemeinsam die Zukunft gestalten
All dies zeigt den wichtigen Fortschritt, den wir mit einem ambitionierten und verantwortungsvollen Ansatz verfolgen, um KI für alle nützlich und leicht zugänglich zu machen.
Bevor wir zum Abschluss kommen… Ich habe das Gefühl, dass manche von euch bestimmt mitgezählt haben, wie oft wir heute KI oder Google AI erwähnt haben. Und ich gehe davon aus, dass wir die Begriffe noch häufiger erwähnen werden, bevor wir fertig sind.
Diese Bilanz ist mehr als nur eine Pointe. Es spiegelt etwas viel Größeres wider. Bei uns steht schon lange KI an erster Stelle. Unsere jahrzehntelange Führungsrolle in der Forschung hat zu vielen Durchbrüchen geführt, die den KI-Fortschritt für uns und die Branche vorantreiben. Darüber hinaus haben wir:
- die weltweit führende Infrastruktur für das KI-Zeitalter
- modernste Innovation in der Google Suche, jetzt unterstützt von Gemini
- Produkte, die in außergewöhnlichem Umfang helfen – darunter 15 Produkte mit einer halben Milliarde Nutzer*innen
- und Plattformen, die es allen – Partner*innen, Kund*innen, Entwickler*innen und euch allen – ermöglichen, die Zukunft zu erfinden.
Dieser Fortschritt ist nur dank unserer unglaublichen Entwickler*innen-Community möglich. Ihr macht aus Visionen Wirklichkeit – durch die Anwendungen und Experiences, die ihr jeden Tag entwickelt. Also, an alle hier in Shoreline und die Zuschauer*innen auf der ganzen Welt: Auf die Möglichkeiten, die vor uns liegen, und darauf, sie gemeinsam zu erschaffen.