Google I/O '23: Wie KI uns alle besser unterstützen kann
Anmerkung der Redaktion: Nachfolgend findet ihr Auszüge aus der Eröffnungs-Keynote von CEO Sundar Pichai während der Google I/O 2023.
Nach sieben Jahren als AI-first-Unternehmen stehen wir an einem spannenden Wendepunkt. Wir haben die Möglichkeit, KI noch hilfreicher für Menschen, für Unternehmen, für die Gesellschaft, für alle zu machen.
Wir setzen KI schon seit einiger Zeit ein, um unsere Produkte wesentlich nützlicher zu machen. Mit generativer KI gehen wir den nächsten Schritt. Mit einem ambitionierten und verantwortungsvollen Ansatz gestalten wir alle unsere Kernprodukte neu – einschließlich der Google Suche.
„Hilfe beim Verfassen“ in Gmail
Beginnen möchte ich mit einigen Beispielen dafür, wie generative KI dazu beiträgt, unsere Produkte weiterzuentwickeln, angefangen bei Gmail. Im Jahr 2017 haben wir „Intelligente Antwort“ eingeführt, kurze Antworten, die mit nur einem Klick ausgewählt werden können. Als Nächstes kam „Intelligentes Schreiben“ auf den Markt, das während der Eingabe Schreibvorschläge macht. Diese Funktion wurde allein im letzten Jahr über 180 Milliarden Mal in Workspace verwendet. Und jetzt, mit einem viel leistungsfähigeren, generativen Modell, gehen wir in Gmail mit „Hilfe beim Verfassen“ den nächsten Schritt.
Angenommen, ihr habt eine E-Mail erhalten, dass euer Flug gestrichen wurde. Die Fluggesellschaft schickt euch einen Gutschein, aber eigentlich möchtet ihr eine vollständige Rückerstattung. Ihr könntet antworten und „Hilfe beim Verfassen“ verwenden.
Dafür gebt ihr einfach ein, was ihr möchtet - etwa eine E-Mail, in der ihr um eine volle Rückerstattung bittet -, drückt auf „Erstellen“, und schon erscheint ein vollständiger Entwurf. Wie ihr sehen könnt, wurden die Flugdaten aus der vorherigen E-Mail übernommen. Und die E-Mail kommt dem, was ihr senden möchtet, sehr nahe. Vielleicht wollt ihr den Text noch weiter verfeinern. In diesem Fall könnte eine ausführlichere E-Mail die Chancen auf eine Erstattung erhöhen. Und das war's: Ich denke, es ist bereit zum Senden! Die Funktion „Hilfe beim Verfassen“ wird im Rahmen unserer Workspace-Updates eingeführt. Und genau wie bei „Intelligentes Schreiben“ wird die Funktion mit der Zeit immer besser werden.
Mehr zu Immersive View für Routen in Google Maps
Das nächste Beispiel ist Google Maps. Seit den Anfängen von Street View hat die KI Milliarden von Panoramabildern zusammengefügt, damit Nutzer:innen die Welt von ihrem Gerät aus erkunden können. Auf der I/O im letzten Jahr haben wir Immersive View vorgestellt, das mit KI arbeitet, um eine realitätsgetreue Darstellung eines Ortes zu erstellen, so dass man diesen schon vor dem Besuch erleben kann.
Jetzt erweitern wir diese Technologie, um das zu tun, was Google Maps am besten kann: Euch dabei zu helfen, dorthin zu gelangen, wo ihr hinwollt. Google Maps liefert jeden Tag 20 Milliarden Kilometer an Wegbeschreibungen. Ganz schön viel. Stellt euch vor, ihr könntet eure gesamte Reise im Voraus sehen. Mit Immersive View für Routen ist das jetzt möglich – egal ob zu Fuß, mit dem Fahrrad oder mit dem Auto.
Ich möchte euch zeigen, was ich meine: Nehmen wir an, ich bin in New York City und möchte eine Fahrradtour machen. Google Maps hat mir einige Optionen in meiner Nähe angezeigt. Mir gefällt die Strecke am Wasser, also nehmen wir diese. Sieht landschaftlich reizvoll aus, und ich möchte erst einmal ein Gefühl dafür bekommen. Wir klicken auf Immersive View für Routen. Das ist eine völlig neue Art, meine Reise zu betrachten. Ich kann heranzoomen, um die Fahrt aus der Vogelperspektive zu sehen. Und beim Abbiegen kommen wir auf einen tollen Radweg. Sieht aus, als würde es eine herrliche Fahrt werden.
Es gibt auch weitere Informationen. Ihr könnt die heutige Luftqualität überprüfen. Es sieht so aus, als ob der Luftqualitätsindex 43 beträgt. Das ist ziemlich gut. Und wenn ich die Verkehrslage und das Wetter überprüfen möchte, um zu sehen, wie sich diese in den nächsten Stunden verändern werden, kann ich das auch tun. Später ist Regen angesagt, also sollte ich vielleicht jetzt losfahren.
Immersive View für Routen wird im Laufe des Sommers eingeführt und bis Ende des Jahres in 15 Städten verfügbar sein – darunter London, New York, Tokio und San Francisco.
So könnt ihr eure Fahrradroute im Immersive View in New York City planen.
Magischer Editor: Google Fotos mit einem neuen Erlebnis
Ein weiteres Produkt, das durch KI verbessert wurde, ist Google Fotos. Wir haben es 2015 auf der I/O vorgestellt, und es war eines der ersten Produkte, in das von uns entwickelte KI eingeflossen ist. Dank bahnbrechender Entwicklungen im Bereich des maschinellen Lernens ist es nun möglich, eure Fotos z. B. nach Menschen, Sonnenuntergängen oder Wasserfällen zu durchsuchen.
Natürlich möchten wir, dass ihr eure Fotobibliothek nicht nur durchsuchen, sondern sie auch besser machen könnt. Tatsächlich werden jeden Monat 1,7 Milliarden Bilder in Google Fotos bearbeitet. Dank der Weiterentwicklung von künstlicher Intelligenz verfügen wir über noch leistungsfähigere Möglichkeiten, dies zu tun. Der Magische Radierer, der zuerst auf Pixel eingeführt wurde, nutzt beispielsweise KI- und computergestützte Fotografie, um unerwünschte Ablenkungen zu entfernen. Und später in diesem Jahr könnt ihr mit einer Kombination aus semantischem Verständnis und generativer KI noch viel mehr mit dem neuen Magischen Editor machen.
Schauen wir uns das einmal genauer an. Nehmen wir an, ihr seid auf einer Wanderung und haltet an, um ein Selfie von euch vor einem Wasserfall zu machen. Am liebsten hättet ihr eure Tasche für das Foto abgenommen, habt das aber vergessen. Also lasst ihr den Riemen der Tasche einfach auf dem Bild verschwinden. Das Foto wirkt etwas dunkel, also könnt ihr die Beleuchtung verbessern. Und vielleicht sollen sogar ein paar Wolken entfernt werden, damit es so sonnig aussieht, wie es in eurer Erinnerung war. Wenn ihr noch genauer hinschaut, wünscht ihr euch, ihr hättet so posiert, dass es so aussieht, als würdet ihr das Wasser wirklich mit der Hand auffangen. Kein Problem, das kann man ändern. Voilà!
Schauen wir uns ein weiteres Foto an. Das ist ein tolles Foto, aber als Eltern möchtet ihr wahrscheinlich, dass euer Kind im Mittelpunkt des Geschehens steht. Und es sieht so aus, als ob die Luftballons auf diesem Foto abgeschnitten wurden. Ihr könnt das Geburtstagskind also neu positionieren. Der Magische Editor stellt automatisch die Teile der Bank und der Luftballons wieder her, die in der Originalaufnahme nicht erfasst wurden. Und als letzten Schliff könnt ihr den Himmel aufpeppen. Dadurch wird auch die Beleuchtung im Rest des Fotos geändert, so dass die Bearbeitung einheitlich wirkt. Das ist wirklich magisch. Wir freuen uns darauf, den Magischen Editor noch in diesem Jahr in Google Fotos einzuführen.
Der Magische Editor in Aktion.
KI für alle nützlicher machen
Von Gmail über Google Fotos bis hin zu Google Maps – dies sind nur einige Beispiele dafür, wie KI euch in wichtigen Momenten unterstützen kann. Und es gibt noch so viel mehr, was wir tun können, um das volle Potenzial von KI in den Produkten zu nutzen, die ihr kennt und liebt.
Heute haben wir 15 Produkte, die von jeweils mehr als einer halben Milliarde Menschen und Unternehmen eingesetzt werden. Und sechs dieser Produkte erreichen jeweils mehr als zwei Milliarden Nutzer:innen. Das gibt uns so viele Möglichkeiten, unsere Mission zu erfüllen - die Informationen der Welt zu organisieren und sie universell zugänglich und nutzbar zu machen.
Das ist eine zeitlose Aufgabe, die mit jedem Jahr an Relevanz gewinnt. Und wenn wir in die Zukunft blicken, dann ist der größte Fortschritt, den wir mit KI erzielen können, der Nutzen für alle. Wir tun dies auf vier wichtige Arten:
- Erstens, indem wir euch dabei unterstützen, eure Wissensbasis zu verbessern, Möglichkeiten zum Lernen zu erweitern und euer Verständnis für die Welt zu vertiefen.
- Zweitens, indem wir Euch helfen, eure Kreativität und Produktivität zu steigern, damit ihr euch noch besser selbst ausdrücken und Dinge erledigen könnt.
- Drittens, indem Entwickler:innen und Unternehmen in die Lage versetzt werden, ihre eigenen transformativen Produkte und Dienste zu entwickeln.
- Und schließlich, indem wir KI verantwortungsvoll entwickeln und einsetzen, so dass alle gleichermaßen davon profitieren können.
PaLM 2 + Gemini
Wir sind begeistert von den Möglichkeiten, die vor uns liegen. Unsere Fähigkeit, KI für alle zugänglich zu machen, hängt davon ab, dass wir unsere Basismodelle kontinuierlich weiterentwickeln. Deshalb möchte ich euch kurz erläutern, wie wir das angehen.
Letztes Jahr haben wir über PaLM gesprochen, was zu vielen Verbesserungen in unseren Produkten geführt hat. Heute sind wir soweit, unser neuestes PaLM-Modell präsentieren zu können: PaLM 2.
PaLM 2 baut auf unserer Grundlagenforschung und unserer neuesten Infrastruktur auf. Es ist sehr leistungsfähig, für eine Vielzahl von Aufgaben einsetzbar und einfach zu implementieren. Wir kündigen heute über 25 Produkte und Funktionen an, die auf PaLM 2 basieren.
Die PaLM 2-Modelle bieten exzellente Basisfunktionen für eine breite Vielzahl von Anwendungen. Wir haben sie liebevoll Gecko, Otter, Bison und Unicorn genannt. Gecko ist so schlank angelegt, dass es auf mobilen Geräten arbeiten kann... schnell genug für großartige interaktive Anwendungen auf dem Gerät, selbst wenn es offline ist. PaLM 2-Modelle sind gegenüber dem Vorgänger in Logik und Argumentation stärker dank eines umfassenden Trainings in wissenschaftlichen und mathematischen Themen. Sie werden auch auf mehrsprachige Texte trainiert – in über 100 Sprachen – und verstehen und generieren daher nuancierte Ergebnisse.
In Kombination mit leistungsstarken Programmierungsfunktionen kann PaLM 2 auch Entwickler:innen helfen, die auf der ganzen Welt zusammenarbeiten. Schauen wir uns dieses Beispiel an. Nehmen wir an, ihr arbeitet mit einem Kollegen oder einer Kollegin in Seoul zusammen und behebt gerade einen Fehler im Code. Ihr könnt ihn oder sie bitten, einen Fehler zu bereinigen und eurem bzw. eurer Teamkolleg:in helfen, indem ihr dem Code Kommentare auf Koreanisch hinzufügt. Das Programm erkennt zunächst, dass der Code rekursiv ist, und schlägt dann eine Lösung vor. Es erklärt die Gründe für die Korrektur und fügt – wie ihr sehen könnt – koreanische Kommentare hinzu, wie ihr es gewünscht habt.
PaLM 2 ist zwar sehr leistungsfähig, kann aber erst dann richtig glänzen, wenn es auf domänenspezifisches Wissen abgestimmt wird. Vor kurzem haben wir Sec-PaLM veröffentlicht, das speziell auf Sicherheitsanwendungen abgestimmt ist. Es nutzt KI, um schädliche Skripte besser zu erkennen, und kann Sicherheitsexpert:innen dabei helfen, Bedrohungen zu verstehen und zu beheben.
Ein weiteres Beispiel ist Med-PaLM 2, das in diesem Fall auf medizinisches Wissen abgestimmt ist. Diese Feinabstimmung führte zu einer neunfachen Verringerung fehlerhafter Schlussfolgerungen im Vergleich zum Modell und erreichte damit annähernd die Leistung von Krankenhausärzt:innen, die dieselben Fragen beantworteten. Tatsächlich war Med-PaLM 2 das erste Sprachmodell, das bei Fragen im Stil einer medizinischen Zulassungsprüfung auf „Experten“-Niveau abschnitt, und stellt derzeit den neuesten Stand der Technik dar.
Wir arbeiten auch daran, Med-PaLM 2 um weitere Funktionen zu erweitern, damit es Informationen aus medizinischen Bildgebungen wie Röntgenaufnahmen und Mammographien synthetisieren kann. Ihr könnt euch einen KI-Assistenten vorstellen, der Radiolog:innen bei der Interpretation von Bildern und der Kommunikation der Ergebnisse unterstützt. Dies sind einige Beispiele für den Einsatz von PaLM 2 in speziellen Bereichen. Wir können es kaum erwarten, dass es in noch mehr Bereichen eingesetzt wird. Deshalb freue ich mich, ankündigen zu können, dass PaLM 2 jetzt als Vorschau verfügbar ist.
PaLM 2 ist der jüngste Schritt auf unserem jahrzehntelangen Weg, Milliarden von Menschen KI auf verantwortungsvolle Weise zugänglich zu machen. Es baut auf den Fortschritten von zwei Weltklasse-Forschungsteams auf, dem Brain Team und DeepMind.
Wenn wir auf die entscheidenden KI-Durchbrüche des letzten Jahrzehnts zurückblicken, haben diese Teams zu einer beträchtlichen Anzahl von ihnen beigetragen: AlphaGo, Transformers, Sequence-to-Sequence-Modelle, und vieles mehr. All dies hat die Voraussetzungen für den Wendepunkt geschaffen, an dem wir uns heute befinden.
Vor kurzem haben wir diese beiden Teams zu einer einzigen Organisation, Google DeepMind, zusammengeführt. Sie nutzen die Rechenressourcen von Google und konzentrieren sich auf die Entwicklung leistungsfähigerer Systeme, die sicher und verantwortungsvoll arbeiten.
Dazu gehört auch unser Basismodell der nächsten Generation, Gemini, das sich noch in der Trainingsphase befindet. Gemini wurde von Grund auf so konzipiert, dass es multimodal ist, eine hohe Effizienz bei der Integration von Tools und APIs aufweist und zukünftige Innovationen wie Speicherung und Planung ermöglicht. Obwohl es sich noch im Anfangsstadium befindet, sehen wir bereits beeindruckende multimodale Einsatzmöglichkeiten, die in früheren Modellen nicht vorhanden waren.
Nach der Feinabstimmung und strengen Sicherheitstests wird Gemini in verschiedenen Versionen und mit unterschiedlichen Funktionen erhältlich sein, genau wie PaLM 2.
Verantwortungsvolle KI: Tools zur Identifizierung generierter Inhalte
Während wir in leistungsfähigere Modelle investieren, investieren wir zudem intensiv in verantwortungsvolle KI. Dazu gehört, dass wir über die nötigen Werkzeuge verfügen, um künstlich erzeugte Inhalte zu identifizieren, wann immer ihr ihnen begegnet.
Zwei wichtige Ansätze sind Wasserzeichen und Metadaten. Durch Wasserzeichen werden Informationen direkt in den Inhalt eingebettet, so dass sie auch bei einfacher Bildbearbeitung erhalten bleiben. In Zukunft werden wir unsere Modelle so gestalten, dass sie von Anfang an Wasserzeichen und andere Techniken enthalten.
Wenn ihr euch dieses künstliche Bild anschaut, ist es beeindruckend, wie echt es aussieht, und man kann sich vorstellen, wie wichtig dies in Zukunft sein wird. Metadaten ermöglichen es den Urheber:innen von Inhalten, den Originaldateien einen zusätzlichen Kontext zuzuordnen, so dass ihr mehr Informationen erhaltet, wenn euch ein Bild begegnet. Wir sorgen dafür, dass jedes unserer KI-generierten Bilder mit diesen Metadaten versehen wird. Weitere Informationen zu unserem ambitionierten und verantwortungsvollen Ansatz findet ihr hier.
Aktualisierungen bei Bard + Workspace
Da die Modelle immer besser und leistungsfähiger werden, besteht eine der aufregendsten Möglichkeiten darin, sie den Menschen zur Verfügung zu stellen, damit sie direkt mit ihnen arbeiten können.
Das ist die Chance, die wir mit Bard haben, unserem Experiment für konversationsorientierte KI. Wir entwickeln Bard schnell weiter. Er unterstützt jetzt eine breite Palette von Programmierfähigkeiten und ist viel intelligenter geworden, wenn es um logisches Denken und mathematische Fragen geht. Und seit heute läuft er auch vollständig auf PaLM 2. Lest hier mehr über die neuesten Bard-Updates.
Mit Duet AI, einem neuen KI-Assistenten, bringen wir außerdem neue Funktionen für Google Workspace heraus. Hier erfahrt ihr mehr dazu.
Einführung von Labs und unserer neuen Search Generative Experience
Da sich die künstliche Intelligenz immer weiter verbessert, konzentrieren wir uns darauf, unseren Nutzer:innen nützliche Funktionen zur Verfügung zu stellen. Und ab heute bieten wir euch eine neue Möglichkeit, eine Vorschau auf einige der Erfahrungen in Workspace und anderen Produkten zu erhalten. Sie heißt Labs. Ich sage „neu“, aber Google nutzt Labs schon seit Längerem, um frühzeitig einen Zugang zu ermöglichen und Feedback zu erhalten, und ihr könnt euch ab heute Abend dafür anmelden.
Neben den Workspace-Funktionen, die ihr gerade gesehen habt, ist eine der ersten Erfahrungen, die ihr in den Labs testen könnt, unser Gründungsprodukt, die Google Suche. Wir haben vor vielen Jahren begonnen, intensiv in künstliche Intelligenz zu investieren, weil wir die Chance sahen, die Suche zu verbessern. Und mit jedem neuen Durchbruch haben wir die Suche hilfreicher und intuitiver gemacht.
Verbesserungen im Sprachverständnis ermöglichen es uns, Fragen natürlicher zu stellen und die relevantesten Inhalte im Web zu finden. Fortschritte in der Bildverarbeitung eröffnen neue Möglichkeiten der visuellen Suche. Jetzt könnt ihr mit Google Lens nach allem suchen, was ihr seht, auch wenn euch die Worte fehlen, um zu beschreiben, wonach genau ihr sucht. Tatsächlich wird Lens jeden Monat für mehr als 12 Milliarden visuelle Suchanfragen genutzt - ein vierfacher Anstieg in nur zwei Jahren. Lens in Kombination mit Multimodalität führte zur Kombi-Suche, die euch ermöglicht, sowohl mit einem Bild als auch mit Text zu suchen.
Mit Blick auf die Zukunft kann das tiefgreifende Verständnis von Informationen, das Google hat, in Kombination mit den einzigartigen Fähigkeiten der generativen KI die Funktionsweise der Suche erneut verändern. So ermöglicht es völlig neue Fragen, die die Suche beantworten kann, und schafft immer nützlichere Erfahrungen, die euch vom inhaltlichen Reichtum des Webs profitieren lässt.
Natürlich befindet sich die Anwendung von generativer KI für die Suche noch im Anfangsstadium. Menschen auf der ganzen Welt verlassen sich in wichtigen Momenten auf die Suche. Wir wissen also, wie wichtig es ist, dies richtig zu machen und ihr Vertrauen zu gewinnen. Das ist immer unser oberstes Ziel.
Wir gehen immer verantwortungsbewusst an Innovationen heran und streben nach den höchsten Standards für die Informationsqualität, wie wir es von Anfang an getan haben. Aus diesem Grund stellen wir euch unsere neue Search Generative Experience zuerst in den Labs vor.
Innovation leicht gemacht – für alle
Wie ihr seht, ist KI nicht nur ein leistungsfähiger Enabler, sondern auch eine große Plattformveränderung. Viele Unternehmen und Organisationen machen sich Gedanken darüber, wie sie die Transformation vorantreiben können. Deshalb konzentrieren wir uns darauf, die Innovation mit KI für andere einfach und skalierbar zu machen.
Das bedeutet, dass wir eine der fortschrittlichsten Recheninfrastrukturen zur Verfügung stellen - einschließlich modernster TPUs und GPUs - und den Zugang zu den neuesten Basismodellen von Google erweitern, die in unseren eigenen Produkten ausgiebig getestet wurden. Wir arbeiten auch daran, erstklassige Tools bereitzustellen, damit Kund:innen ihre eigenen Modelle trainieren, optimieren und ausführen können - mit Sicherheit und Datenschutz auf Profiniveau. Mehr dazu gibt es von Thomas Kurian, CEO von Google Cloud.
Mit Android den Fortschritt vorantreiben
Unser ambitionierter und verantwortungsvoller Ansatz bei KI kann dazu beitragen, dass Menschen ihre Kreativität und ihr Potenzial besser ausschöpfen. Wir wollen auch sicherstellen, dass so viele Menschen wie möglich davon profitieren. Das tun wir durch unsere Computing-Plattformen wie Android. Heute haben wir euch gezeigt, wie Fortschritte in der KI euer Smartphone noch persönlicher machen können, z. B. mit Magic Compose, 3D-Hintergründen und von generativer KI kreierten Hintergründen
Neue Pixel-Geräte für unterwegs und Zuhause
Wir stellen außerdem Pixel 7a, Pixel Fold und Pixel Tablet vor und bieten damit ein komplettes Ökosystem an Geräten, die von KI angetrieben werden und von Google entwickelt wurden. Das Pixel 7a ist ab heute erhältlich, Pixel Fold und das Pixel Tablet könnt ihr ab sofort vorbestellen.
Gemeinsam die Zukunft gestalten
Ich möchte noch etwas mit euch teilen: Ich habe über die großen technologischen Veränderungen nachgedacht, die wir alle miterlebt haben. Der Wandel bei der künstlichen Intelligenz ist einer der größten, die es gibt. Darum ist es so wichtig, dafür zu sorgen, dass KI für alle Menschen nützlich ist.
Wir gehen das Thema mit viel Ambition und Begeisterung an. Und wir gehen es auf eine verantwortungsvolle Art und Weise an, denn es ist uns wichtig, das Richtige zu tun.
Kein Unternehmen kann das allein schaffen. Unserer Entwickler-Community kommt eine Schlüsselrolle zu, um die enormen Möglichkeiten der Zukunft auszuschöpfen. Wir freuen uns darauf, zusammenzuarbeiten und gemeinsam etwas aufzubauen.