Zurück zum Hauptmenü

Gemini – unser größtes und leistungsfähigstes KI-Modell

Gemini – unser größtes und leistungsfähigstes KI-Modell

[]

Gemini – unser größtes und leistungsfähigstes KI-Modell

06 Dez 2023

|

KI für alle zugänglich machen

Sundar Pichai

CEO Google und Alphabet

Demis Hassabis

CEO and Co-Founder, Google DeepMind, on behalf of the Gemini Team

Ein Vorwort von Sundar Pichai, CEO von Google und Alphabet

Jeder technologische Wandel ist eine Chance, wissenschaftliche Entdeckungen voranzutreiben, den menschlichen Fortschritt zu beschleunigen und Leben zu verbessern. Ich glaube, dass der Wandel, den wir gerade mit KI erleben, der tiefgreifendste in unserem Leben sein wird, weitaus größer als die Umstellung auf das Mobiltelefon oder das Internet zuvor. KI hat das Potenzial, den Menschen überall auf der Welt Möglichkeiten zu eröffnen - vom Alltäglichen bis zum Außergewöhnlichen. Sie wird neue Wellen der Innovation und des wirtschaftlichen Fortschritts auslösen und Wissen, Lernen, Kreativität und Produktivität in einem Ausmaß vorantreiben, wie wir es noch nie zuvor gesehen haben.

Das ist es, was mich begeistert: die Chance, KI für alle Menschen überall auf der Welt nützlich zu machen.

Seit fast acht Jahren hat KI in unserem Unternehmen oberste Priorität und der Fortschritt nimmt immer mehr Fahrt auf: Millionen von Menschen nutzen heutzutage generative KI in unseren Produkten, um Dinge zu tun, die vor einem Jahr noch nicht möglich waren - von der Suche nach Antworten auf komplexe Fragen bis hin zur Nutzung neuer Tools für die Zusammenarbeit und die Erstellung von Inhalten. Gleichzeitig nutzen Entwickler:innen unsere Modelle und Infrastruktur, um neue generative KI-Anwendungen zu entwickeln, und Startups und Unternehmen auf der ganzen Welt nutzen unsere KI-Tools, um zu wachsen.

Da herrscht eine unglaubliche Dynamik, und doch kratzen wir gerade erst an der Oberfläche dessen, was möglich ist.

Wir gehen an diese Arbeit ambitioniert und verantwortungsbewusst heran. Das bedeutet, dass wir in unserer Forschung ehrgeizig sind und uns auf die Fähigkeiten konzentrieren, die den Menschen und der Gesellschaft enorme Vorteile bringen werden. Gleichzeitig bauen wir Sicherheitsmaßnahmen ein und arbeiten mit Regierungen und Expert:innen zusammen, um Risiken zu bewältigen, die mit leistungsfähigerer KI entstehen. Und wir werden weiterhin in die besten Werkzeuge, Basismodelle und Infrastrukturen investieren und sie in unseren eigenen und anderen Produkten zur Anwendung bringen, wobei wir uns von unseren KI-Grundsätzen leiten lassen.

Mit Gemini machen wir jetzt den nächsten Schritt auf unserer Reise, unserem bisher leistungsfähigsten und umfassendsten Modell, das nach vielen führenden Benchmarks auf dem neuesten Stand der Technik ist. Unsere erste Version, Gemini 1.0, ist für verschiedene Größen optimiert: Ultra, Pro und Nano. Dies sind die ersten Modelle der Gemini-Ära und die erste Verwirklichung der Vision, die wir hatten, als wir Anfang dieses Jahres Google DeepMind gründeten. Diese neue Ära der Modelle stellt eine der größten wissenschaftlichen und technischen Anstrengungen dar, die wir als Unternehmen unternommen haben. Ich bin wirklich begeistert über das, was vor uns liegt, und auf die Möglichkeiten, die Gemini für Menschen auf der ganzen Welt eröffnen wird.

-Sundar

Wir stellen vor: Gemini

von Demis Hassabis, CEO und Co-Founder von Google DeepMind, im Namen des Gemini-Teams

Wie für viele meiner Forschungskolleg:innen stand die Künstliche Intelligenz auch im Mittelpunkt meiner Arbeit. Schon als Teenager habe ich KI für Computerspiele programmiert und habe später als Neurowissenschaftler versucht, die Funktionsweise des Gehirns zu verstehen – und schon damals war ich immer der Meinung, dass wir intelligentere Maschinen bauen und sie auf ganze neue Art zum Nutzen der Menschheit einsetzen können.

Dieses Versprechen eines verantwortungsbewussten Einsatzes von KI treibt unsere Arbeit bei Google DeepMind weiter voran. Wir arbeiten schon lange an der Entwicklung einer neuen Generation von KI-Modellen, die sich an der Art und Weise orientiert, wie Menschen die Welt verstehen und mit ihr interagieren. KI würde sich weniger wie eine intelligente Software anfühlen, sondern eher wie etwas Nützliches und Intuitives - ein fachkundiger Helfer oder Assistent.

Heute sind wir dieser Vision einen Schritt näher gekommen – mit der Entwicklung von Gemini, dem leistungsfähigsten und vielseitigsten KI-Modell, das wir je gebaut haben.

Gemini ist das Ergebnis umfangreicher gemeinsamer Arbeit von verschiedenen Teams bei Google, einschließlich unserer Kolleg:innen bei Google Research. Gemini wurde von Anfang an multimodal konzipiert, was bedeutet, dass es verschiedene Arten von Informationen – wie Text, Code, Audio, Bilder und Video – generalisieren und nahtlos verstehen, verarbeiten und kombinieren kann.

Gemini ist auch unser bisher flexibelstes Modell – es kann überall effizient ausgeführt werden, vom Rechenzentrum bis zum Smartphone. Seine innovativen Funktionen werden die Art und Weise, wie Entwickler:innen und Unternehmenskunden mithilfe von KI entwickeln und wachsen, erheblich vereinfachen.

Wir haben Gemini 1.0, unsere erste Version, in drei verschiedenen Größen optimiert:

Gemini Ultra – unser größtes und leistungsstärkstes Modell für hochkomplexe Aufgaben.
Gemini Pro – unser bestes Modell zur Anwendung in einem breiten Aufgabenspektrum.
Gemini Nano – unser effizientestes Modell für Aufgaben, die direkt auf dem Gerät verarbeitet werden.

Leistung auf dem neuesten Stand der Technik

Wir haben unsere Gemini-Modelle gründlich getestet und ihre Leistung bei einer Vielzahl von Aufgaben bewertet. Vom Verstehen natürlicher Bilder über mathematische Schlussfolgerungen bis hin zur Verarbeitung von Audio- und Videodateien übertrifft die Leistung von Gemini Ultra den aktuellen Stand der Technik bei 30 von 32 weit verbreiteten akademischen Benchmarks, die in der Forschung und Entwicklung großer Sprachmodelle (LLM) verwendet werden.

Mit einer Punktzahl von 90,0 % ist Gemini Ultra das erste Modell, das menschliche Expert:innen beim MMLU (Massive Multitask Language Understanding) übertrifft. Dabei wird eine Kombination aus 57 Fächern wie Mathematik, Physik, Geschichte, Recht, Medizin und Ethik zum Testen von Allgemeinwissen und Problemlösungsfähigkeiten verwendet.

Unser neuer Benchmark-Ansatz für MMLU ermöglicht Gemini vor der Beantwortung schwieriger Fragen eine genaue Analyse der Gegebenheiten. Dies führt zu erheblich besseren Ergebnissen als vorher.

Gemini übertrifft den neuesten Stand der Technik bei einer Reihe von Benchmarks, einschließlich Text und Programmieren.

Ein Diagramm, das die Leistung von Gemini Ultra bei gängigen Text-Benchmarks im Vergleich zu GPT-4 zeigt (API-Zahlen wurden berechnet, wenn keine Zahlen gemeldet wurden).

Gemini Ultra erreicht außerdem einen leistungsstarken Wert von 59,4 % bei der neuen MMMU-Benchmark. Diese setzt sich aus multimodalen Aufgaben aus verschiedenen Bereichen zusammen und erfordert eine Herangehensweise, die dem bewussten Denken ähnelt.

Bei den von uns getesteten Image-Benchmarks übertraf Gemini Ultra frühere leistungsstarke Modelle ohne Unterstützung durch OCR-Systeme (Object Character Recognition), die Text aus Bildern zur weiteren Verarbeitung extrahieren. Diese Benchmarks unterstreichen die systemeigene Multimodalität von Gemini und zeigen erste Anzeichen für komplexere Analysefähigkeiten von Gemini.

Gemini übertrifft den neuesten Stand der Technik bei einer Reihe multimodaler Benchmarks.

Ein Diagramm, das die Leistung von Gemini Ultra bei multimodalen Benchmarks im Vergleich zu GPT-4V zeigt, wobei frühere SOTA-Modelle an den Stellen aufgeführt sind, die von GPT-4V nicht unterstützt werden.

Weitere Einzelheiten findet ihr in unserem technischen Bericht über Gemini.

Funktionen der nächsten Generation

Bisher bestand der Standardansatz zur Erstellung multimodaler Modelle darin, separate Komponenten für verschiedene Modalitäten zu trainieren und sie dann zusammenzufügen, um einige dieser Funktionen grob nachzuahmen. Diese Modelle können bestimmte Aufgaben wie die Beschreibung von Bildern manchmal gut ausführen, haben jedoch Schwierigkeiten mit konzeptionelleren und komplexeren Fähigkeiten.

Wir haben Gemini von Anfang an auf verschiedene Modalitäten trainiert. Anschließend haben wir das KI-Modell mit zusätzlichen multimodalen Daten ergänzt, um die Effektivität weiter zu steigern. So kann Gemini alle Arten von Eingaben nahtlos bearbeiten und analysieren, und das weitaus besser als bestehende multimodale Modelle – und die Fähigkeiten des Modells sind dabei in fast allen Bereichen auf dem neuesten Stand der Technik.

Weitere Informationen über Gemini.

Ausgefeilte Analysefähigkeit

Die hochentwickelten multimodalen Analysefähigkeiten von Gemini 1.0 können dabei helfen, komplexe schriftliche und visuelle Informationen zu verstehen und Zusammenhänge aufzudecken, die inmitten riesiger Datenmengen manchmal schwer zu erkennen sind.

Die bemerkenswerte Fähigkeit, durch Lesen, Filtern und Analysieren von Informationen Erkenntnisse aus Hunderttausenden Dokumenten zu gewinnen, wird dazu beitragen, in vielen Bereichen von Wissenschaft bis hin zum Finanzwesen mit digitaler Geschwindigkeit neue Durchbrüche zu erzielen.

Analyse von Text, Bildern, Audio und mehr

Gemini 1.0 wurde darauf trainiert, Text, Bilder, Audio und andere Elemente gleichzeitig zu erkennen und zu analysieren. Dadurch kann die KI differenzierte Informationen besser verarbeiten und Fragen zu komplexen Themen beantworten. So eignet es sich besonders gut zur Erklärung von Argumenten in komplexen Fächern wie Mathematik und Physik.

Fortgeschrittene Programmiertechniken

Unsere erste Version von Gemini kann qualitativ hochwertigen Code in den weltweit beliebtesten Programmiersprachen wie Python, Java, C++ und Go analysieren, erklären und generieren. Die Möglichkeit, sprachübergreifend zu arbeiten und komplexe Informationen zu analysieren, macht Gemini zu einem der weltweit führenden Grundlagenmodelle für die Programmierung.

Gemini Ultra schneidet bei mehreren Codier-Benchmarks hervorragend ab, darunter HumanEval, ein in der Branche wichtiger Benchmark für die Bewertung der Leistung bei Programmierungsaufgaben, und Natural2Code, unser interner Hold-Out-Datensatz, der anstelle von webbasierten Informationen Quellen verwendet, die von Autoren erstellt wurden.

Gemini kann auch als Motor für komplexere Programmierungssysteme verwendet werden. Vor zwei Jahren stellten wir mit AlphaCode das erste KI-System vor, das Code generierte und bei Programmierwettbewerben ein konkurrenzfähiges Leistungsniveau erreichte.

Mithilfe einer speziellen Version von Gemini haben wir ein höher entwickeltes Codegenerierungssystem, AlphaCode 2, entwickelt, das sich durch die Lösung von Aufgaben im Rahmen von wettbewerbsorientierter Programmierung auszeichnet, die über das Schreiben von Code hinausgehen und komplexe Mathematik und theoretische Informatik umfassen.

Bei der Evaluierung auf derselben Plattform wie der ursprüngliche AlphaCode zeigt AlphaCode 2 massive Verbesserungen und löst fast doppelt so viele Aufgaben. Wir schätzen, dass es besser abschneidet als 85 % der Teilnehmer von Programmierwettbewerben – gegenüber fast 50 % bei AlphaCode. Wenn Programmierer:innen mit Gemini arbeiten, indem sie bestimmte Eigenschaften definieren, denen die Codebeispiele folgen sollen, ist die Leistung noch besser.

Wir freuen uns, dass Programmierer:innen zunehmend hochleistungsfähige KI-Modelle als Tools für die Zusammenarbeit verwenden. Diese Tools unterstützen sie dabei, Probleme zu analysieren, Code-Designs vorzuschlagen und die Implementierung umzusetzen, damit sie schneller Apps veröffentlichen und bessere Dienste entwickeln können.

Weitere Details findet ihr in unserem technischen Bericht zu AlphaCode 2.

Zuverlässiger, skalierbarer und effizienter

Wir haben Gemini 1.0 unter Verwendung der von Google selbst entwickelten Tensor Processing Units (TPUs) v4 und v5e umfassend in unserer KI-optimierten Infrastruktur trainiert. Der Algorithmus ist per Design unser zuverlässigstes und skalierbarstes Modell zum Trainieren von KI-Tools und lässt sich am effizientesten bereitstellen.

Auf TPUs läuft Gemini deutlich schneller als bisherige, kleinere und leistungsschwächere Modelle. Diese maßgeschneiderten KI-Beschleuniger bilden das Herzstück der KI-gestützten Produkte von Google, die von Milliarden Nutzerinnen und Nutzern verwendet werden: die Google Suche, YouTube, Gmail, Google Maps, Google Play und Android. KI-Beschleuniger ermöglichen es Unternehmen auf der ganzen Welt auch, groß angelegte KI-Modelle kosteneffizient zu trainieren.

Heute kündigen wir außerdem unser bisher leistungsstärkstes, effizientestes und skalierbarstes TPU-System für das Training modernster KI-Modelle an: Cloud TPU v5p. Diese TPU der nächsten Generation wird die Entwicklung von Gemini beschleunigen und Entwickler:innen und Unternehmenskunden dabei helfen, groß angelegte generative KI-Modelle schneller zu trainieren, sodass neue Produkte und Funktionen eher bei Nutzer:innen ankommen.

Cloud TPU v5p: Supercomputer und KI-Beschleuniger in einem Google-Rechenzentrum.

Cloud TPU v5p: Supercomputer und KI-Beschleuniger in einem Google-Rechenzentrum.

Verantwortung und Sicherheit als Mittelpunkt bei der Entwicklung

Bei Google setzen wir uns in jeder Hinsicht dafür ein, KI ambitioniert und zugleich verantwortungsbewusst weiterzuentwickeln. Aufbauend auf den KI-Prinzipien von Google und den strengen Sicherheitsrichtlinien unserer Produkte fügen wir neue Sicherheitsmaßnahmen hinzu, um den multimodalen Fähigkeiten von Gemini Rechnung zu tragen. In jeder Entwicklungsphase berücksichtigen wir potenzielle Risiken und arbeiten daran, diese zu testen und zu minimieren.

Gemini hat die bisher umfassendsten Sicherheitsbewertungen aller Google-AI-Modelle, auch hinsichtlich Voreingenommenheit und Toxizität. Wir haben neuartige Untersuchungen zu potenziellen Risikobereichen wie Cyber-Angriffen, Einflussnahme und Autonomie durchgeführt und die erstklassigen Techniken zum Testen der Reaktion von KI-Tools auf Täuschungsversuche von Google Research angewendet, um kritische Sicherheitsprobleme vor dem Einsatz von Gemini zu identifizieren.

Um Schwachpunkte in unserem internen Bewertungsansatz zu identifizieren, arbeiten wir mit einer Gruppe von externen Fachleuten und Partnern zusammen. So testen wir unsere Modelle in unterschiedlichen problematischen Szenarien.

Um Probleme mit der Sicherheit von Inhalten während der Trainingsphasen von Gemini zu diagnostizieren und dafür zu sorgen, dass die Ausgabe unseren Richtlinien entspricht, verwenden wir Benchmarks wie Real Toxicity Prompts, eine Reihe von 100.000 Prompts mit unterschiedlichem Toxizitätsgrad aus dem Internet, die von Fachleuten am Allen Institute of AI entwickelt wurden. Weitere Einzelheiten zu dieser Arbeit folgen in Kürze.

Um Schaden zu begrenzen, haben wir spezielle Sicherheitsklassifikatoren entwickelt, die Inhalte identifizieren, kennzeichnen und aussortieren, in denen beispielsweise Gewalt oder negative Stereotype vorkommen. In Kombination mit robusten Filtern soll dieser Ansatz Gemini sicherer und inklusiver für alle Nutzerinnen und Nutzer machen. Zusätzlich beschäftigen wir uns weiterhin mit bekannten Herausforderungen für KI-Modelle, wie beispielsweise sachliche Richtigkeit sowie Quellenangabe und -verifizierung.

Verantwortung und Sicherheit stehen bei Entwicklung und Einsatz unserer Modelle stets im Mittelpunkt. Dies ist ein langfristiges Engagement, das gemeinsame Anstrengungen erfordert. Deshalb arbeiten wir sowohl mit Unternehmen der Branche als auch mit branchenfremden Unternehmen zusammen, um Sicherheitsmaßstäbe zu setzen. Durch Organisationen wie MLCommons, das Frontier Model Forum und seinen AI Safety Fund sowie unseren Secure AI Framework (SAIF) werden Best Practices etabliert. Das SAIF soll dazu beitragen, Sicherheitsrisiken für KI-Systeme im öffentlichen und privaten Sektor zu minimieren. Bei der Entwicklung von Gemini werden wir auch weiterhin mit Forscherteams, Regierungen und zivilgesellschaftlichen Gruppen auf der ganzen Welt zusammenarbeiten.

So machen wir Gemini zugänglich

Gemini 1.0 wird jetzt auf einer Reihe von Produkten und Plattformen eingeführt:

Gemini Pro in Google-Produkten

Wir machen Gemini über Google-Produkte für Milliarden von Menschen zugänglich.

Ab heute wird Bard mit Gemini Pro viel besser in der Lage sein, Informationen zu verarbeiten, zu planen und mehr. Das ist die größte Qualitätsverbesserung seit der Einführung von Bard.

Bard wird in mehr als 170 Ländern und Regionen auf Englisch verfügbar sein. Wir planen, in naher Zukunft weitere Funktionen hinzuzufügen und neue Orte (beispielsweise in Europa) und Sprachen zu unterstützen.

Gemini wird auch auf Pixel verfügbar sein. Pixel 8 Pro ist das erste Smartphone, das mit Gemini Nano ausgestattet ist – das ermöglicht neue Funktionen wie die Zusammenfassung in der Rekorder App sowie die Einführung des Features „Intelligente Antwort“ in Gboard, beginnend mit WhatsApp. Weitere Messaging-Apps folgen im nächsten Jahr.

In den kommenden Monaten wird Gemini in weiteren unserer Produkte und -dienste verfügbar sein, unter anderem in der Google Suche, in Ads, Chrome und Duet AI.

Wir experimentieren bereits mit Gemini in der Google Suche, wo es unsere Search Generative Experience (SGE) für Nutzer:innen schneller macht. Das geht mit einer 40-prozentigen Reduzierung der Latenzzeit in US-Englisch sowie mit Verbesserungen in der Qualität einher.

Entwickeln mit Gemini

Ab dem 13. Dezember können Entwickler:innen und Unternehmenskunden über die Gemini API in Google AI Studio oder Google Cloud Vertex AI auf Gemini Pro zugreifen.

Google AI Studio ist ein kostenloses, webbasiertes Entwicklertool, mit dem Entwickler:innen und Enterprise-Kunden mithilfe eines API-Schlüssels schnell Prototypen erstellen und Apps launchen können. Wenn eine vollständig verwaltete KI-Plattform erforderlich ist, könnt ihr Gemini mithilfe von Vertex AI mit vollständiger Datenkontrolle anpassen. Zugleich profitiert ihr von zusätzlichen Google Cloud-Funktionen für Unternehmenssicherheit, Datenschutz sowie Data Governance und Compliance.

Android-Entwickler:innen können über AICore auch mit Gemini Nano entwickeln, unserem effizientesten Modell für Aufgaben, die direkt auf dem Gerät verarbeitet werden. AICore ist eine neue Systemfunktion, die in Android 14 verfügbar ist, zuerst auf Pixel 8 Pro. Ihr könnt euch für eine frühe Vorabversion anmelden.

Gemini Ultra ist bald verfügbar

Für Gemini Ultra führen wir derzeit umfangreiche Vertrauens- und Sicherheitsprüfungen durch, einschließlich Red-Team-Einsätze durch vertrauenswürdige externe Parteien. Zugleich optimieren wir das Modell vor der breiten Einführung durch Feinabstimmung und Reinforcement Learning aus menschlichem Feedback.

Als Teil dieses Prozesses werden wir Gemini Ultra ausgewählten Kund:innen, Entwickler:innen, Partnern, Sicherheitsteams und Expert:innen für Corporate Responsibility vorab zur Verfügung stellen. Wir werden deren Feedback auswerten, bevor wir das Tool Anfang nächsten Jahres für Entwickler:innen und Unternehmenskunden allgemein verfügbar machen.

Anfang nächsten Jahres werden wir außerdem Bard Advanced auf den Markt bringen: ein neues, innovatives KI-Tool, das euch Zugriff auf unsere besten Modelle und Funktionen bietet, beginnend mit Gemini Ultra.

Die Gemini-Ära: Neue Innovationen ermöglichen

Gemini ist ein bedeutender Meilenstein in der Entwicklung der KI und der Beginn einer neuen Ära für Google. Wir arbeiten weiterhin an der schnellen Innovation und der verantwortungsbewussten Weiterentwicklung unserer Modelle.

Wir haben bisher große Fortschritte bei Gemini gemacht und arbeiten mit Hochdruck daran, die Fähigkeiten für künftige Versionen weiter auszubauen – unter anderem durch Fortschritte bei Planungsstrategie und Datenverarbeitungslänge, um noch mehr Informationen zu verarbeiten und bessere Antworten zu geben.

KI bietet neue spannende Möglichkeiten – wenn sie verantwortungsbewusst eingesetzt wird. Wir freuen uns daher auf eine Zukunft voller Innovationen, die unsere Kreativität steigern, unser Wissen erweitern, die Wissenschaft voranbringen und ganz allgemein viele Leben und die Art wie wir arbeiten, verändern werden.

LABEL:

Verwandelt jeden Ort in Google Earth mit Nano Banana

Von Bradley Horowitz

Gemini für macOS erhält neue Funktionen für natürliche Sprache

Von Michael Friedman & Alvin Zhou

NotebookLM heißt jetzt Gemini Notebook

Von Josh Woodward

Pelés verlorenes Tor: reconstructed

Von Anita Lucchesi & Gabe Ferreira

5 KI-Hacks für eure Reiseplanung

Von Hannah Samland

6 einfache Wege, mit Gemini zu lernen

Von Carol Walport