Google I/O 2024: I/O untuk generasi baru
Catatan editor: Di bawah ini adalah transkrip yang telah diedit dari presentasi Sundar Pichai di acara I/O 2024, disesuaikan untuk mencakup lebih banyak hal yang diumumkan di atas panggung. Lihat semua pengumumannya di koleksi kami.
Google telah sepenuhnya memasuki era Gemini.
Sebelum bicara lebih lanjut, saya ingin sekilas merenungkan perjalanan kami sejauh ini. Kami telah lebih dari satu dekade berinvestasi dalam teknologi AI — dan menciptakan inovasi di setiap komponennya, dari riset, produk, hingga infrastruktur. Kita akan bahas semuanya hari ini.
Namun, ini masih periode awal peralihan platform AI. Kami melihat begitu banyak peluang di masa depan bagi kreator, developer, startup, dan siapa saja. Tujuan utama era Gemini adalah membantu Anda semua memanfaatkan peluang tersebut. Jadi, mari kita mulai.
Era Gemini
Satu tahun lalu di panggung I/O, untuk pertama kalinya kami mengumumkan rencana kami terkait Gemini: model AI inovatif yang dirancang dengan kemampuan multimodal secara bawaan, sehingga bisa memproses teks, gambar, video, kode pemrograman, dan lainnya. Ini menandai sebuah kemajuan besar dalam pemrosesan input menjadi output — dengan kata lain, “I/O” bagi generasi baru.
Setelah itu, kami meluncurkan beberapa model Gemini pertama dan tercanggih kami sejauh ini, dengan performa terdepan di setiap tolok ukur kemampuan multimodal. Dua bulan kemudian, kami memperkenalkan Gemini 1.5 Pro yang membawa terobosan besar dengan rentang konteks panjangnya. Ia dapat menjalankan 1 juta token secara konsisten dalam proses produksi, melampaui semua model dasar berskala besar lain yang tersedia sekarang.
Kami ingin siapa saja dapat merasakan manfaat kecanggihan Gemini. Kami pun bekerja dengan cepat untuk membagikan semua kemajuan ini kepada Anda sekalian. Saat ini, lebih dari 1,5 juta developer telah menggunakan model Gemini di berbagai alat kami untuk men-debug kode, mendapatkan insight baru, dan membangun aplikasi AI generasi berikutnya.
Kami juga telah menghadirkan kapabilitas mutakhir Gemini di produk-produk kami untuk semakin membantu Anda. Kami akan menunjukkan beberapa contohnya hari ini dari Search, Foto, Workspace, Android, dan lainnya.
Kemajuan produk
Sekarang, Gemini telah mendukung semua produk “2 miliar pengguna” kami.
Kami juga telah memperkenalkan pengalaman baru, termasuk di perangkat seluler. Orang dapat berinteraksi dengan Gemini langsung melalui aplikasi yang tersedia di Android dan iOS, dan melalui Gemini Advanced yang menyediakan model tercanggih kami. Dalam tiga bulan saja, lebih dari 1 juta orang telah mendaftar untuk mencobanya, dan momentum yang kuat ini masih berlanjut.
Menyediakan ringkasan AI di Search
Salah satu transformasi paling menarik bersama Gemini bisa kita lihat di Google Search.
Dalam setahun terakhir, kami telah menjawab miliaran kueri sebagai bagian dari Search Generative Experience. Para pengguna memanfaatkannya untuk melakukan penelusuran dengan beragam cara yang benar-benar baru. Mereka mengajukan jenis pertanyaan baru maupun kueri yang lebih panjang dan lebih kompleks, bahkan dengan foto, dan mendapatkan hasil penelusuran terbaik yang tersedia di web.
Kami telah menguji pengalaman ini di luar Labs. Dan kami senang sekali melihat tidak hanya peningkatan penggunaan Search, tetapi juga peningkatan kepuasan pengguna.
Untuk itu, saya dengan senang hati mengumumkan bahwa kami akan mulai meluncurkan pengalaman inovatif Ringkasan AI ini kepada semua orang di AS minggu ini. Kami akan menghadirkannya di lebih banyak negara dalam waktu dekat.
Ada begitu banyak inovasi yang terjadi di Search. Dengan Gemini, kami dapat membuat pengalaman penelusuran yang jauh lebih membantu, termasuk dari dalam produk-produk kami.
Memperkenalkan Ask Photos
Salah satu contohnya adalah Google Foto, yang kami luncurkan hampir sembilan tahun yang lalu. Orang-orang telah menggunakannya untuk menyimpan dan mengelola kenangan terpenting mereka. Sekarang, ada lebih dari 6 miliar foto dan video yang di-upload setiap harinya.
Orang juga suka menggunakan Foto untuk melakukan penelusuran terkait hidup mereka.
Dan dengan Gemini, kami menjadikannya jauh lebih mudah.
Misalnya, Anda akan membayar parkir mobil tetapi lupa nomor pelatnya. Sekarang Anda dapat bertanya ke Foto. Ia tahu mobil yang sering muncul di foto Anda, menentukan mobil mana yang milik Anda, lalu menunjukkan nomor pelatnya.
Ask Photos (Tanya Foto) juga bisa membantu Anda menelusuri kenangan secara lebih mendalam. Sebagai contoh, Anda mungkin sedang mengingat-ingat perkembangan awal anak Anda, Lucia. Anda dapat bertanya ke Foto: “Kapan Lucia mulai bisa berenang?”
Dan Anda dapat melanjutkan pertanyaan itu dengan kueri yang lebih kompleks: “Tunjukkan perkembangan renang Lucia.”
Di sini Gemini tidak hanya melakukan penelusuran sederhana, tetapi juga mengidentifikasi beragam konteks — dari berenang di kolam renang, snorkeling di laut, hingga teks dan tanggal sertifikat renangnya. Foto mengemas semuanya menjadi satu, sehingga Anda dapat melihatnya sekaligus dan menikmati kembali kenangan menakjubkan itu. Kami akan meluncurkan Ask Photos musim panas ini, dengan kapabilitas lain segera menyusul.
Lebih banyak pengetahuan dengan multimodalitas dan konteks panjang
Alasan kami sejak awal merancang Gemini sebagai model multimodal adalah untuk mengakses pengetahuan dalam berbagai formatnya. Kami ingin membuat satu model yang mendukung semua modalitas. Jadi, tidak hanya memahami segala jenis input — ia juga bisa menemukan keterkaitan di antara input itu.
Multimodalitas begitu memperluas variasi pertanyaan yang dapat kita ajukan, serta jawaban yang akan kita terima. Konteks panjang mengembangkan kemampuan ini lebih lanjut, dengan memungkinkan kita memasukkan lebih banyak informasi: ratusan halaman teks, berjam-jam radio atau satu jam video, seluruh repositori kode… atau, bisa juga, sekitar 96 menu Cheesecake Factory.
Untuk menu sebanyak itu, diperlukan jendela konteks satu juta token, yang sekarang tersedia dengan Gemini 1.5 Pro. Teman-teman developer telah menggunakannya dengan beragam cara yang sangat menarik.2:26
Kami telah menyediakan Gemini 1.5 Pro dengan konteks panjang sebagai preview dalam beberapa bulan terakhir. Kami pun telah membuat serangkaian perbaikan kualitas dalam hal penerjemahan, coding, dan penalaran. Anda akan melihat semua update tersebut dalam model ini mulai hari ini.
Sekarang saya ingin mengumumkan bahwa kami akan menyediakan versi Gemini 1.5 Pro yang telah diperbaiki ini bagi semua developer di seluruh dunia. Selain itu, Gemini 1.5 Pro dengan 1 juta konteks hari ini juga langsung tersedia dalam 35 bahasa bagi konsumen di Gemini Advanced.
2 juta token di preview terbatas
Satu juta token telah membuka banyak kemungkinan baru. Luar biasa, tetapi saya pikir kami bisa melangkah lebih jauh lagi.
Maka hari ini, kami memperbesar jendela konteksnya menjadi 2 juta token, dan menyediakannya bagi developer sebagai preview terbatas (private preview).
Sungguh mengagumkan jika kita tengok ke belakang dan melihat kemajuan yang dapat tercapai dalam beberapa bulan saja. Ini mewujudkan satu lagi langkah maju kami dalam perjalanan ke tujuan akhir, yaitu konteks tak terbatas.
Menghadirkan Gemini 1.5 Pro di Workspace
Sejauh ini, kita sudah membahas dua kemajuan teknis: multimodalitas dan konteks panjang. Masing-masing saja sudah luar biasa. Dan jika dipadukan, keduanya dapat membuka kapabilitas yang lebih mendalam dan kecerdasan yang lebih besar.
Perpaduan ini terwujud dengan Google Workspace.
Orang selalu mencari email mereka di Gmail. Kami ingin membuat pekerjaan itu jauh lebih mudah dengan Gemini. Misalnya, sebagai orang tua, Anda ingin mengikuti perkembangan kabar sekolah anak Anda. Gemini dapat membantu Anda melakukannya.
Sekarang kita bisa meminta Gemini merangkum semua email terbaru dari sekolah. Di latar belakang, Gemini akan mencari email yang relevan dan bahkan menganalisis lampiran, misalnya PDF. Anda mendapatkan ringkasan berupa poin penting dan item tindakan.
Mungkin Anda sedang bepergian minggu ini dan tidak dapat menghadiri pertemuan dengan guru. Anda pun menerima rekaman pertemuan itu, dengan durasi satu jam. Kalau rekaman itu dari Google Meet, Anda dapat meminta Gemini membuat ringkasannya. Ada kelompok orang tua yang sedang mencari sukarelawan, dan Anda kebetulan memiliki waktu luang. Tentu saja, Gemini dapat membuatkan draf email balasan bagi Anda untuk bergabung dengan mereka.
Ada banyak contoh lain tentang bagaimana Gemini dapat mempermudah kehidupan sehari-hari. Gemini 1.5 Pro tersedia mulai hari ini di Workspace Labs. Aparna telah menjelaskannya lebih lanjut.
Output audio di NotebookLM
Kita baru saja melihat contoh output teks. Namun, dengan model multimodal, kita bisa melakukan jauh lebih banyak lagi.
Kami telah membuat kemajuan, tetapi masih akan ada banyak lagi yang baru. Salah satunya adalah Ringkasan Audio di NotebookLM. Fitur ini menggunakan Gemini 1.5 Pro untuk mengambil materi sumber Anda dan menghasilkan percakapan audio interaktif yang dipersonalisasi.
Seperti inilah peluang yang hadir dengan multimodalitas. Tak lama lagi, Anda akan dapat memadupadankan input dan output. Inilah yang kami maksud dengan I/O untuk generasi baru. Namun, bagaimana kalau kami melangkah lebih jauh lagi?
Melangkah lebih jauh dengan Agen AI
Dengan Agen AI, kami melihat peluang untuk membawa teknologi ini lebih maju lagi. Saya memandang Agen AI sebagai sistem cerdas dengan kemampuan menalar, membuat rencana, dan mengingat. Mereka mampu “berpikir” beberapa langkah ke depan, dan bekerja lintas software dan sistem, guna melakukan sesuatu untuk Anda. Dan yang paling penting, semuanya tetap di bawah pengawasan Anda.
Teknologi ini masih di tahap awal, tetapi izinkan saya menunjukkan kasus penggunaan yang ingin kami upayakan solusinya.
Kita mulai dengan belanja. Belanja sepatu memang seru, tetapi kalau ukurannya ternyata tidak pas, proses mengembalikannya cenderung kurang seru.
Bayangkan jika Gemini bisa melakukan semua langkah ini untuk Anda:
Mencari struknya di kotak masuk Anda…
Mencari nomor pesanannya dari email Anda…
Mengisi formulir pengembalian barang…
Bahkan menjadwalkan pengambilan oleh kurir.
Jauh lebih mudah, ‘kan?
Kita lihat satu contoh lagi yang sedikit lebih kompleks.
Misalnya Anda baru saja pindah ke Chicago. Bayangkan Gemini dan Chrome bekerja sama membantu Anda melakukan sejumlah hal — mengatur, menalar, dan membuat sesuatu untuk Anda.
Sebagai contoh, Anda mungkin ingin mengeksplorasi kota dan mencari layanan tertentu di sekitar — dari jasa dry cleaner sampai dog walker. Selain itu, Anda perlu memperbarui alamat Anda di sejumlah situs.
Gemini dapat membantu semua tugas tersebut dan meminta Anda memberikan lebih banyak informasi jika diperlukan — jadi, kendali selalu di tangan Anda.
Bagian ini sangatlah penting — saat membuat prototipe pengalaman seperti ini, kami selalu berpikir keras tentang cara melindungi privasi, menjaga keamanan, dan memberikan manfaat untuk siapa saja.
Ini hanyalah kasus penggunaan sederhana, tetapi menggambarkan jenis masalah yang ingin kami pecahkan dengan membangun sistem cerdas yang mampu berpikir ke depan, menalar, dan membuat rencana — semua untuk Anda.
Artinya untuk misi kami
Kehebatan Gemini — dengan multimodalitas, konteks panjang, dan agen — membawa kita lebih dekat dengan tujuan akhir kami: membuat AI bermanfaat bagi siapa saja.
Kami melihat ini sebagai cara utama kami untuk berusaha mewujudkan misi kami: Mengelola informasi dunia dari semua input, membuatnya mudah diakses dengan output apa saja, dan mengombinasikan informasi dari seluruh dunia dengan informasi dari ANDA, dengan cara yang benar-benar membantu Anda.
Membuat terobosan baru
Untuk merealisasikan potensi penuh AI, kami harus membuat terobosan baru. Tim Google DeepMind telah bekerja keras untuk itu.
Kami telah melihat tingginya minat pada 1.5 Pro dan jendela konteks panjangnya. Namun, kami juga mendengar dari developer bahwa mereka menginginkan sesuatu yang lebih cepat dan efektif biaya. Untuk itu, besok kami akan memperkenalkan Gemini 1.5 Flash, model lebih ringan yang dibuat untuk skala lebih kecil. Model ini dioptimalkan untuk tugas yang mengutamakan latensi dan biaya rendah. 1.5 Flash akan tersedia di AI Studio dan Vertex AI mulai hari Selasa.
Kemudian, kami selalu ingin membangun agen universal yang dapat membantu kehidupan sehari-hari. Project Astra menunjukkan kapabilitas pemahaman multimodal dan percakapan real-time.2:17
Kami juga telah membuat kemajuan dalam pembuatan video dan gambar dengan Veo dan Imagen 3, serta memperkenalkan Gemma 2.0, model terbuka generasi berikutnya dari kami untuk inovasi AI yang bertanggung jawab. Silakan baca lebih lanjut penjelasan dari Demis Hassabis.
Infrastruktur untuk era AI: Perkenalkan Trilium
Untuk melatih model AI mutakhir, dibutuhkan daya komputasi yang besar. Permintaan industri untuk komputasi ML telah tumbuh 1 juta kali lipat dalam enam tahun terakhir. Dan setiap tahun, angkanya tumbuh sepuluh kali lipat.
Google siap menjawab tantangan ini. Selama 25 tahun, kami telah berinvestasi dalam infrastruktur teknis kelas dunia. Dari hardware mutakhir untuk mendukung Search, hingga tensor processing unit kustom yang menunjang kemajuan AI kami.
Gemini dilatih dan disediakan seluruhnya di TPU generasi keempat dan kelima kami. Sementara itu, perusahaan AI terkemuka lainnya, termasuk Anthropic, telah melatih model mereka dengan TPU juga.
Hari ini kami sangat bersemangat untuk mengumumkan TPU generasi ke-6 kami, Trillium. Trillium adalah TPU kami yang paling efektif dan paling efisien sejauh ini, memberikan performa komputasi 4,7x lipat lebih tinggi per chip dibandingkan generasi sebelumnya, TPU v5e.
Kami akan menyediakan Trillium untuk pelanggan Cloud kami pada akhir 2024.
Selain TPU, kami juga dengan bangga menawarkan CPU dan GPU untuk mendukung segala workload. Ini termasuk prosesor Axion baru yang kami umumkan bulan lalu, Arm-based CPU kustom pertama kami yang memberikan performa dan efisiensi energi yang terdepan di industri.
Kami juga bangga menjadi salah satu penyedia Cloud pertama yang menawarkan GPU mutakhir Blackwell dari NVIDIA, akan tersedia awal tahun 2025. Kami beruntung telah lama bermitra dengan NVIDIA, dan sangat bersemangat untuk menyediakan kapabilitas terdepan Blackwell kepada pelanggan kami.
Chip adalah bagian dasar dari sistem end-to-end terintegrasi kami, dari hardware yang dioptimalkan untuk performa dan software terbuka, hingga model konsumsi yang fleksibel. Semua ini dipadukan di AI Hypercomputer kami, sebuah arsitektur superkomputer terobosan baru.
Bisnis dan developer menggunakannya untuk mengatasi tantangan yang lebih kompleks, dengan efisiensi dua kali lipat jika dibandingkan dengan membeli hardware dan chip mentah. Kemajuan AI Hypercomputer kami dimungkinkan salah satunya oleh pendekatan sistem pendingin cair kami di pusat data.
Kami telah melakukannya selama hampir satu dekade, jauh sebelum pendekatan ini dianggap yang terdepan di industri. Dan saat ini, total kapasitas fleet yang kami kerahkan untuk sistem pendingin cair mencapai hampir 1 gigawatt dan masih terus bertambah — hampir 70 kali lipat kapasitas fleet lain mana pun.
Melandasi semuanya, kami memiliki skala jaringan sangat besar yang menghubungkan infrastruktur kami di seluruh dunia. Jaringan fiber darat dan bawah laut kami membentang sepanjang setidaknya 2 juta mil: lebih dari 10 kali lipat (!) jangkauan yang dimiliki penyedia cloud terkemuka lainnya.
Kami akan terus melakukan investasi yang diperlukan untuk memajukan inovasi AI dan menghadirkan kapabilitas mutakhir.
Perkembangan Search paling menarik sejauh ini
Salah satu bidang investasi dan inovasi terbesar kami adalah untuk produk pertama kami, Search. Dua puluh lima tahun yang lalu, kami menciptakan Search untuk membantu orang memanfaatkan bergelombang-gelombang informasi online.
Pada setiap peralihan platform, kami selalu menghadirkan terobosan untuk membantu Anda mencari informasi dengan lebih baik. Melalui perangkat seluler, kami memungkinkan jenis pertanyaan dan jawaban baru — menggunakan konteks yang lebih baik, kepekaan lokasi, dan informasi real-time. Melalui kemajuan di bidang natural language understanding dan computer vision, kami memungkinkan cara baru melakukan penelusuran, dengan suara, atau dengan menyanyikan nada untuk menemukan lagu kesukaan; atau dengan gambar, misalnya gambar bunga yang Anda lihat saat berjalan kaki. Dan sekarang, Anda bahkan dapat melingkari objek di layar untuk menelusurinya, misalnya sepatu baru yang Anda ingin beli. Beli saja dulu, nanti dikembalikan kalau tidak cocok!
Tentu saja, Search di Era Gemini akan membawa kecanggihan ini lebih jauh lagi, memadukan kekuatan infrastruktur kami, kapabilitas AI terkini, standar kualitas informasi kami yang tinggi, serta pengalaman berpuluh-puluh tahun kami dalam menyajikan kekayaan konten web kepada Anda. Hasilnya adalah produk yang benar-benar memudahkan Anda.
Google Search adalah AI generatif yang siap mendampingi rasa ingin tahu manusia. Dan ini adalah perkembangan Search yang paling menarik sejauh ini bagi kami. Baca selengkapnya tentang Search di Era Gemini dari Liz Reid.
Pengalaman Gemini yang lebih cerdas
Gemini lebih dari sekadar chatbot. Ia didesain untuk menjadi asisten pribadi yang dapat membantu Anda menangani tugas yang kompleks dan melakukan tindakan untuk Anda.
Berinteraksi dengan Gemini harus terasa seperti bercakap-cakap dan intuitif. Maka, kami mengumumkan pengalaman Gemini baru yang membawa kita lebih dekat ke visi itu, yaitu Live. Pengalaman ini memungkinkan Anda melakukan percakapan secara mendalam dengan Gemini menggunakan suara Anda. Kami juga akan menghadirkan 2 juta token di Gemini Advanced pada tahun ini, memungkinkannya meng-upload dan menganalisis file super-padat seperti video dan kode panjang. Sissie Hsiao telah menjelaskannya lebih lanjut.
Gemini di Android
Dengan miliaran pengguna Android di seluruh dunia, kami ingin mengintegrasikan Gemini lebih jauh ke dalam pengalaman pengguna. Sebagai asisten AI baru Anda, Gemini hadir untuk membantu Anda kapan saja, di mana saja. Kami pun telah mengintegrasikan model Gemini ke dalam Android, termasuk model on-device kami yang terbaru: Gemini Nano dengan Multimodalitas, yang mampu memproses teks, gambar, audio, dan ujaran untuk membuka berbagai pengalaman baru sambil terus menjaga privasi informasi di perangkat Anda. Sameer Samat telah membagikan berita Android ini di sini.
Pendekatan bertanggung jawab kami terhadap AI
Kami terus mengerjakan AI dengan pendekatan yang berani dan penuh semangat. Namun, kami juga memastikan bahwa kami melakukannya dengan bertanggung jawab. Kami mengembangkan sebuah metode mutakhir yang kami sebut red teaming berbantuan AI, yang memanfaatkan terobosan di bidang gaming dari Google DeepMind, seperti AlphaGo, untuk meningkatkan kualitas model kami. Selain itu, kami telah memperluas ketersediaan SynthID, alat watermarking kami yang menjadikan konten buatan AI lebih mudah diidentifikasi, untuk dua modalitas baru: teks dan video. James Manyika telah menjelaskannya lebih lanjut.
Menciptakan masa depan bersama-sama
Semua ini menunjukkan kemajuan penting yang kami capai dengan pendekatan yang berani dan bertanggung jawab untuk membuat AI bermanfaat bagi siapa saja.
Kami telah lama menggunakan pendekatan yang mengutamakan AI. Berpuluh-puluh tahun keunggulan riset kami telah menghasilkan banyak terobosan modern yang mendorong kemajuan AI, bagi kami maupun industri. Selain itu, kami memiliki:
- Infrastruktur terdepan di dunia yang disiapkan untuk era AI
- Inovasi mutakhir di Search, sekarang dengan dukungan Gemini
- Produk yang membantu dan berskala luar biasa — termasuk 15 produk dengan setengah miliar pengguna
- Dan platform yang memungkinkan siapa saja — partner, pelanggan, kreator, dan Anda semua — menciptakan masa depan.
Kemajuan ini hanya mungkin terjadi berkat komunitas developer kami yang luar biasa hebat. Andalah yang mewujudkannya, melalui pengalaman dan aplikasi yang Anda bangun setiap hari. Jadi, bagi semua hadirin di Shoreline dan jutaan orang yang menonton dari seluruh dunia, mari kita sambut segala peluang di masa depan yang akan kita ciptakan bersama-sama.