Memperkenalkan Gemini 2.0: Model AI baru kami untuk era agen AI yang baru

11 Des 2024

Sundar Pichai

CEO of Google and Alphabet

Demis Hassabis

CEO Google DeepMind

Koray Kavukcuoglu

CTO of Google DeepMind

Tahun yang lalu, kami terus mencapai kemajuan luar biasa dalam kecerdasan buatan. Hari ini, kami merilis model pertama dari rangkaian model Gemini 2.0: sebuah versi eksperimental Gemini 2.0 Flash. Ini adalah model andalan kami model dengan latensi rendah dan performa lebih baik dalam skala besar, menggunakan teknologi tercanggih kami.

Kami juga membagikan kemajuan riset agentic AI kami dengan menampilkan prototipe yang menggunakan kapabilitas multimodal native Gemini 2.0.

Gemini 2.0 Flash

Gemini 2.0 Flash memanfaatkan kesuksesan 1.5 Flash, model terpopuler kami di kalangan developer, dengan performa lebih baik dan waktu respons yang sama cepatnya. Menariknya, 2.0 Flash bahkan mengalahkan performa 1.5 Pro dalam beberapa metrik penting, yaitu dengan kecepatan dua kali lebih tinggi. 2.0 Flash juga dilengkapi dengan kapabilitas baru. Selain mendukung input multimodal seperti gambar, video, dan audio, 2.0 Flash sekarang mendukung output multimodal seperti kombinasi teks dan gambar yang dihasilkan secara native serta audio multibahasa text-to-speech (TTS) yang bisa dikendalikan. 2.0 Flash juga mampu secara native memanggil alat seperti Google Search, eksekusi kode, serta fungsi yang ditentukan pengguna pihak ketiga.

Tujuan kami adalah menyediakan model kami bagi publik secara aman dan cepat. Bulan lalu, kami telah membagikan versi eksperimental awal Gemini 2.0 dan mendapatkan masukan-masukan bagus dari para developer.

Gemini 2.0 Flash sekarang tersedia sebagai model eksperimental bagi para developer melalui Gemini API di Google AI Studio dan Vertex AI input multimodal dan output teks bagi semua developer serta text-to-speech dan pembuatan gambar native bagi partner akses awal. Kami akan menyediakannya secara umum pada Januari disertai dengan lebih banyak ukuran model.

Untuk membantu developer membuat aplikasi dinamis dan interaktif, kami juga merilis Multimodal Live API baru yang memiliki audio real-time, input streaming video, serta kemampuan untuk menggunakan alat kombinasi. Informasi lebih lanjut tentang 2.0 Flash dan Multimodal Live API ada di blog developer kami.

Gemini 2.0 tersedia di aplikasi Gemini, asisten AI kami

Selain itu, mulai hari ini pengguna Gemini di seluruh dunia dapat mengakses versi 2.0 Flash Experimental yang dioptimalkan untuk chat dengan memilihnya di drop-down model di versi desktop serta web seluler. Versi ini juga akan segera tersedia di aplikasi seluler Gemini. Dengan model baru ini, pengguna bisa merasakan bahkan lebih banyak manfaat dari asisten Gemini.

Awal tahun depan, kami akan menambahkan Gemini 2.0 ke lebih banyak produk Google.

Mengakses pengalaman agentic AI dengan Gemini 2.0

Kapabilitas tindakan antarmuka pengguna native Gemini 2.0 Flash, bersama dengan peningkatan lain seperti penalaran multimodal, pemahaman konteks panjang, perencanaan dan pelaksanaan instruksi kompleks, pemanggilan fungsi komposisional, penggunaan alat native, serta latensi yang lebih baik, berpadu untuk memungkinkan pengalaman agentic AI yang baru.

Penerapan praktis agentic AI adalah area riset yang penuh peluang menarik. Kami mengeksplorasi area baru ini dengan serangkaian prototipe yang dapat membantu pengguna menyelesaikan berbagai hal. Upaya ini mencakup pembaruan terhadap Project Astra, prototipe riset kami yang menjajaki kapabilitas mendatang dari asisten AI universal, Project Mariner, yang mengeksplorasi masa depan interaksi antara manusia dan agentic AI, dimulai dari browser; serta Jules, sebuah agentic kode berteknologi AI yang dapat membantu para developer.

Pengembangannya sedang dalam tahap awal, tetapi kami sangat tertarik untuk melihat bagaimana para penguji menggunakan kapabilitas-kapabilitas baru ini serta pelajaran apa yang bisa kami dapatkan sehingga kami dapat membuatnya tersedia secara lebih luas dalam produk-produk di masa depan.

Project Astra: Agentic AI yang menggunakan pemahaman multimodal di dunia nyata

Sejak kami memperkenalkan Project Astra pada acara I/O, kami telah belajar banyak hal dari para penguji tepercaya yang menggunakannya di ponsel Android. Masukan berharga mereka telah membantu kami lebih memahami bagaimana asisten AI universal dapat berfungsi pada praktiknya, termasuk implikasinya dari segi keamanan dan etika. Peningkatan dalam versi terakhir yang dibuat dengan Gemini 2.0 mencakup:

Dialog yang lebih baik: Project Astra sekarang mampu bercakap-cakap dalam berbagai bahasa dan dalam campuran beberapa bahasa, dengan pemahaman terhadap akses dan kata-kata tidak umum yang lebih baik.
Penggunaan alat baru: Dengan Gemini 2.0, Project Astra dapat menggunakan Google Search, Lens, dan Maps, membuatnya makin berguna sebagai asisten sehari-hari Anda.
Memori yang lebih baik: Kami meningkatkan kemampuan Project Astra untuk mengingat tanpa mengambil alih kendali dari tangan Anda. Project Astra sekarang memiliki hingga 10 memori dalam sesi serta dapat mengingat lebih banyak percakapannya dengan Anda sehingga menjadi lebih dipersonalisasi bagi Anda.
Latensi yang lebih baik: Dengan kemampuan baru streaming dan pemahaman audio native, agentic AI ini dapat memahami bahasa dengan latensi yang setara dengan percakapan manusia.

Kami sedang berusaha untuk menghadirkan kapabilitas-kapabilitas ini ke produk Google seperti aplikasi Gemini, asisten AI kami, serta ke format perangkat lain, seperti kacamata. Kami juga mulai memperluas program penguji tepercaya kami ke lebih banyak orang, termasuk ke sebuah grup kecil yang akan segera mulai menguji Project Astra di prototipe kacamata.

Project Mariner: Agentic AI yang dapat membantu Anda melakukan hal-hal kompleks

Project Mariner adalah prototipe riset awal yang dibuat dengan Gemini 2.0 yang mengeksplorasi masa depan interaksi antara manusia dan agentic AI, dimulai dari browser. Sebagai prototipe riset, Project Mariner memiliki kemampuan pemahaman dan penalaran terhadap informasi yang ada di layar browser, termasuk piksel dan elemen web seperti teks, kode, gambar, dan formulir, lalu menggunakan informasi itu melalui sebuah ekstensi Chrome eksperimental untuk melakukan berbagi hal bagi Anda.

Saat dievaluasi terhadap benchmark WebVoyager, yang menguji performa agentic AI dalam pelaksanaan aktivitas dunia nyata yang menyeluruh, Project Mariner mencapai hasil mengesankan sebesar 83.5% berfungsi sebagai konfigurasi agentic AI tunggal.

Hasil memang masih awal, tetapi menunjukkan bahwa Project Mariner menjadi secara teknis mampu melakukan navigasi di dalam browser, meskipun tidak selalu akurat dan masih lambat, tetapi aspek ini akan ditingkatkan secara cepat seiring waktu.

Untuk mengembangkannya secara aman dan bertanggung jawab, kami sedang aktif melakukan riset terhadap jenis-jenis risiko baru serta mitigasinya sambil menjaga keterlibatan manusia. Misalnya, Project Mariner hanya dapat mengetik, men-scroll, atau mengklik di tab yang aktif di browser dan meminta konfirmasi final dari pengguna sebelum melakukan tindakan sensitif, seperti membeli sesuatu.

Para penguji tepercaya sedang mulai menguji Project Mariner menggunakan ekstensi Chrome eksperimental sementara kami memulai diskusi dengan ekosistem web.

Jules: Agen AI untuk developer

Selanjutnya kami mengeksplorasi bagaimana agentic AI dapat membantu developer dengan Jules, sebuah agentic AI untuk coding yang langsung terintegrasi dengan alur kerja GitHub. Jules mampu mengatasi masalah, menyusun rencana, dan melaksanakannya, semuanya dengan arahan dan pengawasan dari developer. Upaya ini adalah bagian dari sasaran jangka panjang kami untuk mengembangkan agentic AI yang bermanfaat dalam semua domain, termasuk coding.

Informasi lebih lanjut tentang eksperimen yang sedang berlangsung ini ada di postingan blog developer kami.

Agen AI di game dan domain lain

Google DeepMind memiliki sejarah panjang dalam menggunakan game untuk membantu model AI menjadi lebih baik dalam mengikuti aturan, menyusun rencana, dan mengembangkan logika. Misalnya, baru saja minggu ini kami memperkenalkan Genie 2, model AI kami yang mampu membuat variasi tak terhingga dari dunia 3D untuk game dari hanya satu gambar. Memanfaatkan tradisi ini dan Gemini 2.0, kami membuat agentic AI yang mampu membantu Anda menjelajahi dunia virtual di game video. Agentic AI ini dapat menganalisis game cuma berdasarkan aksi yang terjadi di layar dan menawarkan saran tentang apa yang harus selanjutnya dilakukan dalam percakapan real-time.

Kami berkolaborasi dengan developer game terdepan seperti Supercell untuk mengeksplorasi bagaimana agentic AI ini berfungsi, menguji kemampuannya untuk menafsirkan aturan dan tantangan dalam berbagai macam game, mulai dari strategi seperti “Clash of Clans” hingga simulator peternakan seperti “Hay Day”.

Tidak hanya bertindak sebagai pendamping virtual saat bermain game, agen ini bahkan bisa memanfaatkan Google Search untuk membantu Anda mengakses referensi pengetahuan tentang game yang melimpah di web.

Selain mengeksplorasi kapabilitas agentic AI dalam dunia virtual, kami juga bereksperimen dengan agentic AI yang dapat membantu di dunia nyata dengan menerapkan kapabilitas penalaran spasial Gemini 2.0 ke area robotik. Meskipun masih dalam tahap awal, menurut kami potensinya menarik.

Anda bisa mempelajari lebih lanjut prototipe riset ini dan eksperimennya di labs.google.

Pengembangan secara bertanggung jawab di era agentic AI

Gemini 2.0 Flash dan prototipe riset kami memampukan kami menguji dan melakukan iterasi terhadap kapabilitas-kapabilitas baru di garis depan riset AI yang pada akhirnya akan membuat produk-produk Google lebih bermanfaat.

Saat mengembangkan teknologi-teknologi baru ini, kami menyadari tanggung jawab yang diperlukan serta berbagai pertanyaan yang dipicu oleh agentic AI dalam hal keselamatan dan keamanan. Itulah sebabnya kami melakukan pengembangan secara eksploratif dan bertahap, melakukan riset terhadap berbagai prototipe, menerapkan pelatihan keselamatan secara iteratif, bekerja sama dengan penguji tepercaya serta pakar eksternal, dan melakukan penilaian risiko serta evaluasi keselamatan dan jaminan secara ekstensif.

Misalnya:

Sebagai bagian dari proses evaluasi keselamatan kami, kami bekerja sama dengan grup peninjau internal kami yang sudah lama ada, yaitu Responsibility and Safety Committee (RSC), untuk mengidentifikasi dan memahami potensi risiko yang ada.
Kapabilitas penalaran Gemini 2.0 telah memungkinkan kemajuan besar dalam pendekatan pengujian keamanan dengan bantuan AI kami, termasuk kemampuan untuk tidak hanya mendeteksi risiko, tetapi juga otomatis membuat evaluasi dan data pelatihan untuk memitigasinya. Artinya, kami bisa secara lebih efisien mengoptimalkan model kami untuk pengamanan dalam skala besar.
Seiring meningkatnya kompleksitas potensi output berkat multimodalitas Gemini 2.0, kami akan terus mengevaluasi dan melatih model kami dengan input dan output gambar dan audio untuk membantu meningkatkan keselamatan.
Dengan Project Astra, kami mengeksplorasi mitigasi potensial terhadap dibagikannya informasi sensitif oleh pengguna kepada agentic AI kami, dan kami sudah membuat kontrol privasi yang memudahkan pengguna untuk menghapus sesi. Kami juga terus menyelidiki cara-cara untuk memastikan agentic AI bertindak sebagai sumber informasi yang andal dan tidak melakukan tindakan yang tidak Anda inginkan.
Dengan Project Mariner, kami berusaha untuk memastikan model kami belajar memprioritaskan perintah pengguna di atas upaya pihak ketiga melakukan injeksi perintah, sehingga model kami dapat mengidentifikasi instruksi jahat dari sumber eksternal dan mencegah penyalahgunaan. Hal ini mencegah pengguna terkena upaya penipuan dan phishing melalui contohnya instruksi jahat yang disembunyikan di email, dokumen, atau situs.

Kami sangat yakin bahwa satu-satunya cara mengembangkan AI adalah melakukannya secara bertanggung jawab dari awal dan kami akan terus memprioritaskan upaya menjadikan keamanan dan tanggung jawab sebagai elemen penting selama proses pengembangan model dan agentic AI kami.

Gemini 2.0, agen AI dan potensinya yang tak terbatas

Rilis yang kami lakukan hari ini menandai bab baru bagi model Gemini kami. Dengan dirilisnya Gemini 2.0 Flash dan serangkaian prototipe riset yang mengeksplorasi peluang agentic AI, kami telah mencapai titik penting yang menarik dalam era Gemini. Kami berharap untuk terus bisa secara aman mengeksplorasi semua peluang yang mungkin tercapai seiring kami merintis jalan menuju AGI.

Baca selengkapnya tentang Gemini 2.0 dan berbagai pengalaman baru yang akan dihadirkannya, di artikel ini.

Diposting di:

Memperkenalkan Gemini 2.0: Model AI baru kami untuk era agen AI yang baru

Artikel terkait