Memperkenalkan Gemini: model AI kami yang terbesar dan tercanggih

12 Des 2023

Demis Hassabis

CEO Google DeepMind

Menjadikan AI lebih bermanfaat bagi semua

Oleh Demis Hassabis, CEO Google DeepMind (mewakili Tim Gemini)

Catatan pengantar oleh Sundar Pichai, CEO Google dan Alphabet

Setiap perkembangan teknologi adalah kesempatan untuk mendorong penemuan ilmiah, mempercepat kemajuan manusia, dan meningkatkan kualitas hidup. Saya merasa transisi yang kita lihat pada AI saat ini akan menjadi perubahan terbesar sepanjang masa hidup kita, jauh melampaui peralihan teknologi ke platform web maupun seluler. AI berpotensi menciptakan peluang bagi manusia di mana saja — baik dalam konteks yang sehari-hari maupun yang luar biasa. Ia akan membawa gelombang baru inovasi dan kemajuan ekonomi, serta mendorong pengetahuan, pembelajaran, kreativitas, dan produktivitas dalam skala yang belum pernah kita alami sebelumnya.

Antusiasme dalam diri saya terpantik oleh potensi itu: peluang untuk menjadikan AI bermanfaat bagi semua orang, di mana pun mereka berada.

Hampir delapan tahun setelah kami menjadi perusahaan yang memprioritaskan AI, kemajuan terjadi semakin cepat. Jutaan orang kini menggunakan AI generatif di berbagai produk kami untuk melakukan hal-hal yang tidak mungkin dilakukan bahkan setahun lalu, dari menemukan jawaban untuk pertanyaan yang lebih kompleks hingga memanfaatkan alat baru untuk berkolaborasi dan berkreasi. Para developer menggunakan model dan infrastruktur kami untuk membuat aplikasi AI generatif baru, sementara banyak startup dan perusahaan di seluruh dunia terus berkembang dengan dukungan alat-alat AI kami.

Momentum ini luar biasa, tetapi yang kita lihat sekarang hanyalah awal dari perkembangan yang mungkin terjadi.

Kami bekerja dalam bidang ini dengan pendekatan yang berani dan bertanggung jawab. Artinya, kami akan ambisius dalam melakukan riset dan mewujudkan kecanggihan yang dapat bermanfaat besar bagi pengguna dan masyarakat, tetapi dengan mengutamakan keamanan serta dengan bekerja bersama pemerintah dan para pakar untuk mengatasi risiko seiring AI bertambah maju. Kami terus berinvestasi untuk membuat alat, model dasar, dan infrastruktur terbaik yang kemudian kami manfaatkan pada produk kami sendiri dan pihak lain, dengan selalu mengikuti panduan dari prinsip-prinsip AI kami.

Kini, kami akan mengambil langkah baru bersama Gemini, model kami yang tercanggih dan terbesar sejauh ini, dengan performa unggul di banyak tolok ukur utama. Versi pertama kami, Gemini 1.0, dioptimalkan untuk berbagai ukuran: Ultra, Pro, dan Nano. Ketiganya merupakan model pertama era Gemini dan perwujudan pertama dari visi kami saat membentuk Google DeepMind sebelumnya pada tahun ini. Model era baru ini adalah salah satu upaya ilmiah dan teknis terbesar yang pernah kami kerjakan sebagai sebuah perusahaan. Saya sungguh tidak sabar untuk melihat perkembangannya dan potensi manfaat Gemini bagi pengguna di mana saja.
- Sundar

AI telah menjadi misi hidup saya sedari dulu, sebagaimana pula banyak rekan periset saya. Sejak membuat program AI untuk game komputer ketika remaja, serta sepanjang pengalaman saya sebagai periset neurosains yang ingin memahami cara kerja otak, saya selalu percaya bahwa jika berhasil membangun mesin yang lebih cerdas, kita akan dapat memanfaatkannya secara luar biasa untuk kepentingan umat manusia.

Di Google DeepMind, hal yang menggerakkan kami adalah harapan akan terwujudnya dunia yang didukung oleh AI secara bertanggung jawab. Sudah lama kami ingin membangun model AI generasi baru, yang terinspirasi oleh cara orang memahami dan berinteraksi dengan dunia. Sebuah AI yang tidak terasa seperti software cerdas, tetapi lebih seperti sesuatu yang berguna dan intuitif — layaknya rekan pembantu atau asisten yang ahli.

Hari ini, kami satu langkah lebih dekat menuju visi tersebut dengan dirilisnya Gemini, model tercanggih dan terbesar yang pernah kami bangun.

Gemini adalah hasil upaya kolaboratif berskala besar dari berbagai tim di Google, termasuk rekan-rekan kami di Google Research. Sedari awal dirancang untuk menjadi multimodal, Gemini dapat membuat generalisasi serta secara lancar memahami, memadukan, dan beroperasi dengan berbagai jenis informasi, termasuk teks, kode, audio, gambar, dan video.

Gemini juga merupakan model kami yang paling fleksibel sejauh ini — mampu bekerja efisien di semua lingkungan, dari pusat data hingga perangkat seluler. Beragam kapabilitas terbarunya akan membuka begitu banyak kemungkinan bagi developer dan perusahaan dalam berkreasi dan berkembang bersama AI.

Kami telah mengoptimalkan Gemini 1.0, versi pertama kami, untuk tiga ukuran:

Gemini Ultra — model terbesar dan tercanggih kami untuk tugas dengan kompleksitas tinggi.
Gemini Pro — model terbaik kami untuk berbagai jenis dan skala tugas.
Gemini Nano — model terefisien kami untuk tugas yang dijalankan di perangkat.

Performa unggul

Kami telah menguji ketiga model Gemini dengan ketat dan mengevaluasi performa masing-masing dalam berbagai tugas. Dari pemahaman natural gambar, audio, dan video hingga penalaran matematis, performa Gemini Ultra berhasil melampaui hasil terbaik sebelumnya untuk 30 dari 32 tolok ukur akademis yang umum digunakan dalam penelitian dan pengembangan LLM (model bahasa besar).

Dengan skor 90,0%, Gemini Ultra menjadi model pertama yang mengungguli performa manusia ahli dalam MMLU (pemahaman bahasa multitugas skala besar), yang menggunakan kombinasi dari 57 topik, seperti matematika, fisika, sejarah, hukum, kedokteran, dan etika, untuk menguji pengetahuan multidisiplin dan kemampuannya memecahkan masalah.

Pendekatan tolok ukur baru kami dalam MMLU memungkinkan Gemini menggunakan kapabilitas penalarannya untuk berpikir lebih cermat sebelum menjawab pertanyaan sulit, sehingga memberikan hasil yang jauh lebih baik dibanding jika hanya menggunakan first impression-nya.

Gemini menunjukkan performa unggul dalam berbagai tolok ukur, termasuk teks dan penulisan kode.

Gemini Ultra juga mencatatkan skor unggul 59,4% untuk tolok ukur MMMU yang baru, yang meliputi tugas-tugas multimodal di berbagai domain yang membutuhkan penalaran cermat.

Dengan tolok ukur gambar yang kami uji, Gemini Ultra mengungguli model terbaik sebelumnya, tanpa bantuan dari sistem Object Character Recognition (OCR) yang mengekstraksi teks dari gambar untuk diproses lebih lanjut. Semua tolok ukur ini membuktikan multimodalitas bawaan Gemini dan menunjukkan tanda-tanda awal kemampuan penalaran Gemini yang lebih kompleks.
Lihat detail selengkapnya di dalam laporan teknis Gemini kami.

Gemini menunjukkan performa unggul dalam berbagai tolok ukur.

Kapabilitas generasi baru

Hingga saat ini, pembuatan model multimodal umumnya dilakukan dengan melatih komponen-komponen secara terpisah untuk setiap modalitas, lalu menyatukan semuanya untuk memungkinkan fungsionalitas multimodal hingga taraf tertentu. Model ini bisa saja melakukan beberapa tugas dengan baik, misalnya mendeskripsikan gambar, tetapi kesulitan dengan penalaran yang lebih konseptual dan kompleks.

Kami mendesain Gemini agar menjadi multimodal secara bawaan, dengan melatihnya sejak awal untuk berbagai modalitas. Kemudian, kami menggunakan data multimodal tambahan untuk meningkatkan efektivitasnya. Gemini mampu dengan lancar memahami dan melakukan penalaran tentang segala jenis input sedari awal, jauh lebih baik daripada model multimodal yang ada saat ini — dan kapabilitasnya pun unggul hampir di semua domain.

Penalaran canggih

Kapabilitas penalaran multimodal canggih pada Gemini 1.0 dapat memahami informasi tulisan dan visual yang kompleks. Hal ini memberinya kemampuan unik untuk mengungkap pengetahuan yang mungkin sulit terkuak di tengah jumlah data yang begitu besar.

Kemampuannya yang luar biasa dalam mengekstraksi insight dari ratusan ribu dokumen dengan membaca, menyaring, dan memahami informasi akan membantu menghasilkan terobosan baru dengan sangat cepat di banyak bidang, dari sains hingga keuangan.

Memahami teks, gambar, audio, dan banyak lagi

Gemini 1.0 dilatih untuk mengenali dan memahami teks, gambar, audio, dan banyak lagi pada saat yang bersamaan, sehingga dapat lebih memahami informasi kompleks dan menjawab pertanyaan tentang topik yang rumit. Oleh karena itu, ia dapat menjelaskan penalaran dengan baik di bidang yang tidak sederhana, seperti matematika dan fisika.

Penulisan kode tingkat lanjut

Versi pertama Gemini kami dapat memahami, menjelaskan, dan menghasilkan kode berkualitas tinggi dalam bahasa pemrograman yang paling populer, seperti Python, Java, C++, dan Go. Kompatibilitasnya dengan banyak bahasa dan kemampuannya menalar informasi kompleks menjadikan Gemini salah satu model dasar terdepan di dunia untuk penulisan kode.

Gemini Ultra unggul di beberapa tolok ukur penulisan kode, termasuk HumanEval, sebuah standar industri yang penting untuk mengevaluasi performa dalam tugas-tugas penulisan kode, dan Natural2Code, set data khusus internal kami yang menggunakan sumber buatan penulis (author-generated) alih-alih informasi berbasis web.

Gemini juga dapat digunakan sebagai engine untuk lebih banyak sistem penulisan kode tingkat lanjut. Dua tahun yang lalu, kami mempresentasikan AlphaCode, sistem pembuatan kode AI pertama dengan performa yang dapat bersaing dalam kompetisi pemrograman.

Dengan versi Gemini yang terspesialisasi, kami menciptakan sistem pembuatan kode tingkat lebih lanjut, yaitu AlphaCode 2. Sistem ini mampu memecahkan masalah pemrograman tingkat kompetisi dengan baik, yang lebih dari sekadar penulisan kode dan melibatkan perhitungan matematika serta ilmu komputer teoretis yang kompleks.

Ketika dievaluasi di platform yang sama dengan AlphaCode pertama, AlphaCode 2 menunjukkan peningkatan pesat, mampu memecahkan dua kali lebih banyak masalah. Kami perkirakan performa sistem ini dapat mengungguli 85% peserta kompetisi — lebih tinggi dari pencapaian AlphaCode yang hanya hampir 50% peserta. Saat programer berkolaborasi dengan AlphaCode 2, dengan menentukan properti tertentu untuk diikuti sampel kode yang dihasilkan, performanya bahkan lebih baik lagi.

Kami begitu bersemangat untuk melihat programer semakin banyak menggunakan model AI berperforma tinggi sebagai alat kolaborasi, yang dapat membantu mereka menalar masalah, menyarankan desain kode, dan mendukung implementasi — sehingga mereka dapat merilis aplikasi dan mendesain layanan yang lebih baik secara lebih cepat.

Lihat detail selengkapnya di dalam laporan teknis AlphaCode 2 kami.

Semakin andal, fleksibel, dan efisien

Kami melatih Gemini 1.0 dalam skala besar di infrastruktur kami yang dioptimalkan untuk AI, menggunakan Tensor Processing Unit (TPU) v4 dan v5e yang dirancang sendiri oleh Google. Kami mendesainnya untuk menjadi model kami yang paling andal dan fleksibel untuk dilatih, dan paling efisien untuk dijalankan.

Di TPU, Gemini berjalan jauh lebih cepat daripada model sebelumnya yang berskala lebih kecil dan berperforma lebih rendah. Akselerator AI yang didesain khusus ini telah berperan vital dalam berbagai produk berteknologi AI dari Google yang telah digunakan miliaran orang, seperti Search, YouTube, Gmail, Google Maps, Google Play, dan Android. Akselerator ini juga memungkinkan perusahaan dari seluruh dunia melatih model AI berskala besar dengan biaya yang efisien.

Sekarang, kami ingin mengumumkan sistem TPU yang paling canggih, efisien, dan fleksibel sejauh ini, yaitu Cloud TPU v5p, yang didesain untuk melatih model AI mutakhir. TPU generasi berikutnya ini akan mempercepat perkembangan Gemini serta membantu developer dan perusahaan melatih model AI generatif berskala besar dalam waktu yang lebih singkat, sehingga produk dan solusi baru dapat tersedia lebih cepat bagi pelanggan.

Barisan superkomputer akselerator Cloud TPU v5p AI di pusat data Google.

Dikembangkan dengan mengutamakan tanggung jawab dan keamanan

Di Google, kami berkomitmen untuk memajukan AI yang berani dan bertanggung jawab dalam semua pekerjaan kami. Berlandaskan Prinsip-Prinsip AI Google dan kebijakan keamanan yang ketat di seluruh produk kami, kami menambahkan proteksi baru dengan mempertimbangkan kapabilitas multimodal Gemini. Kemudian, pada setiap tahap pengembangan, kami memikirkan potensi risiko yang ada lalu menguji dan memitigasinya.

Gemini memiliki evaluasi keamanan yang paling komprehensif di antara model AI Google sejauh ini, termasuk untuk bias dan toksisitas. Kami telah melakukan riset baru tentang potensi area risiko seperti pelanggaran cyber, persuasi, dan otonomi, serta telah menerapkan teknik pengujian adversarial terbaik di kelasnya dari Google Research untuk membantu mengidentifikasi masalah keamanan sebelum meluncurkan Gemini.
Guna mengidentifikasi hal-hal yang mungkin terlewatkan oleh pendekatan evaluasi internal kami, kami melibatkan sejumlah pakar dan mitra eksternal yang bervariasi untuk menguji stres model kami dalam berbagai aspek.

Untuk mendiagnosis masalah keamanan konten selama fase pelatihan Gemini dan memastikan output-nya mematuhi kebijakan kami, kami menggunakan tolok ukur seperti Real Toxicity Prompts, yang berisi 100.000 prompt dengan beragam tingkat toksisitas yang diambil dari web, dikembangkan oleh para ahli di Allen Institute of AI. Detail selengkapnya tentang upaya ini akan tersedia tak lama lagi.

Guna meminimalkan bahaya, kami membuat pengklasifikasi keamanan khusus untuk mengidentifikasi, melabeli, dan menyortir konten yang, misalnya, melibatkan kekerasan atau stereotipe negatif. Dikombinasikan dengan filter yang ketat, pendekatan berlapis ini didesain untuk menjadikan Gemini lebih aman dan lebih inklusif bagi siapa saja. Selain itu, kami terus berusaha mengatasi tantangan yang telah diketahui untuk model AI, seperti faktualitas, grounding, atribusi, dan koroborasi.

Tanggung jawab dan keamanan akan selalu menjadi aspek utama dalam pengembangan dan peluncuran model AI kami. Ini adalah komitmen jangka panjang yang memerlukan kolaborasi. Untuk itu, kami bermitra dengan industri dan ekosistem yang lebih luas dalam menetapkan praktik terbaik serta tolok ukur keamanan dan keselamatan melalui organisasi seperti MLCommons, Frontier Model Forum dengan AI Safety Fund -nya, serta Secure AI Framework (SAIF), yang dirancang untuk membantu memitigasi risiko keamanan yang spesifik sistem AI di sektor publik maupun swasta.

Menyediakan Gemini untuk dunia

Gemini 1.0 sekarang mulai dijalankan di berbagai produk dan platform

Gemini Pro di produk-produk Google

Kami menghadirkan Gemini bagi miliaran orang melalui produk Google.

Mulai hari ini, Bard akan menggunakan versi Gemini Pro yang telah disesuaikan untuk penalaran, perencanaan, pemahaman, dan lainnya yang lebih canggih. Ini upgrade terbesar untuk Bard sejak diluncurkan.

Gemini akan tersedia dalam bahasa Inggris di lebih dari 170 negara dan wilayah, dan kami berencana memperluas cakupannya untuk mendukung lebih banyak modalitas, bahasa, dan lokasi baru dalam waktu dekat.

Kami juga menghadirkan Gemini di perangkat Pixel. Pixel 8 Pro adalah smartphone pertama yang dirancang untuk menjalankan Gemini Nano, yang mendukung fitur-fitur baru seperti Ringkasan di aplikasi Perekam Suara dan juga Smart Reply di Gboard, dimulai dengan WhatsApp — kemudian aplikasi pengiriman pesan lainnya pada tahun depan.

Dalam beberapa bulan mendatang, Gemini akan tersedia di lebih banyak produk dan layanan kami seperti Search, Ads, Chrome, dan Duet AI.

Kami sudah mulai bereksperimen dengan Gemini di Search. Search Generative Experience (SGE) kami pun meningkat dari segi kualitas dan menjadi lebih cepat bagi pengguna, dengan pengurangan latensi dalam bahasa Inggris di AS sebesar 40%.

Mengembangkan aplikasi dengan Gemini

Mulai 13 Desember, developer dan perusahaan pelanggan dapat mengakses Gemini Pro melalui Gemini API di Google AI Studio atau Google Cloud Vertex AI.

Google AI Studio adalah alat developer gratis berbasis web yang dapat membantu developer dan perusahaan membuat prototipe dan merilis aplikasi dengan cepat menggunakan kunci API. Jika diperlukan platform AI yang terkelola sepenuhnya, Vertex AI memungkinkan kustomisasi Gemini dengan kontrol data penuh dan pemanfaatan fitur tambahan Google Cloud untuk keamanan, keselamatan, privasi, serta tata kelola dan kepatuhan data tingkat perusahaan.

Developer Android juga akan dapat mengembangkan aplikasi dengan Gemini Nano, model terefisien kami untuk tugas di perangkat, melalui AICore, sebuah kapabilitas sistem baru yang tersedia di Android 14 mulai dari Pixel 8 Pro. Silakan daftar untuk mengakses versi pratinjau awal AICore.

Gemini Ultra akan segera hadir

Untuk Gemini Ultra, saat ini kami tengah melakukan pengujian kepercayaan dan keamanan yang menyeluruh, termasuk dengan red-teaming bersama pihak eksternal tepercaya, dan menyempurnakan model ini lebih lanjut dengan penyesuaian yang spesifik dan pembelajaran berdasarkan masukan manusia (Reinforcement Learning from Human Feedback, RLHF) sebelum menyediakannya secara luas.

Sebagai bagian dari proses ini, kami akan menyediakan Gemini Ultra kepada pelanggan, developer, dan partner serta pakar keamanan dan tanggung jawab secara terbatas untuk melakukan eksperimentasi awal dan mendapatkan masukan sebelum meluncurkannya bagi developer dan perusahaan pelanggan pada awal tahun depan.

Juga pada awal tahun depan, kami akan meluncurkan Bard Advanced, sebuah pengalaman AI baru dan inovatif yang memberi Anda akses ke model dan kapabilitas terbaik kami, dimulai dengan Gemini Ultra.

Era Gemini: Memungkinkan inovasi masa depan

Ini pencapaian penting dalam perkembangan AI, dan awal era baru bagi Google seiring kami terus menginovasikan dan memajukan kapabilitas model kami dengan cepat dan bertanggung jawab.

Kami telah mewujudkan progres besar dengan Gemini sejauh ini, tetapi masih bekerja keras untuk mengembangkan kapabilitasnya lebih lanjut di versi mendatang, termasuk dalam hal perencanaan dan memori. Kami juga berupaya meningkatkan rentang konteksnya agar dapat memproses lebih banyak informasi untuk memberikan respons yang lebih baik.

Kami sangat antusias dengan besarnya potensi dunia yang didukung AI secara bertanggung jawab — sebuah inovasi masa depan yang akan menunjang kreativitas, pengetahuan, dan sains serta mentransformasi cara kerja dan hidup miliaran orang di seluruh dunia.

Pelajari selengkapnya tentang kapabilitas Gemini dan lihat cara kerjanya.

Diposting di: