Ana içeriğe atla

Gemini 2.0: Temsilci tabanlı yapay zeka çağı için yeni modelimiz

Gemini 2.0: Temsilci tabanlı yapay zeka çağı için yeni modelimiz

11 Ara 2024

Sundar Pichai

CEO of Google and Alphabet

Demis_headshot

Demis Hassabis

CEO of Google DeepMind

koray

Koray Kavukcuoglu

CTO of Google DeepMind

"Gemini 2.0" metni fütüristik mavi ve siyah soyut bir arka planın önünde.

Google ve Alphabet’in CEO’su Sundar Pichai’den açıklama:

Bilgi, insanlığın ilerlemesinin temelini oluşturuyor. Bu nedenle 26 yılı aşkın bir süredir misyonumuz, dünyanın bilgisini düzenleyerek herkesin erişimine sunmak ve faydalı hale getirmek olmuştur. Yine aynı nedenle, girişi yapılan her bilgiyi düzenleyip en iyi şekilde faydalanmanız ve her tür çıkışla erişebilmeniz için yapay zekada öncü projeler geliştirmeye devam ediyoruz.

Geçen Aralık ayında Gemini 1.0’ı tanıttığımızda da vizyonumuz buydu. Yerel olarak çok modlu üretilen ilk yapay zeka modeli Gemini 1.0 ve 1.5; farklı metin, video, görüntü, ses ve kodlardaki bilgiyi anlamak üzere çok modlu ve yüksek miktarda içeriği kullanıp işleyerek büyük bir ilerleme sağladı.

Şimdi milyonlarca geliştirici Gemini ile uygulama geliştiriyor. Gemini, iki milyar kullanıcının yararlandığı 7 ürünümüzün hepsini yeniden tasarlamamıza ve yenilerini oluşturmamıza yardımcı oluyor. NotebookLM, çok modlu yapı ile yüksek miktarda içerik kullanımının sağladığı avantajlar ve bu kadar çok kişi tarafından neden sevildiğini gösteren mükemmel bir örnek.

Geçtiğimiz yıl, daha fazla temsilci gibi çalışan modeller geliştirmeye yatırım yaptık. Bu, yapay zeka modellerinin etrafınızdaki dünyayı daha iyi anlayabildiği, birkaç adım ilerisini görebildiği ve sizin gözetiminizde, sizin adınıza harekete geçebildiği modeller anlamına geliyor.

Bugün, temsilci gibi çalışan yeni modellerin gündemde olduğu bu zamanda, bir sonraki nesil modelleri başlatmanın heyecanını yaşıyoruz: Bugüne kadar geliştirdiğimiz en yetenekli modelimiz olan Gemini 2.0’la tanışın. Bu model, daha gelişmiş çok modlu özelliklere sahip. Örneğin yerel görüntü ve ses çıkışı ile yerel araç kullanımı gibi yeteneklere sahip. Bu da bizi evrensel asistan vizyonumuzu hayata geçirmeye bir adım daha yaklaştıran yeni yapay zeka temsilcileri geliştirmemize olanak sağlayacak.

Şu an itibarıyla, 2.0 sürümünü geliştiricilere ve güvenilen test kullanıcılarına teslim ediyoruz. Bu yeni sürümü Gemini ve Arama başta olmak üzere ürünlerimize en kısa sürede dahil etmek için çalışıyoruz. Gemini 2.0 Flash deneysel modelimiz bugünden itibaren tüm Gemini kullanıcılarına açık olacak. Ayrıca Deep Research adı verdiğimiz, araştırma asistanı görevi gören yeni bir özelliğin de lansmanını yapıyoruz. Bu yeni özellik, gelişmiş mantık yürütme ve yüksek hacimli içeriği işleme yeteneği sayesinde sizin yerinize karmaşık konuları keşfedip etkileyici raporlar oluşturabilecek. Deep Research’ü Gemini Advanced ile hemen kullanmaya başlayabilirsiniz.

Yapay zekadan en çok etkilenen ürünümüz Arama oldu. Yepyeni şekillerde sorular sormaya olanak veren Yapay Zeka Özetlerimiz, şu an itibarıyla bir milyar kişiye ulaşarak çok hızlı bir şekilde bugüne kadarki en popüler Arama özelliğimiz olmayı başardı. Bir sonraki adımımız, Gemini 2.0’ın gelişmiş mantık yürütme yeteneklerini Yapay Zeka Özetleri’nde kullanmaya başlamak olacak. Bu sayede ileri düzey matematik denklemler, çok modlu sorular ve kodlama gibi daha karmaşık konuları ve çok adımlı soruları ele alabileceğiz. Bu hafta sınırlı testlere başladık ve önümüzdeki yılın başlarında daha kapsamlı olarak kullanıma sunacağız. Yapay Zeka Özetleri’nin önümüzdeki yıl boyunca daha fazla ülkede ve dilde kullanılmasını da sağlayacağız.

2.0 sürümünde kaydettiğimiz ilerleme, yapay zekadaki yeniliklerle ilgili tam kapsamlı yaklaşımla on yıldır yürüttüğümüz yatırımların sayesinde bugüne ulaştı. Bu sürüm, altıncı nesil TPU’larımız olan Trillium gibi özel donanım üzerine oluşturulmuştur. Gemini 2.0’ın eğitimi ve anlamlandırması için sağlanan gücün tamamı TPU’lar tarafından desteklenmektedir. Trillium’u bugün genel olarak müşterilerimiz de geliştirme çalışmalarında kullanabilirler.

Gemini 1.0 bilginin düzenlenmesini ve anlaşılmasını sağlarken, Gemini 2.0 bilgiyi çok daha kullanışlı hale getirmeyi sağlayacak. Önümüzdeki dönemin insanlığa neler getireceğini görmek için sabırsızlanıyorum.

Sundar

Gemini 2.0: Temsilci tabanlı yapay zeka çağı için yeni modelimiz

Demis Hassabis, Google DeepMind CEO ve Koray Kavukcuoglu, Gemini Ekibi adına Google DeepMind CTO

Geçtiğimiz yıl yapay zeka alanında çok önemli ilerlemeler kaydetmeye devam ettik. Bugün de şu ana kadarki en yetenekli yapay zeka modelimiz Gemini 2.0’ın lansmanını gerçekleştiriyoruz. Bu yeni çağın ilk modeli, en son teknolojilerin kullanıldığı düşük gecikme ve gelişmiş performansa sahip ürünümüz Gemini 2.0 Flash’ın büyük ölçekli deneysel bir sürümü.

Ayrıca Gemini 2.0’ın yerel çok modlu yetenekleriyle etkinleştirilen prototipleri tanıtarak temsilci tabanlı araştırmamızın ana hatlarını da paylaşıyoruz.

Gemini 2.0 Flash

Gemini 2.0 Flash, geliştiricilere yönelik bugüne kadarki en popüler modelimiz olan 1.5 Flash’ın başarısı üzerine inşa edildi. Benzer yanıt verme sürelerinde daha yüksek performansa sahip. 2.0 Flash, karşılaştırma amaçlı temel değerlendirmelerde iki kat hız sunarak 1.5 Pro’ya üstünlük sağlıyor. 2.0 Flash aynı zamanda yeni becerilere sahip. 2.0 Flash görsel, görüntü ve ses gibi çok modlu girişleri destekliyor. Bunun yanı sıra artık metin ve birden çok dilde yönlendirilebilir metin okuma (TTS) sesi ile karıştırılan özgün olarak üretilmiş görseller gibi çok modlu çıkışları destekliyor. Ayrıca Google Arama gibi araçları, kod yürütmeyi ve üçüncü taraf kullanıcı tanımlı işlevleri özgün olarak çağırabiliyor.

Gemini modellerini ve yeteneklerini karşılaştıran bir tablo.

Amacımız modellerimizi kullanıcılara güvenli ve hızlı bir şekilde sunabilmek. Geçtiğimiz ay, Gemini 2.0’ın deneysel sürümlerini paylaştık ve geliştiricilerden çok olumlu geri bildirimler aldık.

Geliştiriciler şu anda Google AI Studio ve Vertex AI’da Gemini 2.0 Flash’e deneysel bir model olarak erişebilirler. Erken erişim dahilindeki iş ortakları; çoklu modda giriş, metin çıkışı, metin okuma ve yerel görsel üretme işlevlerini kullanabilirler. Gemini 2.0 Flash, Ocak ayında daha fazla model boyutu ile birlikte herkesin erişimine açılacak.

Geliştiricilerin dinamik ve etkileşimli uygulamalar geliştirmelerine yardımcı olmak için yeni bir Multimodal Live API sunuyoruz. Bu API; gerçek zamanlı ses, görüntü akış girişi ve birden çok birleşik aracı kullanma olanağı sağlıyor. 2.0 Flash ve Multimodal Live API hakkında daha fazla bilgi için geliştirici blogumuza göz atabilirsiniz.

Gemini 2.0, yapay zeka asistanımımız olan Gemini uygulamasında

Yine bugünden başlayarak Gemini kullanıcıları 2.0 Experimental’ın sohbet için optimize edilen sürümüne masaüstünde veya mobil web’de model açılır listesinden seçim yaparak dünyanın her yerinden erişebilirler. Bu sürümü yakında Gemini mobil uygulamasında da bulabileceksiniz. Bu yeni modelde kullanıcılar, Gemini asistanın kendilerine daha fazla yardımcı olduğunu görecekler.

Önümüzdeki yılın başlarında Gemini 2.0’ı daha fazla Google ürününe dahil edeceğiz.

Gemini 2.0 ile kullanıcılar temsilci tabanlı becerilere kavuşuyor

Gemini 2.0 Flash’ın özgün kullanıcı arabirimi eylem becerilerine ek olarak çoklu modda akıl yürütme, uzun bağlamları anlama, karmaşık talimat izleme ve planlama, bileşke fonksiyon çağırma, yerel araç kullanma ve daha kısa gecikme süreleri gibi pek çok iyileştirme mevcut. Tüm bu özellikler, yeni bir temsilci tabanlı deneyim sınıfı sunmak üzere birlikte uyum içinde çalışıyor.

Yapay zeka temsilcilerinin pratikte uygulanması, ilginç olasılıklarla dolu bir araştırma alanıdır. Bu yeni alanı, kullanıcıların görevleri tamamlamalarına ve işlerini halletmelerine yardımcı olmak için bir dizi prototiple keşfediyoruz. Bunlar arasında evrensel bir yapay zeka asistanının gelecekte sahip olabileceği becerileri araştıran prototipimiz Project Astra güncellemesi; tarayıcınızdan başlayarak insan-temsilci etkileşiminin geleceğini araştıran yeni Project Mariner; ve geliştiricilere yardımcı olabilen yapay zeka destekli kod temsilcisi Jules yer almaktadır.

Şu anda hâlâ geliştirme sürecinin başlarındayız. Yine de güvenilir test kullanıcılarının bu yeni becerileri nasıl kullandığı, bu süreçte öğrendiklerimiz ve bu geri bildirimlerin ürünü gelecekte daha çok kullanıcıya sunmada sağlayacağı katkılar bizi heyecanlandırıyor.

Project Astra: Temsilcilerin gerçek dünyada çok modlu anlamayı kullanması

I/O’da Project Astra’nın lansmanını yaptığımız günden bu yana güvenilir test kullanıcılarının Android telefonlarındaki deneyimlerini öğreniyoruz. Bizimle paylaştıkları değerli geri bildirimleri, evrensel bir yapay zeka asistanının güvenlik ve etki konuları da dahil olmak üzere pratikte nasıl çalıştığını daha iyi anlamamıza yardımcı oldu. Gemini 2.0 destekli son sürümde gerçekleştirilen iyileştirmeler arasında şunlar yer alıyor:

Daha iyi diyalog: Project Astra artık birden çok dilde ve karışık dillerde sohbet etme becerisine sahip. Ayrıca aksanları ve yaygın olarak kullanılmayan sözcükleri de daha iyi anlıyor.
Yeni araç kullanımı: Gemini 2.0 sayesinde Project Astra; Google Arama, Lens ve Haritalar’ı kullanabiliyor ve günlük hayatınızda asistanınız olarak daha kullanışlı hale geliyor.
Daha iyi hafıza: Project Astra’nın kontrolün her zaman kullanıcıda olmasıyla birlikte hatırlama kapasitesini de artırdık. Artık 10 dakikalık oturum hafızasına sahip ve geçmişteki sohbetlerinizden daha fazlasını hatırlayabiliyor. Bu şekilde daha fazla kişiselleştirilmiş deneyim sunuyor.
Gecikme sürelerinde kısalma: Yeni akış ve yerel ses anlama becerileri sayesinde temsilci artık dili bir insan konuşmasında olan gecikme sürelerinde anlayabiliyor.

Bu tür becerileri yapay zeka asistanımız olan Gemini uygulaması gibi Google ürünlerine ve akıllı gözlükler gibi form faktörlerine de dahil etmek üzere çalışıyoruz. Ayrıca güvenilir test kullanıcısı programımızı daha fazla kullanıcıya açmaya başlıyoruz. Bu kullanıcılar arasında, Project Astra’yı yakında prototip akıllı gözlüklerde test etmeye başlayacak küçük bir grup da bulunuyor.

Project Mariner: Karmaşık görevleri yerine getirmenize yardımcı olan temsilciler

Project Mariner, Gemini 2.0 ile oluşturulan araştırma prototipinin erken sürümüdür. Tarayıcınızdan başlatacağınız insan-temsilci etkileşiminin geleceğini şekillendirmeyi hedefler. Bir araştırma prototipi olarak, tarayıcı ekranınızdaki piksellerin yanı sıra metin, kod, görüntü ve formlar gibi web öğeleri de dahil olmak üzere çeşitli bilgileri anlayıp bunlar üzerinde fikir yürütebilir ve deneysel bir Chrome uzantısı aracılığıyla bu bilgileri kullanarak görevleri sizin için tamamlayabilir.

Baştan sona gerçek dünyadaki web görevleri üzerinden temsilci performansını test eden WebVoyager karşılaştırması ile değerlendirildiğinde Project Mariner, tek bir temsilci yapılandırmasında çalışarak üstün bir başarıyı temsil eden %83,5 puanlık bir başarıya ulaştı.

Henüz erken olsa da Project Mariner, tarayıcıda gezinmenin teknik açıdan mümkün olduğunu gösterdi. Her zaman tam doğru sonucu vermemiş ya da bugünkü görevleri tamamlama konusunda yavaş kalmış olsa bile, bunlar zamanla iyileştirilecektir.

Bunu güvenli ve sorumlu bir şekilde geliştirmek için yeni tür riskler ve çözümler üzerinde aktif olarak araştırmalar yapıyor ve kullanıcıları bundan haberdar ediyoruz. Örneğin, Project Mariner, yalnızca tarayıcınızın etkin sekmesinde yazabilir, sayfayı kaydırabilir veya tıklayabilir. Satın alma gibi herhangi bir hassas işlem yapmadan önce kullanıcılardan nihai onay ister.

Güvenilir test kullanıcıları, deneysel Chrome uzantısını kullanarak Project Mariner’i test etmeye başlayacaklar. Biz de buna paralel olarak web ekosistemiyle sohbetlerimize başlıyoruz.

Jules: Geliştiriciler için temsilciler

Sonraki aşamada, yapay zeka temsilcilerinin Jules ile geliştiricilere nasıl yardımcı olabileceğini keşfetmeye başlayacağız. Deneysel bir yapay zeka destekli kod yazma temsilcisi olan Jules, doğrudan GitHub iş akışı ile entegredir. Bir sorunu çözebilir, plan geliştirip uygulamaya koyabilir. Tüm bunları geliştiricinin talimatları ve gözetiminde yapar. Bu çalışma, kodlama da dahil olmak üzere her alanda faydalı yapay zeka temsilcileri geliştirmeye yönelik uzun vadeli hedefimizin bir parçasıdır.

Oyunlarda ve diğer alanlardaki temsilciler

Google DeepMind’in kuralları izleme, plan yapma ve mantık yürütme konusunda yapay zeka modellerine yardımcı olmak için oyunları kullandığı uzun bir geçmişi var. Örneğin, daha geçtiğimiz hafta, tek bir görüntüden, oynanabilir sonsuz 3D dünya varyasyonları üretebilen yapay zeka modelimiz Genie 2’yi tanıttık. Bu geleneği devam ettirerek video oyunların sanal dünyasında gezinmenize yardımcı olabilecek temsilciler geliştirmek için Gemini 2.0’ı kullandık. Sadece ekrandaki hareketlere dayanarak oyunla ilgili mantık yürütebilir ve anlık sohbetlerde bir sonra ne yapılması gerektiğiyle ilgili önerilerde bulunabilir.

Bu temsilcilerin “Clash of Clans” gibi strateji ağırlıklı oyunlardan “Hay Day” gibi çiftçilik simülasyonlarına kadar farklı oyun çeşitlerinde nasıl çalışacağını keşfetmek, kuralları ve görevleri yorumlama yeteneklerini test etmek için Supercell gibi önde gelen oyun geliştiricilerle işbirliği yaptık.

Sanal oyun arkadaşları olarak davranmanın ötesinde bu temsilciler, web’deki sonsuz oyun bilgisine ulaşmanızı sağlamak için Google Arama’yı da kullanabilirler.

Sanal dünyada temsilci özelliklerini keşfetmenin yanı sıra, Gemini 2.0’ın uzamsal çıkarım yeteneklerini robotlara uygulayarak fiziksel dünyada da yardımcı olabilen yardımcılarla ilgili denemeler yapıyoruz. Henüz erken olsa da, temsilcilerin fiziksel ortamda da yardımcı olabilmesi imkanı heyecan verici bir gelişme.

Bu araştırma prototipleri ve deneylerle ilgili daha fazla bilgiyi labs.google sayfasında bulabilirsiniz.

Temsilci çağında sorumluluğun bilincinde olarak geliştirme

Gemini 2.0 Flash ve araştırma prototiplerimiz bu yeni özellikleri, Google ürünlerinin zamanla daha faydalı olmasını sağlayacak yapay zeka araştırmalarının ön saflarında test etmemize ve geliştirmemize olanak verdi.

Bu yeni teknolojileri geliştirirken beraberinde getirdiği sorumluluğun ve yapay zeka temsilcilerinin güvenlik konusunda gündeme getirdiği soruların da bilincindeyiz. Bu nedenle, geliştirme sürecine aşamalı şekilde yaklaşıyor, birden çok prototip üzerinde araştırmalar yapıyor, güvenilir test kullanıcılarıyla ve firma dışından uzmanlarla çalışıyor, kapsamlı risk değerlendirmeleri ile güvenlik-güvence değerlendirmeleri gerçekleştiriyoruz.

Örneğin:

Güvenlik sürecimizin bir parçası olarak potansiyel riskleri belirlemek ve değerlendirmek üzere uzun süredir bünyemizde olan dahili değerlendirme grubumuz Sorumluluk ve Güvenlik Komitesi (RSC) ile birlikte çalıştık.
Gemini 2.0'ın akıl yürütme becerileri, Yapay Zeka Kırmızı Takımı yaklaşımımızda önemli ilerlemeler kaydetmemize imkan sağladı. Bu sayede sadece riskleri değerlendirmekle kalmayıp uygun geçişleri destekleyebilir hale geldik. Bu da modeli güvenlik açısından daha büyük ölçekte ve verimli şekilde optimize edebilmemizi sağlıyor.
Gemini 2.0’ın çok modlu yapısı, potansiyel çıkışların karmaşıklığını artırdığından görsel ve sesli giriş ve çıkışlarda güvenlik değerlendirmeleri yapmaya devam ederek modelin güvenliğini daha da iyi hale getireceğiz.
Project Astra’da temsilciyle istemeden hassas bilgiler paylaşan kullanıcılar açısından ortaya çıkabilecek durumların olası kötü etkilerini azaltmak için çalışmalar yapıyoruz. Bununla ilgili olarak kullanıcıların oturumları silmesini kolaylaştıran dahili gizlilik denetimlerimiz bulunuyor. Ayrıca yapay zeka temsilcilerinin güvenilir bilgi kaynakları olarak davranmasını ve kullanıcı adına istenmeyen işlemler yapmamasını sağlama ile ilgili çalışmalarımıza devam ediyoruz.
Project Mariner ile modelin üçüncü taraflardan gelecek istem ekleme girişimleri yerine kullanıcının yönergelerine öncelik vermeyi öğrenmesi için çalışıyoruz. Bu şekilde model, harici kaynakların kötü niyetli yönergelerini tespit edebilecek ve kötüye kullanımı engelleyebilecek. Kullanıcılar da e-posta, belge veya web sitelerinde gizlenen kötü amaçlı yönergeler yüzünden sahtekarlık ve kimlik avı girişimlerine maruz kalmamış olacak.

Yapay zekayı geliştirmenin tek yolunun en baştan sorumlu bir yaklaşım sergilemek olduğuna inanıyoruz. Bu nedenle, modellerimizi ve temsilcilerimizi daha iyi hale getirme yolculuğumuzda model geliştirme sürecimizin temel bir unsuru olarak güvenliğe ve sorumlu yaklaşıma öncelik vermeye devam edeceğiz.

Gemini 2.0, yapay zeka temsilcileri ve sonraki gelişmeler

Bugünkü lansmanlar Gemini modelimizde yeni bir sayfa açıyor. Gemini 2.0 Flash’ın çıkması ve temsilci olasılıklarının keşfedildiği araştırma prototipleriyle birlikte Gemini döneminde heyecan verici bir noktaya geldik. Genel yapay zeka çağında ilerledikçe önümüze çıkan yeni olasılıkları güvenli bir şekilde keşfetmeyi sabırsızlıkla bekliyoruz.

Yayınlandığı kategori: