移至主要內容
台灣官方部落格

隆重推出 Gemini 2.0:我們迎向代理式 AI 時代的新模型

Gemini 2.0

Google 暨 Alphabet 執行長 Sundar Pichai 的分享:

資訊是人類進步的核心。這就是為什麼過去 26 多年來,我們一直專注在自己的使命:彙整全球的資訊,使它更容易被獲取、為大家所用。也正因為如此,我們持續拓展 AI 的極限,讓它能夠整理各種管道輸入的資訊,並且透過任何方式輸出,讓大家覺得真的好用。

這是我們去年 12 月推出 Gemini 1.0 時的願景。Gemini 1.0 和 1.5 是第一個原生多模態的模型,在多模態的特性和更長的處理脈絡有顯著的進展,能夠跨文字、影片、圖像、音訊和程式碼來理解,並且處理量大很多的資訊。

現在,數百萬的開發者正在使用 Gemini 進行程式開發。而且在 Gemini 的幫助下,我們所有產品,包括 7 項擁有 20 億用戶的產品,也都煥然一新,同時也催生出新的產品。NotebookLM 就是一個很好的例子,它會備受青睞,是因為多模態和超長脈絡處理能力,能夠賦予人類更多可能。

過去一年當中,我們持續投入資源,開發出更具代理性的模型,這代表它們可以更了解你所處的世界,提前多思考幾步,並在你的指導下代替你去採取行動。

現在,我們很高興為這個代理式 AI 的時代,推出我們的下一代模型:Gemini 2.0,這是我們截至目前為止功能最強大的模型。因為在多模態上的新進展,例如原生圖像和音訊的輸出、以及原生使用工具的能力,讓我們能夠建構新的 AI 代理,更靠近通用型助理的願景。

今天,我們把 2.0 模型交給開發者和我們信任的測試者。我們也正在努力盡快把它整合到我們的產品裡,首先是 Gemini 和 Google 搜尋。從今天開始,我們將 Gemini 2.0 Flash 實驗性質的模型開放給所有 Gemini 使用者;我們也推出「深度研究」(Deep Research)的新功能,透過進階的邏輯推理和更長的脈絡處理能力,來扮演研究助理的角色,代替你探索複雜的主題和彙整報告。從今天起,你就可以在 Gemini Advanced 上體驗這項功能。

沒有任何產品的轉型比 Google 搜尋更受到 AI 的影響。我們的 AI 摘要的服務,已經觸及 10 億人,讓他們能夠提出全新類型的問題,因此迅速成為我們有史以來最受歡迎的搜尋功能之一。接下來,我們預計將 Gemini 2.0 的進階推理能力導入 AI 摘要,用來處理更複雜的主題和多層次的問題,包括高等數學方程式、多模態的查詢和編寫程式。本週我們會開始進行有限的測試,並預計將在明年初更大範圍地推出。未來一年,我們也會繼續將 AI 摘要擴展到更多國家和地區、支援更多語言。

2.0 版本能有所突破,是因為我們十年來的投資,在 AI 領域獨闢蹊徑、全方位創新的做法。

它被建立在客製化的硬體上,像是我們的第六代 TPU Trillium。TPU 為 Gemini 2.0 的訓練和推理提供 100% 的支援,而今天,Trillium 也已經全面開放,客戶可以運用它來進行開發。

如果說 Gemini 1.0 重在資訊的組織與理解,而 Gemini 2.0 則是更上一層樓,聚焦於實用性。我期待這個新時代的無限可能!

Google DeepMind 執行長 Demis Hassabis 和 Google DeepMind 技術長 Koray Kavukcuoglu,代表 Gemini 團隊分享

我們持續在 AI 領域發展,過去一年的成果更是不可思議。今天,我們發表了 Gemini 2.0 模型系列中的第一個模型:Gemini 2.0 Flash 的實驗性版本。它是我們技術最前端的核心模型,具有低延遲和強化的性能,且規模龐大。

我們也同步展示由 Gemini 2.0 原生多模態模型支援的幾個雛形案例,分享我們針對代理式 AI 最先進的研究。

Gemini 2.0 Flash

Gemini 2.0 Flash 的基礎,是我們目前為止最受開發者歡迎的模型 1.5 Flash,在同樣快速的回應時間內具有更強的性能,相當成功。值得注意的是,2.0 Flash 甚至在重要的基準測試裡,以兩倍的速度超越了 1.5 Pro。2.0 Flash 還有其他新功能。除了支援圖像、影片和音訊等多模態輸入之外,2.0 Flash 現在還支援多模態輸出,例如原生地同時生成圖像、文字,還有從文字轉成語音、可調整的多語言音訊。它原生就可以呼叫 Google 搜尋、執行程式碼,以及使用者自定義的第三方工具。

這張表格比較了 Gemini 三個版本 (1.5 Flash 002、1.5 Pro 002 和 2.0 Experimental) 在各方面能力的表現,涵蓋通用能力、程式碼能力、真實性、數學能力、推理能力、長文本理解、圖像理解、音訊處理和影片處理等。  整體而言,Gemini 2.0 Experimental 在多數測試中都取得最佳成績,尤其在程式碼生成、數學和圖像理解方面表現突出,例如 Natural2Code 測試達到 92.9%,MATH 測試達到 89.7%,MMML 測試達到 70.7%。  但在音訊處理方面,Gemini 1.5 Pro 002 以 6.7% 的最低錯誤率勝出。

我們的目標是安全、快速地把我們的模型交給大家。過去的一個月裡,我們一直分享 Gemini 2.0 的早期實驗版本,並獲得開發者很正面的回饋。

現在,Gemini 2.0 Flash 實驗模型將透過 Google AI StudioVertex AI 中的 Gemini API 開放給開發者,所有開發者都可使用多模態輸入和文字輸出;加入早期測試的夥伴則可以使用文字轉語音和原生圖像生成的功能。明年 1 月將全面開放使用,屆時也會有更多模型的尺寸。

為了協助開發者打造動態、具互動性的應用程式,我們還發布了一個新的多模態 Live API,它具有即時音訊、影片串流輸入以及使用多個組合工具的能力。有關 2.0 Flash 和多模態 Live API 的更多資訊,請參閱我們的開發者部落格

Gemini 2.0 在我們的 AI 助理、Gemini 應用程式中開放使用

同樣從今天開始,全球 Gemini 使用者都可以透過桌面和行動網頁版的模型下拉式功能表,選取能提升對話品質的 2.0 Flash 實驗版本,並且很快也會在 Gemini 應用程式中開放。借助這個新模型,使用者可以體驗到更有幫助的 Gemini 助理。

明年初,我們會將 Gemini 2.0 擴展到更多 Google 的產品上。

透過 Gemini 2.0 解鎖代理式 AI 的體驗

Gemini 2.0 Flash 的原生使用者介面操作功能,以及多模態推理、長脈絡處理、複雜指令遵循與規劃、組合函數調用、原生工具使用和改善的延遲率等共同運作,實現了全新等級的代理式 AI 體驗。

AI 代理的實際應用是一個充滿可能性的研究領域,令人興奮。我們正在用一系列可以幫助人們執行任務、完成工作的雛形,來探索這個前瞻的領域。其中包括:新一代的 Project Astra,是我們探索通用 AI 助理未來功能的研究雛型;新的 Project Mariner,從瀏覽器開始著手,探索人機互動的未來;以及 Jules,一個由 AI 支援、可以協助開發者的程式碼代理。

我們仍處於早期開發階段,但很期待看到受信任測試者如何使用這些新功能,以及我們可以獲得哪些學習,以便未來能夠更廣泛地應用在產品中。

Project Astra:在現實世界中採用多模態理解的代理

自從我們在 I/O 推出 Project Astra 以來,我們一直從受信任的測試者使用 Android 手機上的情況汲取經驗。他們寶貴的回饋幫我們更了解如何實際應用通用 AI 助理,包括在安全和道德上的考量。用 Gemini 2.0 打造的最新版本,提升了包含:

  • 更流暢的對話:Project Astra 現在能夠以多種語言和混合語言進行對話,並且更能理解口音和不常見的詞彙。
  • 新工具使用:借助 Gemini 2.0,Project Astra 可以使用 Google 搜尋、智慧鏡頭和地圖,在日常生活中更像助理一樣實用。
  • 更強的記憶力:我們改善了 Project Astra 記憶事情的能力,同時確保你掌控一切。它現在可以記憶長達 10 分鐘的內容,並且記住過去你和它進行的更多對話,因此能更加個人化。
  • 改善的延遲:透過新的串流能力和原生音訊理解,代理能以和人類對話大致相同的延遲來了解語言。

我們正在努力將這些類型的功能引入 Google 產品中,例如我們的 AI 助理 Gemini 應用程式,以及眼鏡等其他形式的裝置。我們也開始把受信任測試者的計畫擴展到更多人,包括有一組人,很快就會在雛形眼鏡上測試 Project Astra。

Project Mariner:可以幫助你完成複雜任務的代理

Project Mariner 是一個使用 Gemini 2.0 構建的早期研究雛形,從你的瀏覽器開始,去探索人機互動的未來。這個研究的雛形,能夠理解和推理瀏覽器螢幕中的資訊,包括文字、程式碼、圖像和表單等網頁元素,然後透過實驗性的 Chrome 擴充程式,用這些資訊來為你完成任務。

WebVoyager 基準測試,會去評測代理在現實世界的網路上端到端的表現,而 Project Mariner 達到了 83.5% 的高水準

現在還為時過早,但 Project Mariner 讓我看到,它在技術上已經可以做到在瀏覽器上穿梭;雖然現在並不是永遠都準確、而且完成任務的速度很慢,但隨著時間的推移,這會迅速得到改善。

為了安全、負責任地構建 Project Mariner,我們正在積極研究新類型的風險和緩解措施,同時讓真人參與其中。例如,Project Mariner 只能在瀏覽器的活動分頁中輸入、滾動或點擊,並且在採取某些敏感操作(例如購買商品)之前會要求用戶進行最終確認。

受信任的測試者現在開始使用實驗性的 Chrome 擴充程式測試 Project Mariner,同時,我們也開始和網路生態系互相討論研究。

Jules:給開發者的代理

接下來,我們將探討 AI 代理如何透過 Jules 協助開發者——Jules 是一種實驗性、由 AI 驅動的程式碼代理,直接整合到 GitHub 工作流程裡。它可以在開發者的指導和監督下解決問題、制定計畫並執行計畫。這項工作,是我們構建全方位 AI 代理的長遠目標之一,期盼它能在各個領域,包括程式設計方面,都能發揮作用。

想更瞭解這項正在進行的實驗,請參閱我們的開發者部落格文章

遊戲和其他領域的代理

Google DeepMind 長期以來一直透過遊戲,來幫助 AI 模型更能遵循規則、規畫和邏輯推理。例如,就在上週,我們推出了 Genie 2,我們的 AI 模型可以僅從單個圖像中創造出無窮無盡的可玩 3D 世界。在這一傳統的基礎上,我們使用 Gemini 2.0 構建了代理,可以幫你在電玩遊戲的虛擬世界中導航。它可以僅根據螢幕上的動作來推理遊戲,並在即時對話中提供下一步操作的建議。

我們正在和 Supercell 等領先的遊戲開發者合作,探索這些代理的運作方法,測試它們在各種遊戲中解釋規則和挑戰的能力,從「部落衝突」等策略遊戲到「卡通農場」等模擬經營遊戲。

除了充當虛擬遊戲夥伴之外,這些代理甚至可以利用 Google 搜尋,把你和網路上豐富的遊戲知識連在一起。

除了探索虛擬世界中的代理功能外,我們也在嘗試把 Gemini 2.0 的空間推理能力應用在機器人的技術,從而幫助現實生活中的代理。雖然現在還言之過早,但是我們已經可以想見能在現實世界中提供協作的 AI 代理,潛力無窮、令人振奮。

你可以在 labs.google 了解更多關於這些研究雛形和實驗的資訊。

在代理式 AI 的時代,採取負責任的開發方式

Gemini 2.0 Flash 和我們的研究雛形使我們能夠在 AI 研究的最前線,測試、迭代新功能,而這些功能最終都會讓 Google 的產品帶來更多幫助。

在我們開發這些新技術的同時,我們認識到它所連帶的責任,以及 AI 代理為安全保障帶來的許多問題。這就是為什麼我們要採取探索性和漸進式的開發方式,對多個雛形進行研究,用迭代的方式實施安全訓練,與受信任的測試者和外部專家合作,並執行廣泛的風險評估以及安全保障評估。

例如:

  • 我們的安全流程有一部分,是我們和我們的責任與安全委員會 (Responsibility and Safety Committee ,RSC)、也是我們一直都有的內部審查小組合作,以識別、了解潛在的風險。
  • Gemini 2.0 的推理能力,大幅提升了 AI 輔助紅隊測試的效率。它不但能偵測風險,還能自動生成評估報告和訓練數據,有效降低風險。這表示我們能更有效率地提升模型安全性,並且能夠大規模的進行。
  • 隨著 Gemini 2.0 的多模態增加了輸出時潛在的複雜性,我們將繼續評估和訓練模型的圖像和音訊輸入和輸出,以幫助提高安全性。
  • 在 Project Astra 中,我們致力於預防用戶無意間與 AI 代理分享敏感資訊,並已內建隱私控制功能,方便用戶刪除對話紀錄。此外,我們也持續研究如何確保 AI 代理提供可靠的資訊,且不會在未經授權的情況下擅自執行操作。
  • 在 Project Mariner 中,我們要確保模型能學會優先遵循使用者的指令,而非受制於第三方惡意指令的操控。換句話說,它能識別潛藏於外部來源的惡意指令,並防範濫用。如此一來,便能有效保護用戶,不會受到藏在電子郵件、文件或網站裡的詐騙和網路釣魚手法侵害。

我們堅信,構建 AI 的唯一途徑就是從一開始就採取負責任的方式,並且隨著我們推進模型和代理,我們將繼續優先考慮,把安全和責任作為我們模型開發流程的關鍵要素。

Gemini 2.0、AI 代理及其他

今天的發布,可以說替我們揭開 Gemini 模型嶄新的篇章。隨著 Gemini 2.0 Flash 的發布,以及一系列探索代理可能性的研究雛形,我們已經在 Gemini 時代見證了一個令人興奮的里程碑。我們期待在構建通用人工智慧的過程中,繼續安全地探索所有新的可能性。