Gemini 再創新局：更快的模型、更長的脈絡處理和 AI 代理

2024/五月/14

Demis Hassabis

Google DeepMind 執行長

Image 1: 照片有藍色和紫色的立體方塊組成的抽象圖案，方塊之間有線條連接，背景為黑色 — 我們在這裡介紹 Gemini 模型系列的各項更新，包括全新的輕量級模型 1.5 Flash

我們在這裡介紹 Gemini 模型系列的各項更新，包括全新的輕量級模型 1.5 Flash，追求速度與效率的完美平衡，以及 Project Astra，實現我們對 AI 助理的未來願景。

DeepMind 執行長 Demis Hassabis，代表 Gemini 開發團隊分享

我們在去年十二月推出了第一個原生多模態模型 Gemini 1.0 ，包括 Ultra、Pro 和 Nano 三種規模。僅僅幾個月後，我們再推出了性能更強的 1.5 Pro，而且脈絡長度有突破性的擴展，可包含一百萬個詞元。
開發人員和企業客戶已經把 Gemini 1.5 Pro 運用在各種令人驚嘆的領域，他們發現更長的脈絡長度、多模態的推理能力，還有優異的整體性能非常實用。
我們透過使用者的回饋，瞭解到大家需要更低延遲、更低服務成本的應用程式，激勵我們持續創新，因此今天推出了 Gemini 1.5 Flash：是一個比 1.5 Pro 更輕量的模型，專門設計來大規模的提供快速和高效的服務。
現在，1.5 Pro 和 1.5 Flash 在 Google AI Studio 和 Vertex AI 以公開預覽版發布，並且都配有一百萬個詞元的脈絡長度。現在，開發人員和 Google Cloud 的客戶，還可加入等候名單，使用二百萬個詞元脈絡長度的 1.5 Pro。
此外，我們還要介紹新一代的開放模型： Gemma 2，並且透過 Astra 計畫，分享 AI 助理未來的可能性。

領先基礎模型的脈絡長度與 Gemini 1.5 200 萬詞元的性能比較。

Gemini 模型系列的各項更新
全新的 1.5 Flash：為了提高速度和效率而最佳化的模型
1.5 Flash 是 Gemini 模型系列中最新的模型，也是在 API 裡速度最快的 Gemini 模型。1.5 Flash 特別針對大規模、高頻率的任務進行最佳化，可以降低服務成本，並提供大幅擴展的脈絡長度。
1.5 Flash 雖然比 1.5 Pro 輕量，但是處理龐大資訊量時具備非常強大的多模態推理能力，而且以它的規模來說，展現出相當驚人的效能。1.5 Flash 擅長做摘要、聊天應用、提供圖說和影片字幕、從長篇文件和表格擷取資料等工作。這是因為 1.5 Flash 是透過「提取 (distillation)」的過程由 1.5 Pro 訓練而成，這個過程是將較大模型中的最核心的知識和技能，轉移到較小、較高效的模型。
想要閱讀有關 1.5 Flash 的更多資訊，請參閱 Gemini 的技術網頁，並且認識 1.5 Flash 可用的條件和價格。我們很快會在更新的 Gemini 1.5 技術報告裡分享更多細節。

全新的 Gemini 1.5 Flash 模型在速度和效率方面更進步，具備強大的多模態推理能力，並擁有我們突破性的長文本處理能力。

又更實用的 1.5 Pro

過去幾個月來，我們大幅改善了 1.5 Pro ，現在 1.5 Pro 是我們在處理多項工作時，通用性能最好的模型。除了將脈絡長度擴展到二百萬個詞元，我們還透過資料和演算法的強化，提升 1.5 Pro 在程式碼生成、邏輯推理和規劃、多輪對話，以及理解音訊和圖像方面的能力。

1.5 Pro 現在能夠理解越來越複雜和具有細微差異的指令，包括指定產品層次的指示，像是角色、格式和風格。我們已經有針對特定的用途（例如塑造聊天代理的個性和回應風格，或透過多個調用函式，讓工作流程自動化），改進對於模型回應的控制。同時，我們也讓使用者能夠透過設定系統指令，引導模型行為。

我們還在 Gemini API 和 Google AI Studio 中加入了理解音訊的功能，因此 1.5 Pro 現在可以對上傳到 Google AI Studio 的影片，進行跨圖像和音訊的推理。

想要更多有關 1.5 Pro 的資訊，請參閱我們最新的 Gemini 技術網頁。我們更新的 Gemini 1.5 技術報告裡會有更多細節。

裝置端模型 Gemini Nano 的相關更新

Gemini Nano 不再只限於文字，現在還支援包含圖像的提示。這功能會在 Pixel 系列產品上率先推出，搭載多模態 Gemini Nano 的應用程式，現在不僅能透過文字輸入，還可以用視覺、聲音和語音，像真人一樣理解世界。

進一步瞭解 Android 版的 Gemini 1.0 Nano。

新一代的開放模型

今天，我們也要分享有關開放模型 Gemma 的一系列更新，它採用和開發 Gemini 系列模型相同的研究和技術。

我們向大家介紹 Gemma 2.0，是我們新一代的開放模型，專為負責任的 AI 創新而打造。 Gemma 2.0 有全新架構，能帶來突破性的性能和效率以及各種不同的新規模。

Gemma 系列正在持續擴展，包括我們第一個依據 PaLI-3 建構的視覺語言模型 PaliGemma 也即將推出。我們也運用 LLM 比較器升級了我們的負責任生成式 AI 工具包 (Responsible Generative AI Toolkit)，可以用來評估模型回覆的品質。

歡迎參閱開發人員部落格，瞭解更多相關資訊。

我們打造通用 AI 代理的進展

開發可以在日常生活中協助人類的通用 AI 代理，一直是 Google DeepMind 的使命之一。這也是為什麼今天我們要分享 Project Astra ，也是我們打造 AI 助理未來的進度。

真正實用的助理，必須要能像人類一樣理解並回應複雜且瞬息萬變的世界，要能收集和記憶所見所聞，理解脈絡並採取行動；還要具有主動性、可以訓練而且個人化，這樣才能和使用者自然而然、順暢無礙地交談。

雖然在開發理解多模態資訊的 AI 系統方面，我們已取得了大幅的進展，但要讓回應時間縮短到如對話般的水準，是相當艱鉅的工程挑戰。過去幾年，我們不斷努力改善模型感知、推理和交談能力，要讓互動的節奏和品質更加自然。

這些 AI 代理是以 Gemini 模型和我們其他特定工作模型為基礎，並且透過持續對影片的影格編碼、將影片和語音輸入結合成事件時間軸，並且快取資訊進行高效回顧，達到更快的資訊處理。

我們還運用先進的語音模型，讓代理的聲音有更多種語調，這些代理可以更進一步理解使用情境當下的脈絡，並且快速進行對話。

你可以想像一個未來場景，透過手機或眼鏡，就能像擁有一位隨身的專業助理。今年稍晚，這些功能將陸續在 Google 的產品中推出，例如 Gemini 應用程式。

持續探索

Gemini 的系列模型到目前為止已經讓我們獲得令人驚豔的進展，我們也一直努力把最先進的技術推向新的高峰。透過持續投資能夠帶來創新的系列工作，我們不但能夠在前線探索新的想法，也同時解鎖 Gemini 新穎且令人興奮的應用案例。

進一步瞭解 Gemini 和相關功能。

報導類別：

Gemini 再創新局：更快的模型、更長的脈絡處理和 AI 代理

相關報導