我們打造通用 AI 助理的願景

過去十年來,我們為現代 AI 奠定了許多基礎,從開創所有大型語言模型基礎的 Transformer 架構,到開發像 AlphaGo 和 AlphaZero 能夠學習與規劃的代理系統(agent systems)。
我們進一步運用這些技術,在量子運算、數學、生命科學和演算法探索取得許多重大突破,也加倍投入我們在基礎研究的廣度與深度,致力於實現通用人工智慧(AGI)所不可或缺的下一波關鍵革新。
這也是我們為什麼努力擴展我們最強大的多模態基礎模型 Gemini 2.5 Pro ,讓它成為一個「世界模型」(World Model)。這個模型將能像大腦一樣,理解並模擬世界的各個面貌來制定計畫,並構思全新的體驗。
我們已經朝著這個方向努力許久,從我們早期訓練 AI 代理能夠駕馭像是圍棋(Go)和《星海爭霸》(StarCraft)等複雜遊戲,到近期的 Genie 2 能夠靠著一張圖片指令,生成可讓使用者互動的 3D 模擬環境。
另外,我們也可以看到這些能力持續浮現,無論是 Gemini 能夠運用世界知識和推理能力來描繪並模擬自然環境、Veo 對於直覺物理的深度理解,以及 Gemini Robotics 教導機器人抓取物體、聽從指令並即時做出調整。
將 Gemini 打造成一個世界模型,是朝向開發一個全新、更通用且更實用的「通用 AI 助理」的關鍵。這將會成為一款能理解使用者所處情境,並可以根據你的要求、透過任何裝置,替你採取行動的智慧 AI 助理。
將 Project Astra 的即時功能導入我們的產品
我們的終極目標是將 Gemini 應用程式轉變為一個通用 AI 助理,可以幫助我們處理日常瑣碎事務、推薦我們會喜歡的新事物,提高我們的生產力並讓我們的生活變得更多彩多姿。
這一切從我們去年在研究原型 Project Astra 中首次探索的即時功能,像是語音處理、影片理解和記憶能力時,開始發展。
過去一年中,我們將這些功能整合到 Gemini Live 中讓更多人可以使用,同時也不斷探索更多創新的可能。我們提升了語音輸出能力,更自然地透過原生音訊輸出;也增強記憶能力,並加入電腦控制的功能。
我們已開始向信任的測試人員收集回饋,並準備將這些功能導入 Gemini Live 及其他產品,例如我們全新的體驗「Search Live」(暫譯:即時搜尋)、為開發者提供的 Live API,以及像是眼鏡等新型態的裝置。
在開發過程的每一步,安全與責任始終是我們工作的核心。透過我們至今為止最大規模的倫理前瞻計畫,我們探討了與進階 AI 助理相關的倫理議題,而這些洞察將持續為我們的研究、開發和應用部署提供指引。
打造能協助多工作業的 AI
我們也一直透過 Project Mariner 探索 AI 代理功能可以如何協助人們完成多工作業。這是一個研究原型專案,從瀏覽器開始進一步探索人與 AI 代理互動的未來。
自去年 12 月推出 Project Mariner 以來,我們一直與一群信任的測試人員密切合作,收集回饋並改進相關實驗性功能。
Project Mariner 現在包含一個可以同時完成多達十種任務的代理系統。這些代理可以協助你查詢資訊、完成預約、購買商品、從事研究等等,而且所有任務都能同時進行。

更新後的 Project Mariner 現在已經在美國開放給擁有 Google AI Ultra 訂閱方案的使用者。我們會將這相計畫的相關電腦操作功能整合到 Gemini API,也規劃在今年陸續將部分功能導入至更多 Google 產品。
進一步了解在 Google 搜尋和 Gemini 應用程式中的智慧代理功能。
透過這些進展以及我們所有突破性的成果,我們正在打造一個更個人化、更主動、更強大的人工智慧,進一步豐富大眾的生活、加速科學發展的腳步,引領我們邁向一個充滿發現與驚奇的全新黃金時代。