2026 年 I/O 大會:歡迎來到 Gemini 代理新紀元
編註:以下是 Google 暨 Alphabet 執行長 Sundar Pichai 在 Google I/O 2026 部分開幕演說內容的編輯版本,並加入了更多在大會中分享的重點。歡迎透過此處了解所有資訊。
自從去年 I/O 大會以來,我們度過了令人興奮的一年;這段期間,團隊密集地推出新功能與產品、見證了技術突破,並取得飛躍式的進展。現在, AI 發展已經進入一個新階段,大眾渴望在每天使用的產品中,感受 AI 帶來的實質價值。這正是我們全力投入的重點,也體現在我們今天 I/O 大會上發表的各項產品與功能中。
自從我們將公司發展策略全面轉向「AI 優先(AI-first)」以來,至今已經走過十個年頭。我們始終深信,AI 能以最深遠的方式推進我們使命,並大規模改善人們的生活。這正是為什麼我們在 AI 創新上,採取了與眾不同的「完整技術堆疊 (full stack)」 策略,涵蓋自研晶片與安全的基礎架構、世界級的研究團隊與模型,以及能夠觸及全球數十億人的產品和平台。這樣的策略,讓我們能以更快的速度在公司的各個領域展開創新與迭代。
而最令人驚豔的是大家實際運用 AI 的方式,像是學生透過 Gemini 應用程式準備期末考、音樂家與藝術家將 Lyria 和 Veo 等生成式 AI 模型融入創作,以及無數開發者透過程式編寫將心中的想法化為實現。
貫穿各技術層的 AI 動能
這些來自使用者的真實故事,正是衡量我們進展的最佳指標。如果想了解人們應用 AI 的規模,還有另一個極具代表性的指標:詞元(Token)。詞元是模型處理資料的基本單位,每一次處理往往代表著一個問題正被順利解決。
兩年前,我們旗下的所有服務,每個月處理的詞元數量約為 9.7 兆個,這已經是很龐大的數字。在去年 I/O 大會,這個數字成長到約 480 兆個。而今天,這個數字已經成長了 7 倍,達到每個月處理超過 3,200 兆個詞元。
這個數字反應了我們的產品成長和整個生態圈的發展,特別是企業用戶跟開發者社群:
- 每個月有超過 850 萬名開發人員運用我們的模型打造全新的應用程式與體驗。
- 我們的模型 API 現在每分鐘約處理 190 億個詞元。
- 過去 12 個月來,有超過 375 家 Google Cloud 企業客戶各自處理了超過 1 兆個詞元,展現跨產業對於 AI 的龐大需求。
產品的成長動能
今天,我們旗下已有 13 款產品各自擁有超過 10 億使用者,其中更有 5 款產品擁有超過 30 億使用者。
我們的 Gemini 模型,正是吸引更多人使用我們旗下產品及提升產品黏著度的關鍵。
這一切要從 Google 搜尋說起,它將生成式 AI 的效益帶給了全球的使用者,超過目前任何一款產品。現在,AI 總覽的每月活躍使用者已超過 25 億,而 AI 模式更是為 Google 搜尋帶來有史以來最大幅度的升級。這項新功能深受大眾喜愛,在短短一年內,每月活躍使用者已經突破 10 億人。
當人們在 Google 搜尋中使用這些 AI 驅動的功能時,他們會更頻繁地使用搜尋。現在的搜尋不再只是單次的獨立查詢,而變得更像是一場連續對話,能為你帶來更有深度的洞察,並將你與浩瀚的網路世界緊密連結。
不僅如此,我們也在 Gemini 應用程式上持續創新。在去年 I/O 大會上,Gemini 應用程式每月有 4 億名活躍使用者。今天,這個數字在一年內呈現翻倍成長,已經超過 9 億。同時,我們也觀察到使用者提出的每日請求量也成長了超過 7 倍。
我們也持續加入許多獨特的功能,像是個人化智慧服務,讓 AI 回應能夠更客製化貼近個人需求,帶來更貼心的協助。另外,截至目前為止,全球使用者已經透過我們的 Nano Banana 圖像生成模型創造了超過 500 億張圖片。這是去年我們爆紅的熱門功能,也充分展現全球使用者豐沛的想像力跟創造力。
融入產品的自然對話式 AI 體驗
除了創造力,AI 還能解鎖巨大的潛在生產力。過去一年來,我們持續把能夠跟 Gemini 自然進行對話的能力直接導入我們的產品中。近期, Google 地圖迎來了十年來最重大的升級,其中就包含了全新功能「Ask Maps」。使用者也開始透過這項功能,在地圖中提出更長、更複雜的問題。
現在,我們正進一步將這種自然的對話式 AI 帶到更多產品裡。
問問 YouTube
每天都有許多人來到 YouTube 尋找答案。平台上有許多優質影片,但有時很難知道該從哪裡看起。.
Ask YouTube 重新想像了這個體驗,讓豐富的影片資訊更容易吸收且易於探索。它不僅能精準找出最符合你興趣的影片,而且還可以進一步幫你跳轉到影片中與你提問最相關的段落。
我們已經開始測試這項功能,並計畫於在今年夏天先在美國推出。
由語音驅動的 Docs Live
我常常會希望只要透過開口說話就能推進工作,把事情辦好。我們在語音模型的技術進展,將可以進一步把這個想像化為現實。
全新功能「Docs Live」能夠把這個想法帶到全新的境界。過去想在 Google 文件中透過 Gemini 建立文件跟內容,你必須輸入精準的提示詞。現在透過 Docs Live,你只需要將腦海中的想法直接說出來,剩下的繁瑣編排工作都可以交給 Gemini 處理。以下是一個即時示範:
未來,你將能完全透過語音來建立新文件並直接進行編輯。Docs Live 將於今年夏天開放給訂閱用戶使用。同時,強大的語音功能也將隨後在 Gmail 和 Google Keep 中推出。
支援大規模創新的基礎架構
看到創新技術以如此驚人的速度融入我們的產品,確實令人振奮。但要支援如此龐大的使用者規模,且同時為全球的企業與開發人員提供穩定服務,需要在基礎架構上進行大規模投資。而我們一直以來都在為當下與未來進行長遠布局。2022 年,我們的年度資本支出為 310 億美元;今年,我們預計這個數字將會成長到當時的六倍左右,達到近 1,900 億美元。其中一項關鍵的投資,就是我們的自研晶片。
十年前,我們在 I/O 大會上宣布了第一代 TPU(Tensor Processing Unit)。從那時起,我們就徹底改變了業界打造 AI 硬體的方式。我們也在今年的 Cloud Next 宣布了第八代 TPU,首次採用雙晶片策略,專為訓練和推論打造的兩種截然不同架構:TPU 8t 和 TPU 8i。
- TPU 8t 針對大規模預訓練進行了最佳化處理,原始運算能力幾乎是上一代的 3 倍。透過 JAX 與 Pathways,模型的訓練不再受限於單一的龐大資料中心,而是能夠將訓練任務無縫分散到多個不同的據點,在全球超過 100 萬個 TPU 上擴大訓練規模。這讓我們有能力打造出全球最大的訓練叢集。對於模型建構者而言,這代表原本需要耗時數月的大型模型,現在只需短短幾週就能訓練完成。
- TPU 8i 則是專為推論而設計。我們在每個步驟都大幅提升了運算速度。因為在深耕搜尋技術 27 年來的經驗告訴我們,低延遲的速度至關重要。
除了速度,我們也持續思考如何能夠持續以更永續的方式擴大發展規模。這兩款晶片都具備更好的能源效率,帶來高達 2 倍的每瓦效能表現。.
Gemini Omni
透過這些 TPU 的進展,讓我們能在模型、編寫程式碼與 AI 代理的運算上持續取得突破。隨著世界模型的發展,AI 正從單純的文字預測邁向模擬現實世界的階段,我們也一直致力於拓展這些前沿模型的能力。
Gemini Omni 是我們的全新模型,能夠根據任何輸入的素材形式,生成並輸出任意模態的內容。我們會先開放支援影片輸出,未來也會逐步擴展到圖片與文字。這個新模型結合了 Gemini 的智慧能力與我們的生成式媒體模型,代表模型在理解世界的能力上又向前邁進了一大步。我們將率先推出 Omni 系列的第一款模型:Gemini Omni Flash。
Gemini Omni Flash 即日起開放使用。你可以在 Gemini 應用程式、Google Flow 以及 YouTube Shorts 上親自體驗,我們也將在未來幾週內透過 API 開放給全球開發者與企業客戶。
SynthID:技術升級與新合作夥伴
隨著生成式 AI 變得更加強大,大家對資訊透明度的需求也隨之提升。研究指出,人們在面對高品質的深偽技術(Deepfake)影片時,正確辨識的機率僅有約四分之一。三年前,我們推出了肉眼不可見的浮水印技術 SynthID。自推出以來,SynthID 已為超過 1,000 億張圖片與影片,以及總時長相當於 6 萬年的音訊素材添加了浮水印。
目前,已有數百萬人在 Gemini 應用程式中使用我們的 SynthID 偵測工具來驗證內容是否為 AI 生成。今天,我們將更進一步,在旗下各款產品中加入內容憑證(Content Credentials)驗證機制。這項功能可以幫助你辨識內容的來源是出自 AI 還是由相機拍攝,以及它是否曾透過生成式 AI 工具進行編輯。我們希望讓大眾能更輕鬆地使用這些工具,因此我們正將內容憑證與 SynthID 驗證功能導入 Google 搜尋與 Chrome 瀏覽器之中。
當然,這套機制要能夠發揮更大的影響力,需要更多業界夥伴加入並為自己的 AI 生成內容加上浮水印。NVIDIA 已於去年正式加入 SynthID 的行列,而我們今天也非常高興地分享,OpenAI、Ka-Kow 與 Eleven Labs 也將正式採用 SynthID 技術。看到如此緊密且具有前瞻性的跨產業協作,我們感到非常振奮,也期待未來能有更多合作夥伴能加入我們,共同為 AI 時代內容透明度的樹立標準。
Gemini 3.5 Flash
我們在幾個月前正式推出 Gemini 3 系列的模型,已成為我們最受歡迎、採用率最高的模型系列。非常高興看到開發者將 Flash 作為日常開發的主力核心,並運用 Pro 強大的深度推理與多模態能力打造出各種令人驚艷的體驗。同時,我們也持續深化研發,特別是針對代理式程式編寫(agentic coding)、需要長週期執行的任務以及強化現實世界的工作流程。
今天,我們正式推出 Gemini 3.5 Flash,是結合前沿智慧與強大代理能力的模型系列中推出的第一款模型。我想特別強調兩件事:
- 與 3.1 Pro 相比,3.5 Flash 幾乎在所有的基準測試上都有更好的表現,尤其是在編寫程式碼的能力上取得顯著的成長,可以參考它在 GDPVal 上的優異表現。這項指標涵蓋了許多現實經濟活動中極具應用價值的複雜任務。
- Gemini 3.5 Flash 不僅是一款非常強大的前沿模型,除了整體能力可媲美目前頂尖模型,同時維持著 Flash 系列的快速運算。因此,你把它的智慧能力與輸出速度的表現綜合來看,它在圖表右上角的象限獨樹一格。若單看每秒輸出的詞元數量,它的速度更是其他同級前沿模型的 4 倍。
這款新模型也徹底改變了在 Google 內部的開發方式。我們將 3.5 Flash 搭配我們全新以代理優先架構的開發平台 Antigravity 結合使用,大幅加快了我們的開發速度。今年三月,我們內部跨 AI 開發工具每天處理約 5,000 億個詞元,而且幾乎每隔幾週就會翻倍成長。如今,我們每天處理超過 3 兆個詞元,這種規模創造了一個強大的正向回饋機制,幫助我們持續改進 3.5 模型。
Flash 最令人驚嘆的地方在於,它在提供前沿頂尖能力的同時,執行成本往往不到其他同級前沿模型的一半。現在是五月份,但我們得知許多企業年度編列在詞元使用上的預算就將用罄。如果企業能將 Flash 與其他前沿模型靈活搭配使用,將能夠節省大量成本。舉例來說,頂尖的龍頭企業每天大約需要處理 1 兆個詞元,如果他們能將其中 80% 的工作負載,從其他前沿模型轉移到 Gemini 3.5 Flash,每年將可能省下超過 10 億美元的費用,讓這些資金成為重新投入到公司的資源。
Gemini 3.5 Flash 今天已經全面開放,所有使用者都能透過我們的產品與 API 立即體驗這款模型。我們同時也非常期待推出 Gemini 3.5 Pro。目前我們已在內部使用這款模型,並看到顯著進步,並預計於下個月正式與大家見面。
Antigravity 2.0
我們也同步在 Antigravity 平台中為開發人員導入 3.5 Flash。
Antigravity 正在跨越單純的程式編寫環境,轉型為一個專門用來開發與管理多個自主 AI 代理的平台。這包含了全新的獨立桌面應用程式 Antigravity 2.0,它將作為開發者與代理互動的中央樞紐,讓任何人都能在這裡指揮並調度 AI 代理來處理各種任務。此外,我們也為其開發了一款經過最佳化的 Flash 版本,運算速度不僅是其他前沿模型的 4 倍,更可達到 12 倍之多。
Antigravity 的使用者即日起就能體驗這項功能。想了解更多關於 Antigravity 2.0 的資訊,請參考此篇文章。
Gemini Spark:你的全天候 AI 代理
Gemini 3.5 和 Antigravity 正開啟一個 AI 代理和代理式能力的全新世界。我們已經向開發者和企業客戶推出代理一段時間了。現在,我們將專注於如何安全、可靠且有保障地將 AI 代理的強大能力帶入消費者的日常生活中,讓它為每個人帶來實質幫助。在我們今天分享的眾多產品功能中,你也能看見這種智慧的代理式體驗。
其中,最令我感到興奮的莫過於 Gemini Spark,它是你在 Gemini 應用程式中專屬的個人 AI 代理,能夠幫助你輕鬆打理數位生活,並在你的指引下主動為你執行任務。
- Spark 在專屬的 Google Cloud 虛擬機器上運行,提供全天候 24 小時支援,讓你不用時時刻刻開著筆電。
- 它由 Gemini 3.5 和 Google Antigravity 的框架提供技術支援,能夠在背景執行長時間且步驟繁瑣的任務。
- Spark 將無縫整合多元工具,並率先從 Google 的產品與服務開始。未來幾週將透過 MCP 整合第三方工具。
- 你可以選擇以最方便的方式與 Spark 展開協作,無論在 Gemini 應用程式中,或透過即將推出的 Email 或即時通訊功能。
- 在 Android 系統上,我們將於今年稍晚推出全新使用者介面空間 Android Halo,讓你能一目了然地即時查看 Spark 等 AI 代理的任務進度與最新狀態。另外,在今年夏天稍晚,Spark 也將直接進駐 Chrome 瀏覽器,化身使用者的代理式瀏覽器(agentic browser)。
我們本週已開始向受信任的測試人員推出 Gemini Spark,並預計在下週向美國的 Google AI Ultra 訂閱用戶開放 Beta 測試版。
AI 代理時代下的搜尋
Gemini Spark 是第一個以 3.5 模型系列與 Antigravity 實現的創新體驗。這樣的組合讓我們可以透過嶄新的方式加速實現我們的使命、全面更新旗下的產品,並為使用者帶來實質且深刻的幫助。
隨著我們邁入 AI 代理時代,Google 搜尋將比以往更加實用且強大。今天,我們正式在 Google 搜尋中推出「資訊代理(information agents)」。你可以建立專屬於你的個人化 AI 代理,並在背景中全天候為你查找與篩選資料,在你需要的時候提供你所需要的資訊並採取行動。資訊代理將在今年夏天陸續推出,並率先開放給 Google AI Pro 和 Ultra 的訂閱用戶。
我們打造真正代理式搜尋的另一種方式,是導入代理式程式編寫能力(agentic coding capabilities)。透過 Gemini 3.5 Flash 和 Google Antigravity 的強大能力,Google 搜尋將能針對你的獨特提問,即時地打造出客製化的回答呈現,包含彈性的版面配置與高度互動的視覺圖素。這些生成式 UI 的功能將在今年夏天免費開放給所有人使用。
對於需要長時間執行、反覆回來查看的任務,Google 搜尋甚至能進一步為你打造一個長期且客製化的資訊主頁或進度追蹤器,讓你能隨時返回檢視並持續追蹤進度。你可以將這些工具視為處理特定任務的「迷你應用程式(mini apps)」。在接下來的幾個月中,使用者可直接在 Google 搜尋中透過 Antigravity 建立客製化體驗。我們將會先開放給美國的 Google AI Pro 和 Ultra 訂閱用戶。
Gemini 代理新紀元的更多內容
以下是我們在 I/O 大會上分享的其他內容:
- 「每日摘要」是即將在 Gemini 應用程式推出的另一款 AI 代理。它能提供個人化摘要,並整合來自收件匣、日曆和任務的資訊,並提醒你最需要注意的重要事項。它不只是摘要資訊,還能根據事件重要性排出優先順序並提供下一步行動建議。所有內容都會呈現在一份精簡、專為快速瀏覽設計的晨間摘要中。
- Google Flow 從今天開始推出全新 AI 代理,可以根據輸入的資訊並在你的指引下針對複雜任務進行規劃和推理。透過 Gemini 模型,這款代理擁有深厚的專業知識以及對於專案脈絡的掌握,能協助使用者進行初期的腦力激盪、創作和編輯。此外,使用者也可以直接在 Flow 中進行 Vibe code,打造不同的創意工具,像是用於設計影片特效、手繪動畫或文字圖層的工具。
- Google Pics 是我們基於最新 Nano Banana 模型所打造的全新 AI 圖像創作與編輯工具,能幫助你依照自己的創意進行創作。無論是從空白畫布開始設計,還是編輯現有的照片,Pics 都會將每個元素視為獨立的物件,而不是扁平、靜態的圖像。這讓你可以自由創作、替換或修飾細節,精準還原腦海中的視覺藍圖。Google Pics 目前已開放給受信任的測試人員體驗,並將於今年夏天稍晚,在 Workspace 中陸續開放給 Google AI Pro 和 Ultra 的訂閱用戶使用。
- 我們也進一步分享了去年初次亮相的智慧眼鏡(intelligent eyewear)相關進展,包括能在你的耳邊提供語音協助的語音眼鏡(audio glasses),以及能在你需要時立刻顯示所需資訊的顯示型眼鏡(display glasses)。兩種類型的裝置都能讓你解放雙手,不須低頭查看手機,只要開口提問就能獲得 Gemini 的協助。我們將率先推出語音眼鏡,預計於今年秋季上市。
- Gemini for Science 整合了多款 AI 工具協助加速科學研究的進程。以 Gemini 、Deep Think 和 Deep Research 強大的深度推理與學術搜尋能力為基礎,這個計畫包含了 Google Labs 和 Science Skills 的新實驗,可將 Google Antigravity 等 AI 代理平台與 30 多個主要的生命科學資料庫和工具串接。使用者可以在 Google Labs 申請體驗 Gemini for Science 實驗,同時 Science Skills 今天也已經在 GitHub 及 Antigravity 平台中開放使用。
當我們縱觀整個完整技術堆疊策略中的各項創新,從 TPU 8i 的基礎架構,到 Gemini 3.5 和 Antigravity 展現的前沿能力,毫無疑問地,我們正穩步邁入 Gemini 代理的新時代。 我非常期待這項技術將如何解鎖全新的途徑,不僅加速實踐我們的使命、重塑我們的產品,更為每一個人帶來深刻的實用價值。