隆重推出 Gemini:我們最強大的 AI 模型
為所有人帶來更實用的 AI 服務
Google 暨 Alphabet 執行長 Sundar Pichai 的分享
每一次的技術變革,都是推進科學探索、加速人類成長與改善生活的機會。我相信我們現在目睹 AI 帶來的轉變,將會是我們一生中最深遠的變革,遠大於之前行動裝置或網路所帶來的轉變。AI 有潛力為世界上的每一個人創造各種機會,從平凡到不凡。它將會大舉推進創新和經濟的進步,並以前所未有的規模驅動知識、學習、創造與生產力。
而讓我感到興奮的,是有機會讓 AI 為世界上的每個人帶來幫助。
我們展開以 AI 為優先的旅程已經將近第八個年頭,但是進程的速度才正要加快:數以百萬計的人每天都在我們的各種產品裡使用生成式 AI,做到一年前做不到的事情,無論是替更複雜的問題尋找答案,或是用新的工具來協作和創造。與此同時,開發人員也正在使用我們的模型和基礎架構來打造新的生成式 AI 應用程式,而世界各地的新創和企業也透過我們的 AI 工具持續成長。
這樣的動能令人驚豔,但是,我們其實才正要開始探索這段旅程的各種可能性。
我們正以大膽且負責任的方式展開這項任務。這表示我們要有野心去研究,同時追求能力,可以為人類和我們的社會帶來極大益處,同時建立保障措施,並且與政府和專家合作,來應對隨著 AI 能力提高所帶來的風險。在 AI 原則的指導下,我們會繼續投資最好的工具、基礎模型和基礎設施,並將應用到我們和別人的產品。
現在,我們邁出下一步、繼續和 Gemini 的旅程;這是我們目前為止最強大、最通用的模型,在很多領先的基準測試裡都展現最先進的性能。我們的第一個版本、Gemini 1.0,有依照不同模型的大小進行最佳化:Ultra、Pro 和 Nano。這些是 Gemini 時代的第一批模型,也是我們第一次實現今年稍早成立 Google DeepMind 的願景。這些模型的新時代,是我們公司在科學和工程上最大的努力。我真的對未來感到興奮,也期待 Gemini 會為世界各地的人們帶來的機會。
Google Demind 執行長 Demis Hassabis,代表 Gemini 開發團隊分享
就跟我很多鑽研 AI 的同事一樣,AI 也一直都是我工作的重心。從我青少年的時候替電腦遊戲設計 AI 程式開始,一直到我成為神經科學的研究者,在不斷地探討人類大腦運作的過程中,我始終相信,如果能打造出更聰明的機器、並且加以善用,我們可以造福人類的方式,將會難以想像。
我們在 Google DeepMind 持續致力以負責任的方式,透過人工智慧 AI 為世界賦能。長久以來,我們的願景是根據人類理解世界、與世界互動的方式,建立新一代的 AI 模型,讓 AI 不再只是一個聰明的軟體,而是像專業的合作夥伴或是助手,變得更加實用、而且符合直覺。
如今,我們推出我們目前最強大、通用性最高的模型 Gemini,也讓我們離這個願景更近了一步。
Gemini 是 Google 跨部門大型合作的成果,包括 Google Research 團隊的成員也參與其中。從一開始,我們就把 Gemini 設計為多模態的模式,讓 Gemini 能夠通用化,並流暢地理解、操作和結合包括文字、圖像、音訊、視訊和程式碼在內的不同類型資訊。
Gemini 也是我們至今推出最有彈性的模型,從資料中心到行動裝置的各種平台上,都能高效運行。而開發人員和企業客戶在使用 AI 構建和拓展業務的時候,Gemini 的先進功能可以為他們帶來極大的幫助。
我們已經針對 Gemini 1.0 版本的模型進行了最佳化,並推出共三種不同的規模:
- Gemini Ultra:規模最大、功能最強大的模型,專為高度複雜的任務而設計。
- Gemini Pro:最適合擴展、橫跨各種類型的任務。
- Gemini Nano:處理裝置上的任務最有效率的模型。
最先進的性能
我們不斷對 Gemini 模型進行嚴格的測試,評估 Gemini 在處理各種任務上的表現。從理解自然圖像、音訊和視訊,到數學推理;我們發現 Gemini Ultra 在大型語言模型(LLM) 研究和開發中廣泛採用的 32 個學術基準測試中,有 30 個取得了超越了當前的最先進基準的效能。
我們透過 32 個在研究和開發大型語言模型(LLM)的時候會採用的學術基準,去測試 Gemini Ultra 從理解自然圖像、音訊和視訊到數學推理的表現,而從其中 30 個測試基準得到的結果,都超越目前最先進的模型。
在 MMLU(大規模多任務語言理解;massive multitask language understanding)的測試裡,結合了包括數學、物理、歷史、法律、醫學和倫理學等 57 個主題,去測試模型對世界的理解還有解決問題的能力;而 Gemini Ultra 以 90.04% 的高得分,成為第一個在 MMLU 測試裡超越人類專家的模型。
我們新的 MMLU 衡量方法,讓 Gemini 能夠利用它的推理能力在回答難題前更仔細地思考,相比僅使用第一印象的評估方式有顯著進化。
我們採用 MMLU 當作基準測試的方法,讓 Gemini 能夠利用它的推理能力在回答難題前更仔細地思考,比起 Gemini 第一時間的反應有顯著的進步。
Gemini 在文字和程式碼等多個測試面向中,超越了先進性能的基準。
新的 MMMU 基準測試包括了多模態的任務,跨越不同的領域,要完成的話需要刻意的去推理,而 Gemini Ultra 也在 MMMU 的基準測試裡得到 59.4% 的領先分數。
光學字元識別(object character recognition, OCR)系統,會協助模型從影像擷取出文字訊息,再近一步處理;但是在我們的圖像基準測試裡,Gemini Ultra 在沒有使用 OCR 的情況下,還超越了先前的最先進模型。這些基準測試,突顯出 Gemini 原生多模態的特性,也初步展現了 Gemini 具備更複雜的推理能力。
詳情請參閱我們的 Gemini 技術報告 。
Gemini 在多項多模態基準測試中,展現出超越先進基準的性能。
新一代功能
到目前為止,打造多模態模型的標準方法,是針對不同的模態去訓練個別的元件,再把元件組合在一起,大致模擬出一部分的多模態功能。這些模型在執行某些任務的時候會表現很好,例如描述圖像,但在處理比較概念性或是比較複雜的推理時,就會比較有困難。
我們把 Gemini 設計成原生就是多模態的模型,一開始就在不同的模態上進行預先的訓練。接著,我們透過額外的多模態資料進行微調,進一步提升效能。這樣可以幫助 Gemini 從一開始就能順暢地理解和推理各種輸入的資訊,效能遠比現有的多模態模型來得好,並幾乎在所有的領域都展現出最先進的能力。
成熟的推理能力
Gemini 1.0 成熟的多模態推理能力,有助於理解複雜的書面和視覺訊息,也因此使得 Gemini 具備了獨特的技能,可以從大量資料中整理出難以理解的知識。
Gemini 在閱讀、篩選和理解資訊方面的能力相當令人驚豔,能夠從數十萬份文件中擷取出觀點,能夠更快速地幫助許多領域帶來新的突破,從科學到金融都是。
理解文字、圖像、音訊等更多資訊
Gemini 1.0 所受的訓練,是同時識別和理解文字、圖像和音訊等資訊,所以能進一步的理解更細微的資訊,並回答涉及複雜主題的問題。這也讓 Gemini 在解釋、推理像是數學和物理這樣複雜的問題上,表現特別出色。
進階的程式設計能力
我們第一個版本的 Gemini 能夠理解、解釋世界上最常用的程式語言,像是 Python、Java、C++ 和 Go,並且生成高品質的程式碼。能夠跨語言工作、解讀複雜資訊的能力,更讓 Gemini 成為世界數一數二的程式設計基礎模型。
Gemini Ultra 在幾個程式設計的基準測試中表現出色,包括程式設計業界衡量成效標準的 HumanEval 測試,以及我們自己的截留(held-out)驗證資料集,用的是程式設計者自己生成的來源,而不是來自網路的資訊。
Gemini 也可以當作引擎,來驅動更進階的程式生成系統。兩年前,我們推出了 AlphaCode,是第一個在程式設計競賽當中能夠達到有競爭實力的 AI 程式碼生成系統。
透過一個專門版本的 Gemini,我們建立了更進階的程式碼生成系統 AlphaCode 2。這個系統除了擅長程式設計,還能處理和數學與理論電腦科學相關、複雜的競技程式設計的問題。
當與 AlphaCode 在相同的平台上進行評估時,AlphaCode 2 展現出大幅度的進步,解決的問題數量幾乎是兩倍。我們評估 AlphaCode 2 的表現超過 85% 的參賽者,相較於 AlphaCode 只贏過 50% 左右的參賽者,有所提升。而且,如果程式設計師和 AlphaCode 2 協作,協助定義程式碼需要遵循的特定屬性時,表現甚至更好。
我們迫不及待看到程式設計師更多去使用性能強大的 AI 模型作為協作工具,讓這些模型幫助他們解讀問題、提出程式設計,並且在實作上進行協助,可以更快地發表應用程式、設計出更好的服務。
詳情請參閱我們的 AlphaCode 2 技術報告。
更可靠、更具可擴充性和更高效
我們透過 AI 最佳化的基礎架構,有規模的去訓練 Gemini 1.0,而這個架構使用的是 Google 自行設計的 Tensor Processing Unit(TPU)v4 及 v5e;而我們也把 Gemini 設計成最可靠、擴充能力最強的模型,同時把服務的效率提到最高。
和先前性能較低的小型模型相比,Gemini 在 TPU 上執行的速度甚至高出許多。TPU 是我們專門打造的 AI 加速器,運用在 Google 搜尋、YouTube、Gmail、Google 地圖、Google Play 和 Android 等採用 AI 技術的產品當中,服務數十億名使用者;此外,Gemini 也讓全球許多企業能以經濟實惠的方式大規模的訓練 AI 模型。
今天,我們也宣布推出 Cloud TPU v5p,這是 Google 到目前為止性能最佳、效率最高、擴充性最強的 TPU 系統,專為訓練頂尖 AI 模型所設計。新一代的 TPU 可以加快 Gemini 的發展,幫助開發人員和企業客戶更快的訓練大規模的生成式 AI 模型,因此能更早推出全新的產品和功能給客戶。
Google 資料中心的一排 Cloud TPU v5p AI 加速器超級電腦。
安全建構,責任至上
Google 致力以大膽且負責任的態度,推動先進的 AI 技術。在建構 Gemini 的過程中,除了遵循 Google AI 準則和我們針對各項產品嚴謹的安全政策,我們也考量到了 Gemini 多模態的能力,新增了相應防護措施,並在開發作業的每一個階段,考量潛在的風險,同時盡可能去測試、降低風險。
在截至目前 Google 所有的 AI 模型中,Gemini 在偏誤、資料毒性(toxicity)等方面,都接受了最全面的安全性評估。在網路攻擊、說服能力和自主性等可能存在風險的領域,我們都進行了最新的研究,也運用 Google Research 團隊領先業界的對抗測試技巧,在部署 Gemini 前就率先找出關鍵的安全問題。
為了辨識出內部測試方法的盲點,我們也和許多不同背景的外部專家及夥伴合作,運用各式各樣的問題對模型進行壓力測試。
為了診斷模型的內容安全性,並確保輸出的內容符合 Google 的政策,我們在 Gemini 的各個訓練階段使用了不同的基準測試,包括真實有害指令提示(Real Toxicity Prompts),是由 Allen Institute of AI 的專家開發,從網路上集合了有害程度不一的 10 萬個指令提示。有關於這項工作的更多細節,我們將在未來逐步分享。
為限制 AI 造成的危害,我們打造專用的安全分類機制,可用來辨識、標籤及篩選內容,像是有關暴力或是負面刻板印象的內容。另外,搭配健全的篩選機制,我們能夠透過這種分層處理的方式,確保 Gemini 對每個人來說都更具安全性與包容性。而我們也會持續解決我們所知模型既有的挑戰,包括事實性、錨定、歸因和實證等領域。
在開發、部署 AI 模型的路上,堅持負責任並維護安全性,永遠都會是 Google 的核心要務。這樣長期的承諾需要同心協力,所以我們和業界及整個生態體系合作,希望能定義出有關安全方面的基準與最佳做法,並且和機構一起建立安全基準,包括 MLCommons、Frontier Model Forum 和他們設立的 AI Safety Fund 基金,還有我們的 AI 安全架構 Secure AI Framework(SAIF)。我們設計 SAIF 的宗旨,就是希望能夠幫助公私部門降低 AI 系統的安全風險。同時,我們未來繼續開發 Gemini 的過程中,也會持續和全球的研究人員、政府及公民團體保持合作。
讓更多人能夠使用 Gemini
Gemini 1.0 將在 Google 的眾多產品與平台推出:
Gemini Pro 導入 Google 產品
我們將在 Google 產品中導入 Gemini,讓數十億人都能使用。
從今天起,Bard 將使用專門調整的 Gemini Pro 模型,帶來更進階的邏輯推理、規劃與理解等能力。這將是 Bard 自推出以來,最大幅度的升級更新。
採用 Gemini Pro 模型的 Bard 將先以英文版本在超過 170 多個國家和地區提供使用,並預計在不久後開放其他模態應用,並持續拓展對於不同語言與地區的支援。
另外,我們也將把 Gemini 帶到 Pixel 裝置上。Pixel 8 Pro 是第一款能夠運行 Gemini Nano 的智慧型手機,並透過 Gemini 支援全新功能,像是在錄音工具中提供摘要服務,以及 Gboard 中的智慧回覆。其中,Gboard 智慧回覆將可以率先在 WhatsApp 使用,並將在明年持續拓展至更多即時通訊應用程式。
接下來幾個月,Gemini 將整合至 Google 的更多核心產品與服務中,包括 Google 搜尋、廣告、Chrome 瀏覽器以及Duet AI。
我們也開始嘗試在 Google 搜尋裡測試使用 Gemini,可以讓我們生成式搜尋體驗(Search Generative Experience)的速度更快,在美國英文介面上的延遲會降低 40%,品質也會提高。
用 Gemini 進行開發
從今年 12 月 13 日開始,開發人員和企業客戶將可以透過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 使用 Gemini Pro。
Google AI Studio 是免付費的網頁型開發者工具,只要使用 API 金鑰,就能快速建立原型並發布應用程式。到了需要全代管 AI 平台的時候,則可以選擇使用 Vertex AI 對 Gemini 進行自訂設定,可以全權掌控資料,同時利用 Google Cloud 提供的額外功能,來維護企業的安全、保全、隱私、資料管理,並且符合規定。
Android 開發人員也可以透過 AICore,在建構作業中運用 Gemini Nano。以處理裝置端的任務而言,Gemini Nano 是 Google 目前最有效率的模型,而 AICore 是適用於 Android 14 的最新系統功能,會率先在 Pixel 8 Pro 上推出。歡迎登記使用 AICore 的提前預覽版。
Gemini Ultra 即將推出
在 Gemini Ultra 方面,我們目前仍在執行全方位的信任和安全檢查,例如透過 Google 信任的外部團隊進行攻擊演練,並透過專門調整的機制與人工回饋的強化式學習(reinforcement learning from human feedback, RLHF),在正式發布之前持續改良模型。
在調整的過程中,我們會開放特定客戶、開發人員、合作夥伴及安全專家使用 Gemini Ultra,透過這樣的早期實驗收集意見回饋,然後在明年年初讓更多開發人員及企業客戶使用。
明年年初,我們也會推出 Bard Advanced,這是一個全新且最為先進的 AI 體驗,讓你能夠體驗我們最好的模型和效能,屆時就會是 Gemini Ultra。
開啟 Gemini 世代:解鎖未來創新
在 AI 發展的進程中,Gemini 是重大的里程碑;在我們持續快速創新、以負責任的方式提升模型效能的同時,Gemini 為 Google 在 AI 的進程開啟了全新的時代。
我們在 Gemini 上面已經有長足的進步,同時也努力讓未來的版本能有更好的能力,包括提升規劃與記憶的功能,並且擴大模型參考的資訊範圍,提供更好的回應。
在負責任的 AI 幫助下,世界會有許多美好的可能,讓我們感到很興奮:這樣創新的未來會激發創意、拓展知識、促進科學進步,還能改變全球數十億人的生活和工作。
進一步瞭解 Gemini 的能力和運作方式。