移至主要內容
台灣官方部落格

過去和現在:我們持續改進搜尋的 5 種方法



Image 1: Google 搜尋畫面,包含輸入錯誤拼字 panckes 自動更正為 pancakes、查詢 Tell me more about protons、新增至搜尋的選項等

打造搜尋引擎需要做很多事情。雖然它看起來很簡單 ── 輸入一個問題,我們找到相符的結果 ── 但其實,背後的團隊克服了許多高階技術挑戰,才得以成為今天大家看到的 Google。

實際上,搜尋從來就不是一個已經解決的問題。因為網際網路和世界隨時都在演進、變化,因此舊的挑戰會不斷演進,新的挑戰也會持續出現。

讓我們一起回顧,過去在打造與改善 Google 搜尋時所做出的重大技術突破,以及我們在持續在哪些方面尋求創新。

一、提供高品質的搜尋結果
當針對搜尋資訊加以排序時,不只要參考查詢字詞的關聯性,更要評估哪些內容可能對使用者更有幫助而且更 可靠。這是讓 Google 從推出第一天開始就與眾不同的重要原因:我們的 Pagerank 演算法 不僅能將頁面上的字詞是否相符納入考量,還會檢驗網站之間如何相互連結,作為判斷哪些網頁比較重要或具有權威性的線索。

這些年來,隨著網路發展與科技進步,我們也不斷調整相關技術。舉例來說,因應不實訊息持續增加,我們 開發方式 來了解搜尋主題是否會更容易受到像是陰謀論、醫療不實資訊等不可靠內容的影響,並在這些情況下傾向以資訊的權威性來排序。

Image 2: Google 搜尋畫面,顯示多個與植物相關的搜尋結果卡片,包括一片葉子和一片森林的圖像,以及 These results are changing quickly 的通知

每年,我們都會進行數十萬次的品質測試,以確保使用者擁有優質的搜尋體驗。我們會定期進行 廣泛的系統更新 (又稱為核心更新),和更專門化的 實用內容更新 等,以持續提供有用的搜尋結果。資訊品質的許多面向都在不斷進化,方式也與時俱進。舉例來說,其中一項既有挑戰是資訊落差(又稱為資料空隙),意思是相關資料中可能就是沒有高品質的資訊或結果。我們因而開發出應對方法,在特定話題 快速成長 或我們對搜尋品質 信心較不足 時可以通知使用者,提醒他們應該更仔細檢視搜尋結果。我們也投資其他 資訊素養工具,協助使用者檢查來源、掌握文章脈絡,來評估查找的內容。

Image 3: Pagerank 演算法不僅能將頁面上的字詞是否相符納入考量,還會檢驗網站之間如何相互連結,作為判斷哪些網頁比較重要或具有權威性的線索。當針對搜尋資訊加以排序時,不只要參考查詢字詞的關聯性,更要評估哪些內容可能對使用者更有幫助而且更可靠

二、解讀含義
多年來,如何理解資訊,包含了解使用者查詢字詞背後的意圖以及分析網頁上的內容,一直是 Google 聚焦的關鍵領域。早期,我們的系統主要是基於簡單的字詞相符程度做出判斷,這讓 正確拼字 變得非常重要。當時,如果你拼寫錯誤,就只能找到錯誤拼字相關的搜尋結果;因此,我們在搜尋中打造了第一個機器學習系統來應對這項挑戰。

這些年來,我們的系統變得 更加成熟先進,能夠更進一步理解同義詞和字句的前後文脈絡。許多功能特色上的突破,像是 知識圖譜,能夠幫助使用者了解世界上的人、地點和事物以及他們之間的關聯(以更像一般人的方式理解這個世界)。如此一來,我們能準確地提供使用者正在尋找的資訊,甚至採取下一步行動。例如:搜尋最新的熱門電影並獲取有關演員名單和放映時間的資訊,以及位於附近的電影院和購票連結。

Image 4: 三個 Google 搜索框的截圖,展示了不同語境下的 change 用法,包括如何更換燈泡、郵局是否更換外幣和如何調整筆記本電腦的亮度

由 Google 研究團隊開發的 BERT 等大型語言模型,協助我們在理解自然語言查詢及了解網頁內容方面獲得巨大進展,讓我們得以在世界各地使用的語言中,提供更精準的搜尋結果。這類模型可以從一種語言中學習,再應用於其他語言,因此我們可以在提供搜尋的多種語言中獲得更好的結果。而且,我們也打造 Google 翻譯等工具來幫助使用者打破語言障礙,了解更多來自世界各地的資訊

最新的生成式 AI 技術和大型語言模型可以幫助我們重新構想搜尋,開啟新的問題類型並改變我們整理資訊的方式。我們正在嘗試透過 Search Labs生成式 AI 應用於搜尋體驗中,並在探索可能性的同時,快速更新搜尋帶來的體驗。

三、理解圖像、影片及更多資訊

世界上有太多資訊並非以文字呈現,也有許多在搜尋列中輸入文字以外的方法可以獲取想要的內容。

透過應用自然語言處理(NLP)的最新發展,我們在 2008 年推出語音搜尋功能,讓在行動裝置上進行搜尋變得更加簡單。

2015 年,電腦視覺的進步讓使用智慧鏡頭直接搜尋你所看到的內容成為可能。我們將你的手機鏡頭轉換為用來探索周遭世界並提出問題的方式,讓你可以更加了解在社區散步時看到的花朵或昆蟲。現在,使用者每月透過智慧鏡頭進行視覺搜尋已超過 120 億次。

去年,我們推出多重搜尋,透過上述這些功能的持續突破,讓使用者可以在視覺搜尋時同步加入文字。現在,你可以為喜歡的沙發拍張照片,同時輸入「椅子」一詞,Google 就會使用該圖片和字詞,尋找並顯示類似的物品,讓你可以即時為客廳添購新傢俱。

AI 技術帶來的突破也使我們能夠理解影像中的語義,自動識別關鍵時刻 ── 讓你可以像閱讀書本裡的章節一樣觀賞這些時刻。無論你是在尋找居家裝修教學的某一個步驟,或是精彩片段中比賽致勝的關鍵一擊,都可以輕鬆完成。

四、偵測並阻止垃圾內容

任何曾經查看過垃圾郵件匣的人都可以體會,把垃圾郵件排除在收件匣之外是一項多麼重要的工作。在 Google 搜尋當中,我們打造了先進的系統來以同樣的方式打擊垃圾資訊。如果我們沒有採取進階的保護,搜尋結果會充滿完全不相關的資訊、網路釣魚攻擊和含有惡意軟體的連結。

我們不斷開發新技術並針對排名系統進行更新,以防止垃圾內容。然而,垃圾內容也會一直演進並適應新的安全機制,因此我們的團隊也需要持續關注這些動向。

近年來,我們將結合 AI 的技術應用於偵測垃圾內容,協助維持 99% 以上的搜尋結果不包含垃圾資訊。對我們來說,這是一個很重要、需要持續投注心力的領域:只要使用者來到 Google 搜尋資訊,垃圾內容散布者就會試圖繞過我們的防護機制,因此我們必須保持警惕並領先他們一步。

Image 5: 在 Google 搜尋當中,我們結合 AI 的技術應用於偵測垃圾內容並阻止

五、讓搜尋更安全

多年來,我們一直堅定致力於實現讓資訊普及、使人人受惠的準則,同時確保使用者安全並能夠擁有控制權。我們的目標是協助使用者找到合法表達範圍內的實用資訊,同時避免在無意中接觸到不想看到的劣質或有害內容。

我們透過擴大保護使用者政策,允許從搜尋結果中移除敏感的個人資訊,以及透過安全性與包容性為核心來改善排名系統,以實現上述目標。

舉例來說,我們推出改善措施,降低 Google 搜尋中不想看到的煽情露骨內容位於較高排序的情形,透過更新讓模糊處理煽情露骨圖片成為預設,並進一步改進排名機制來限制涉及剝削行為網站的觸及範圍。同時,我們也更新政策,讓未滿 18 歲的人可以移除 Google 搜尋中與他們相關的圖片,並推出「與你相關的結果」等工具,讓使用者可以輕鬆控管個人資訊在搜尋結果中的顯示方式。

Image 6: 我們透過擴大保護使用者政策,允許從搜尋結果中移除敏感的個人資訊,以及透過安全性與包容性為核心來改善排名系統。我們更新政策讓未滿 18 歲的人可以移除 Google 搜尋中與他們相關的圖片,並推出「與你相關的結果」等工具,讓使用者可以輕鬆控管個人資訊在搜尋結果中的顯示方式

數十億人仰賴 Google 獲取資訊,因此我們總是追求持續進步,並幫助使用者解決新問題。這也是為什麼我們每天都在努力讓搜尋更加完善,帶來更優質的體驗。