利用 AI 協助語言障礙人士
生活中的絕大多數層面都涉及與他人溝通,以及被他人所理解。許多人將這視為理所當然,但如果我們試著想像當旁人難以理解我們的說話或表達方式時,這肯定會令我們感到極度不便和沮喪。然而,對於數百萬罹患中風、肌萎縮性脊髓側索硬化症 (ALS, Amyotrophic Lateral Sclerosis)、多發性硬化、創傷性腦損傷和帕金森氏症等神經系統疾病而產生語言障礙的人士來說,這是他們每天都必須面對的情況。
為了協助克服這個問題,Google AI for Social Good 的 Project Euphonia 團隊正試著透過 AI 來提高電腦理解各種說話型態的能力,像是較不完整的語句。我們和非營利組織 ALS-TDI (美國 ALS 研究機構) 與 ALS Residence Initiative (ALS 住宅計劃) 合作,錄下 ALS 患者的聲音;ALS 是一種神經退化疾病,會導致患者失去聲音與其他隨意肌的功能。在和這些組織密切合作的過程中,我們試著瞭解 ALS 患者的溝通需求,並致力於最佳化 AI 模型,以便讓手機和電腦更準確地辨識與轉錄這類患者說出的語句。想了解更多關於我們與 ALS-TDI (美國 ALS 研究機構)的合作詳情,歡迎參考 Clinical Operations 資深總經理 Maeve McNally 與 ALS TDI 首席科學家 Fernando Vieira 分享的部落格文章。
為了達成這個目標,我們透過 Google 軟體將錄下的語音轉成聲譜圖,或以更視覺化的圖像方式來呈現聲音。接著電腦會用這些經過正確轉錄的聲譜圖拿來「訓練」我們的系統,以便更準確地辨識這類非典型的語音。我們的模型設計目前是以具有典型 ALS 相關障礙的英語人士為目標對象,但我們相信這項研究將可被應用到更大範圍的族群與不同的語言障礙上。
除了提升語音辨識能力以外,我們也會訓練可偵測聲音或手勢的個人化模型,且這類模型還可採取相關行動,例如對 Google Home 下達語音指令或傳送簡訊。這類模型對於患有嚴重殘疾且已無法說話的人士來說會特別有幫助。
以下影片的主角是 Dimitri Kanevsky,他在年幼失聰後才開始學習英文,目前是 Google 的語音研究員。Dimitri 使用的是即時轉錄應用程式,並配備自訂的語音辨識模型,專門用來辨識他的聲音。影片中的另一個主角 Steve Saling 在 13 年前被確診為 ALS,他在影片中不出聲即可操作 Google Home,並且在運動賽事時透過臉部表情引導機器發出歡呼聲響。
我們非常期待看到這個研究所能帶來的影響,在此同時,我們也需要你的協助。我們之所以能透過 AI 工具來提升語音辨識的效果,都要靠龐大的語音樣本來訓練模型。如果你自己或親朋好友有如上述提到的因特殊疾病而說話含糊不清或讓旁人難以理解的問題,請填寫這份簡短的表單,即可自願為我們講出並錄製多組詞語。除此之外,也非常歡迎各位向我們在這項專案中合作的非營利組織捐款或擔任志工:ALS-TDI 與 ALS residence initiative。模型聽過的語音樣本愈多,我們就愈有機會從中取得進展,並且將這些工具應用在透過各種方式溝通的使用者身上。