แปลเสียงพูดให้ไหลลื่นและเป็นธรรมชาติด้วย Gemini 3.5 Live Translate
เมื่อ 20 ปีที่แล้ว การแปลภาษาของ Google เริ่มต้นจากการเป็นหนึ่งในการทดลองแมชชีนเลิร์นนิงในยุคบุกเบิกของเรา เพื่อเปลี่ยนศาสตร์แห่งภาษาให้กลายเป็นความมหัศจรรย์ในการเชื่อมโยงมนุษย์เข้าด้วยกัน จากการทดลองในวันนั้น เราก็ได้พัฒนาบริการแปลภาษามาอย่างต่อเนื่อง โดยตอนนี้มีการแปลคำศัพท์ต่างๆ กว่าล้านล้านคำให้กับผู้ใช้นับพันล้านคนผ่านผลิตภัณฑ์ต่างๆ ของเราในแต่ละเดือน
วันนี้ เรากำลังก้าวไปอีกขั้นด้วยการเปิดตัว Gemini 3.5 Live Translate โมเดลเสียงล่าสุดสำหรับการแปลเสียงพูดเป็นคำพูดแบบสดๆ
โมเดลนี้สามารถตรวจจับภาษาได้โดยอัตโนมัติมากกว่า 70 ภาษา และสร้างเสียงแปลที่เป็นธรรมชาติ โดยยังคงรักษาโทนเสียง จังหวะการพูด และระดับเสียงสูงต่ำของผู้พูดเอาไว้ Gemini 3.5 Live Translate จะสร้างเสียงแปลอย่างต่อเนื่อง โดยรักษาสมดุลระหว่างการรอฟังบริบทเพื่อคุณภาพการแปลที่ดีที่สุด กับการแปลทันทีเพื่อให้ทันผู้พูด ซึ่งต่างจากระบบแปลแบบสลับกันพูดที่ต้องรอให้ผู้พูดพูดจบก่อนถึงจะแปลให้ การแปลด้วย Gemini 3.5 Live Translate จะให้เสียงที่ไหลลื่น ไม่มีจังหวะหยุดที่น่าอึดอัด และจะดีเลย์ตามหลังผู้พูดเพียงไม่กี่วินาทีตลอดการสนทนา
Gemini 3.5 Live Translate เริ่มทยอยเปิดใช้งานตั้งแต่วันนี้ในผลิตภัณฑ์ต่างๆ ของ Google
- สำหรับนักพัฒนาซอฟต์แวร์: เปิดให้ใช้งานในเวอร์ชัน Public Preview ผ่าน Gemini Live API และ Google AI Studio
- สำหรับองค์กรธุรกิจ: เปิดให้ใช้งานในเวอร์ชัน Private Preview เริ่มตั้งแต่เดือนนี้ใน Google Meet
- สำหรับผู้ใช้ทั่วไป: เปิดให้ใช้งานผ่าน Google Translate ทั้งบน Android และ iOS
พัฒนาสิ่งใหม่ๆ ด้วย Gemini 3.5 Live Translate
Gemini 3.5 Live Translate จะประมวลผลเสียงพูดในขณะที่มีการสตรีมเพื่อช่วยให้การเชื่อมต่อระหว่างภาษาต่างๆ มีความราบรื่นยิ่งขึ้น โมเดลนี้สามารถจัดการกับอินพุตหลายภาษา (multilingual) ได้โดยไม่ต้องตั้งค่าด้วยตนเอง ในขณะที่ความสามารถในการตัดเสียงรบกวนช่วยให้มั่นใจได้ว่าแอปพลิเคชันจะทำงานได้ดีแม้ในสภาพแวดล้อมที่มีเสียงดังและคาดเดาไม่ได้ คุณสามารถใช้ความสามารถเหล่านี้ของ Gemini 3.5 Live Translate เพื่อช่วยอำนวยความสะดวกในการแปลสดสำหรับการโทร การประชุม การเรียนการสอน การถ่ายทอดสด และอื่นๆ ที่ใช้หลายภาษาได้
รับชมการทำงานของ Gemini Live API ที่ช่วยให้สามารถพากย์เสียงและแปลภาษาพร้อมกันได้หลายภาษาในเวลาเดียวกัน ร่วมเจาะลึกไปกับวิดีโอสาธิตหรือดูตัวอย่างโค้ดเพิ่มเติมได้ใน Gemini Cookbook
แพลตฟอร์มสำหรับนักพัฒนาซอฟต์แวร์อย่าง Agora, Fishjam, Livekit, Pipecat และ VisionAgents ช่วยให้นักพัฒนาซอฟต์แวร์สามารถสร้างและให้บริการแอปพลิเคชันสำหรับการแปลเสียงพูดได้อย่างง่ายดายผ่านทาง Gemini Live API โดยการผสานการทำงานเหล่านี้จะช่วยจัดการกับโครงสร้างพื้นฐานในการสตรีมสื่อแบบเรียลไทม์ที่มีความซับซ้อน เพื่อให้นักพัฒนาซอฟต์แวร์สามารถมุ่งเน้นไปที่ประสบการณ์ของผู้ใช้ได้อย่างเต็มที่
พาร์ทเนอร์ของเราอย่าง Grab กำลังทดสอบโมเดลนี้เพื่อช่วยให้คนขับและผู้โดยสารสามารถสื่อสารกันในภาษาต่างๆ ได้แบบเกือบเรียลไทม์ ซึ่งคนขับและผู้โดยสารมีการโทรติดต่อกันด้วยเสียงผ่าน Grab มากกว่า 10 ล้านครั้งในแต่ละเดือน
ฟีดแบ็กจากพาร์ทเนอร์
นอกจาก Grab แล้ว บริษัทต่างๆ เช่น CJ ENM, LiveKit และรายอื่นๆ ก็ได้แชร์ฟีดแบ็กเชิงบวกเกี่ยวกับ Gemini 3.5 Live Translate ด้วย โดยเน้นย้ำถึงคุณภาพการแปลที่น่าประทับใจ ความแม่นยำ และเวลาในการตอบสนองต่ำ (low latency)
สัมผัสประสบการณ์การใช้งาน Gemini 3.5 Live Translate ได้ในการประชุมทางวิดีโอของคุณ
ฟีเจอร์การแปลเสียงพูด (Speech Translation) ใน Google Meet กำลังจะเปลี่ยนมาใช้ Gemini 3.5 Live Translate ในเร็วๆ นี้ ซึ่งจะช่วยยกระดับประสบการณ์การใช้งานโดย:
- รองรับมากกว่า 70 ภาษา จากเดิมที่รองรับได้เพียง 5 ภาษา
- ช่วยให้สามารถสนทนาข้ามคู่ภาษาได้มากกว่า 2,000 คู่ภาษาภายในการประชุมเดียว ซึ่งขยายขีดความสามารถจากเดิมที่แปลได้เฉพาะในกรณีที่ภาษาอังกฤษเป็นภาษาต้นทางหรือปลายทางเท่านั้น
- มีการอัปเดตอินเทอร์เฟซใหม่เพื่อให้เข้าถึงฟีเจอร์แปลเสียงพูดได้ทันที
เราจะเปิดตัวการอัปเดตนี้ในเวอร์ชัน Private Preview สำหรับลูกค้า Google Workspace Business บางกลุ่ม โดยจะเริ่มให้บริการตั้งแต่เดือนนี้ และจะขยายการใช้งานในวงกว้างขึ้นในช่วงปลายปีนี้
ใช้งาน Gemini 3.5 Live Translate ได้ในแอป Google Translate ทั้งบน Android และ iOS
โมเดลนี้จะเริ่มทยอยเปิดให้ใช้งานในแอป Google Translate ทั่วโลก ทั้งบนระบบปฏิบัติการ Android และ iOS เมื่อใช้ฟีเจอร์แปลสด (Live Translate) เพียงแค่เชื่อมต่อหูฟังคู่ใดก็ได้ คุณก็จะได้สัมผัสกับประสบการณ์การแปลที่ราบรื่นยิ่งขึ้นและเป็นโทนเสียงของผู้พูดได้ในกว่า 70 ภาษา
นอกจากนี้ เรายังจะทยอยเปิดให้บริการ “โหมดการฟัง” (Listening Mode) แบบใหม่ที่มาพร้อม Gemini 3.5 Live Translate สำหรับผู้ใช้ Android ด้วย โดยโหมดนี้จะช่วยให้คุณได้ยินเสียงแปลโดยตรงผ่านหูฟังในโทรศัพท์ เพียงแค่ยกโทรศัพท์ขึ้นมาแนบหูเหมือนการคุยสายปกติ เสียงแปลก็จะสตรีมส่งตรงถึงคุณทันที ประสบการณ์ใหม่นี้จะมีประโยชน์มากในสถานการณ์ที่คุณต้องการฟังคำแปลอย่างรวดเร็วโดยไม่ให้คนอื่นได้ยิน และไม่มีหูฟังอยู่ใกล้ตัว
ด้วยโหมดการฟังแบบใหม่ ผู้ใช้สามารถฟังคำแปลภาษาอังกฤษของทัวร์นำเที่ยวที่เป็นภาษาสเปนได้แบบเกือบเรียลไทม์ผ่านหูฟังในโทรศัพท์โดยตรง
ใส่ลายน้ำด้วย SynthID
เสียงทั้งหมดที่สร้างขึ้นโดยโมเดลของเราจะถูกใส่ลายน้ำดิจิทัลด้วย SynthID โดยลายน้ำที่ไม่สามารถมองเห็นได้ด้วยตาเปล่านี้จะถูกผสานรวมเข้ากับเอาต์พุตเสียงโดยตรง เพื่อให้มั่นใจว่าเนื้อหาที่สร้างโดย AI จะยังคงสามารถตรวจจับได้ ซึ่งจะช่วยป้องกันการให้ข้อมูลที่ไม่ถูกต้อง (Misinofrmation) สามารถตรวจสอบรายละเอียดเกี่ยวกับแนวทางด้านความปลอดภัยและความรับผิดชอบของเราได้ที่ Model Card ของเรา