谷歌DeepMind，發布'Gemini 3.1 Flash TTS'…可透過文本調整語氣語速

Techub News · 2026-04-17T13:48:52+00:00

谷歌DeepMind發布了新語音合成模型"Gemini 3.1 Flash TTS"，可通過文本指令調整語調、速度和氛圍，支持70多種語言和多種口音。該模型注重自然性，並具備水印功能以應對虛假信息。其性能在盲測中位列第二，適用於多個領域，標誌著語音生成AI競爭加劇。

2026-04-17 13:48:52

摘要生成中

谷歌的人工智能組織DeepMind公開了新的語音合成模型"Gemini 3.1 Flash TTS"。其核心在於不僅能比現有的機械語音更自然地說話，使用者還能僅透過文本指令細緻調整語氣、速度和氛圍。

透過文本指令控制語氣·語調·速度

谷歌有限責任公司近期透過部落格宣布推出了Gemini 3.1 Flash TTS。該模型在將聊天機器人回應轉換為語音的過程中，能夠反映"熱情的"、“驚喜的”、"資訊傳達型"等指令詞來改變語調和音色。

根據公開的示範影片，使用者不僅能選擇聲音，還能調節語音的傳達方式和氛圍。如果說上一代TTS有些"像機器人"，那麼這一代模型則側重於實現更接近人類的表達力。

支持從英語地區口音到播客形式

Gemini 3.1 Flash TTS還提供多種主要語言的地區口音。以英語為例，不僅可以選擇美式"Valley"和"Southern"口音，還能選擇英式"Brixton"、"RP"等多種變體。此外還包括"跨大西洋"等特殊口音選項。

谷歌還為該模型加入了"導演級控制"功能。使用者可以更細緻地調整說話風格和速度，並能利用播客對話、有聲書旁白、語言導師、語音助手、健康指南、新聞主播、客戶支持專員等形式範本。

特別值得一提的是，當使用者設定場景和環境，甚至輸入台詞指導時，該模型被設計成能讓角色進行多次對話的同時保持一致的說話風格。谷歌解釋說，可以將完成的設定值導出為Gemini API程式碼，從而在多個專案和平台中重現相同的聲音。

支持70多種語言…並應用水印

據谷歌介紹，Gemini 3.1 Flash TTS的目標是提供更自然的語音體驗。支持語言超過70種，包括日語、印地語、德語等。

此外，所有輸出內容都嵌入了SynthID水印。此舉被視為旨在方便識別AI生成的語音內容，以應對未來可能出現的深度偽造或虛假資訊傳播的擔憂。

盲測排名第二…開發者可立即使用

其性能也得到了一定程度的驗證。在反映數千次盲測人類偏好的"Artificial Analysis TTS排行榜"上，Gemini 3.1 Flash TTS以1211分位列總榜第二。谷歌表示，這意味著它獲得了比多個熱門TTS模型更高的評價。

目前，開發者可以立即透過Gemini API和谷歌AI工作室使用該模型。企業客戶可透過Vertex AI存取，普通使用者則可以在谷歌Biz中試用該功能。

此次發布表明，生成式AI的競爭正從文本和圖像迅速擴展到語音領域。特別是在企業客戶支持、媒體製作、教育、數位內容製作市場對"自然的AI語音"需求日益增加的情況下，Gemini 3.1 Flash TTS很可能將進一步提升相關市場的競爭激烈程度。

TP AI 注意事項使用基於TokenPost.ai的語言模型對文章進行了摘要。正文的主要內容可能被省略或與事實不符。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

請輸入留言內容

暫無留言

熱門話題