谷歌DeepMind,發布'Gemini 3.1 Flash TTS'…可透過文本調整語氣語速

robot
摘要生成中

谷歌的人工智能組織DeepMind公開了新的語音合成模型"Gemini 3.1 Flash TTS"。其核心在於不僅能比現有的機械語音更自然地說話,使用者還能僅透過文本指令細緻調整語氣、速度和氛圍。

透過文本指令控制語氣·語調·速度

谷歌有限責任公司近期透過部落格宣布推出了Gemini 3.1 Flash TTS。該模型在將聊天機器人回應轉換為語音的過程中,能夠反映"熱情的"、“驚喜的”、"資訊傳達型"等指令詞來改變語調和音色。

根據公開的示範影片,使用者不僅能選擇聲音,還能調節語音的傳達方式和氛圍。如果說上一代TTS有些"像機器人",那麼這一代模型則側重於實現更接近人類的表達力。

支持從英語地區口音到播客形式

Gemini 3.1 Flash TTS還提供多種主要語言的地區口音。以英語為例,不僅可以選擇美式"Valley"和"Southern"口音,還能選擇英式"Brixton"、"RP"等多種變體。此外還包括"跨大西洋"等特殊口音選項。

谷歌還為該模型加入了"導演級控制"功能。使用者可以更細緻地調整說話風格和速度,並能利用播客對話、有聲書旁白、語言導師、語音助手、健康指南、新聞主播、客戶支持專員等形式範本。

特別值得一提的是,當使用者設定場景和環境,甚至輸入台詞指導時,該模型被設計成能讓角色進行多次對話的同時保持一致的說話風格。谷歌解釋說,可以將完成的設定值導出為Gemini API程式碼,從而在多個專案和平台中重現相同的聲音。

支持70多種語言…並應用水印

據谷歌介紹,Gemini 3.1 Flash TTS的目標是提供更自然的語音體驗。支持語言超過70種,包括日語、印地語、德語等。

此外,所有輸出內容都嵌入了SynthID水印。此舉被視為旨在方便識別AI生成的語音內容,以應對未來可能出現的深度偽造或虛假資訊傳播的擔憂。

盲測排名第二…開發者可立即使用

其性能也得到了一定程度的驗證。在反映數千次盲測人類偏好的"Artificial Analysis TTS排行榜"上,Gemini 3.1 Flash TTS以1211分位列總榜第二。谷歌表示,這意味著它獲得了比多個熱門TTS模型更高的評價。

目前,開發者可以立即透過Gemini API和谷歌AI工作室使用該模型。企業客戶可透過Vertex AI存取,普通使用者則可以在谷歌Biz中試用該功能。

此次發布表明,生成式AI的競爭正從文本和圖像迅速擴展到語音領域。特別是在企業客戶支持、媒體製作、教育、數位內容製作市場對"自然的AI語音"需求日益增加的情況下,Gemini 3.1 Flash TTS很可能將進一步提升相關市場的競爭激烈程度。

TP AI 注意事項 使用基於TokenPost.ai的語言模型對文章進行了摘要。正文的主要內容可能被省略或與事實不符。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言