🔥 WCTC S8 全球交易賽正式開賽!
8,000,000 USDT 超級獎池解鎖開啟
🏆 團隊賽:上半場正式開啟,預報名階段 5,500+ 戰隊現已集結
交易量收益額雙重比拼,解鎖上半場 1,800,000 USDT 獎池
🏆 個人賽:現貨、合約、TradFi、ETF、閃兌、跟單齊上陣
全場交易量比拼,瓜分 2,000,000 USDT 獎池
🏆 王者 PK 賽:零門檻參與,實時匹配享受戰鬥快感
收益率即時 PK,瓜分 1,600,000 USDT 獎池
活動時間:2026 年 4 月 23 日 16:00:00 - 2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即參與:https://www.gate.com/competition/wctc-s8
#WCTCS8
谷歌DeepMind,發布'Gemini 3.1 Flash TTS'…可透過文本調整語氣語速
谷歌的人工智能組織DeepMind公開了新的語音合成模型"Gemini 3.1 Flash TTS"。其核心在於不僅能比現有的機械語音更自然地說話,使用者還能僅透過文本指令細緻調整語氣、速度和氛圍。
透過文本指令控制語氣·語調·速度
谷歌有限責任公司近期透過部落格宣布推出了Gemini 3.1 Flash TTS。該模型在將聊天機器人回應轉換為語音的過程中,能夠反映"熱情的"、“驚喜的”、"資訊傳達型"等指令詞來改變語調和音色。
根據公開的示範影片,使用者不僅能選擇聲音,還能調節語音的傳達方式和氛圍。如果說上一代TTS有些"像機器人",那麼這一代模型則側重於實現更接近人類的表達力。
支持從英語地區口音到播客形式
Gemini 3.1 Flash TTS還提供多種主要語言的地區口音。以英語為例,不僅可以選擇美式"Valley"和"Southern"口音,還能選擇英式"Brixton"、"RP"等多種變體。此外還包括"跨大西洋"等特殊口音選項。
谷歌還為該模型加入了"導演級控制"功能。使用者可以更細緻地調整說話風格和速度,並能利用播客對話、有聲書旁白、語言導師、語音助手、健康指南、新聞主播、客戶支持專員等形式範本。
特別值得一提的是,當使用者設定場景和環境,甚至輸入台詞指導時,該模型被設計成能讓角色進行多次對話的同時保持一致的說話風格。谷歌解釋說,可以將完成的設定值導出為Gemini API程式碼,從而在多個專案和平台中重現相同的聲音。
支持70多種語言…並應用水印
據谷歌介紹,Gemini 3.1 Flash TTS的目標是提供更自然的語音體驗。支持語言超過70種,包括日語、印地語、德語等。
此外,所有輸出內容都嵌入了SynthID水印。此舉被視為旨在方便識別AI生成的語音內容,以應對未來可能出現的深度偽造或虛假資訊傳播的擔憂。
盲測排名第二…開發者可立即使用
其性能也得到了一定程度的驗證。在反映數千次盲測人類偏好的"Artificial Analysis TTS排行榜"上,Gemini 3.1 Flash TTS以1211分位列總榜第二。谷歌表示,這意味著它獲得了比多個熱門TTS模型更高的評價。
目前,開發者可以立即透過Gemini API和谷歌AI工作室使用該模型。企業客戶可透過Vertex AI存取,普通使用者則可以在谷歌Biz中試用該功能。
此次發布表明,生成式AI的競爭正從文本和圖像迅速擴展到語音領域。特別是在企業客戶支持、媒體製作、教育、數位內容製作市場對"自然的AI語音"需求日益增加的情況下,Gemini 3.1 Flash TTS很可能將進一步提升相關市場的競爭激烈程度。
TP AI 注意事項 使用基於TokenPost.ai的語言模型對文章進行了摘要。正文的主要內容可能被省略或與事實不符。