🔥 WCTC S8 全球交易賽正式開賽!
8,000,000 USDT 超級獎池解鎖開啟
🏆 團隊賽:上半場正式開啟,預報名階段 5,500+ 戰隊現已集結
交易量收益額雙重比拼,解鎖上半場 1,800,000 USDT 獎池
🏆 個人賽:現貨、合約、TradFi、ETF、閃兌、跟單齊上陣
全場交易量比拼,瓜分 2,000,000 USDT 獎池
🏆 王者 PK 賽:零門檻參與,實時匹配享受戰鬥快感
收益率即時 PK,瓜分 1,600,000 USDT 獎池
活動時間:2026 年 4 月 23 日 16:00:00 - 2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即參與:https://www.gate.com/competition/wctc-s8
#WCTCS8
xAI 推出 Grok 語音 API,價格比競爭對手低 60%
伊隆·馬斯克的 xAI 發布 Grok 語音轉文字與文字轉語音 API,收費為每小時 0.10 美元,聲稱在企業轉錄基準中擁有最低錯誤率。
伊隆·馬斯克的 xAI 在 4 月 17 日推出了兩個獨立的音頻 API,將 Grok 的語音技術定位為 ElevenLabs、Deepgram 和 AssemblyAI 的直接競爭對手,價格具有競爭力。
Grok 語音轉文字 API 的批次處理收費為每小時 0.10 美元,實時串流則為每小時 0.20 美元。文字轉語音的價格為每百萬字符 4.20 美元。兩者都利用支援特斯拉車輛和 Starlink 客戶支援的相同基礎設施。
值得審視的基準聲稱
xAI 公布的詞錯誤率數據展現了一個有趣的故事。在電話通話實體識別方面——例如姓名、帳號、日期——Grok STT 聲稱錯誤率為 5.0%,而 ElevenLabs 為 12.0%,Deepgram 為 13.5%,AssemblyAI 為 21.3%。如果在實際應用中能夠保持這樣的差距,將是相當顯著的。
公司用一個棘手的測試案例來展示:轉錄威爾士名字如“Anghared Llewelyn Bowen”和“Oisin MacGiolla Phadraig”以及抵押貸款細節。Grok 完美無誤,沒有出錯。競爭模型在發音和日期格式方面則出現了不一致的失誤。
影片和播客轉錄的競爭較為激烈——Grok 和 ElevenLabs 的錯誤率都為 2.4%,Deepgram 和 AssemblyAI 分別稍遜,為 3.0% 和 3.2%。
開發者的技術功能
除了純粹的轉錄能力,xAI 還加入了一些企業客戶實際需要的功能:詞級時間戳、多聲道說話人辨識,以及支援超過 25 種語言並能無縫切換。
反文本正規化(Inverse Text Normalization)功能能自動將口語中的數字、日期和貨幣轉換為正確格式。“Four one four five five five one two three four” 會轉成電話號碼。“Six ninety-nine” 會變成 6.99 美元。這個小細節能省去後續處理的麻煩。
文字轉語音包含內嵌標籤,用於語調控制——如耳語、笑聲、嘆氣、強調、節奏調整。開發者可以注入情感細節,無需與複雜的音頻標記作鬥爭。
策略背景
此舉緊隨 xAI 在 2025 年 3 月收購 X 公司,並在擴展基礎設施合作夥伴關係之際推出。就在 API 發布前兩天,有報導指出 xAI 計劃為 Cursor 這家由 AI 驅動的程式設計新創公司提供計算能力。
自 2024 年 12 月運行的 Colossus 超級電腦提供了後端算力。xAI 似乎正將這些容量在多個領域變現——企業 AI、開發者工具,現在還有語音 API。
對於開發語音代理或轉錄工具的開發者來說,這個價格遠低於已建立的競爭者。Groks 的準確率聲稱在實際部署中是否能持續有效,仍是未解之謎。相關文件和速率限制已在 xAI 的 API 控制台提供,供準備測試的用戶使用。
圖片來源:Shutterstock