xAI 推出 Grok 語音 API，價格比競爭對手低 60%

AsiaTokenFund · 2026-04-19T03:30:14+00:00

Zach Anderson 2026年4月18日 00:53Elon Musk的xAI以每小時0.10美元的價格推出了Grok語音轉文字和文字轉語音API，聲稱在企業轉錄基準中具有最低的錯誤率。 Elon Musk的xAI於4月17日推出了兩個獨立的音頻API，

AsiaTokenFund

2026-04-19 03:30:14

伊隆·馬斯克的 xAI 發布 Grok 語音轉文字與文字轉語音 API，收費為每小時 0.10 美元，聲稱在企業轉錄基準中擁有最低錯誤率。

伊隆·馬斯克的 xAI 在 4 月 17 日推出了兩個獨立的音頻 API，將 Grok 的語音技術定位為 ElevenLabs、Deepgram 和 AssemblyAI 的直接競爭對手，價格具有競爭力。

Grok 語音轉文字 API 的批次處理收費為每小時 0.10 美元，實時串流則為每小時 0.20 美元。文字轉語音的價格為每百萬字符 4.20 美元。兩者都利用支援特斯拉車輛和 Starlink 客戶支援的相同基礎設施。

值得審視的基準聲稱

xAI 公布的詞錯誤率數據展現了一個有趣的故事。在電話通話實體識別方面——例如姓名、帳號、日期——Grok STT 聲稱錯誤率為 5.0%，而 ElevenLabs 為 12.0%，Deepgram 為 13.5%，AssemblyAI 為 21.3%。如果在實際應用中能夠保持這樣的差距，將是相當顯著的。

公司用一個棘手的測試案例來展示：轉錄威爾士名字如“Anghared Llewelyn Bowen”和“Oisin MacGiolla Phadraig”以及抵押貸款細節。Grok 完美無誤，沒有出錯。競爭模型在發音和日期格式方面則出現了不一致的失誤。

影片和播客轉錄的競爭較為激烈——Grok 和 ElevenLabs 的錯誤率都為 2.4%，Deepgram 和 AssemblyAI 分別稍遜，為 3.0% 和 3.2%。

開發者的技術功能

除了純粹的轉錄能力，xAI 還加入了一些企業客戶實際需要的功能：詞級時間戳、多聲道說話人辨識，以及支援超過 25 種語言並能無縫切換。

反文本正規化（Inverse Text Normalization）功能能自動將口語中的數字、日期和貨幣轉換為正確格式。“Four one four five five five one two three four” 會轉成電話號碼。“Six ninety-nine” 會變成 6.99 美元。這個小細節能省去後續處理的麻煩。

文字轉語音包含內嵌標籤，用於語調控制——如耳語、笑聲、嘆氣、強調、節奏調整。開發者可以注入情感細節，無需與複雜的音頻標記作鬥爭。

策略背景

此舉緊隨 xAI 在 2025 年 3 月收購 X 公司，並在擴展基礎設施合作夥伴關係之際推出。就在 API 發布前兩天，有報導指出 xAI 計劃為 Cursor 這家由 AI 驅動的程式設計新創公司提供計算能力。

自 2024 年 12 月運行的 Colossus 超級電腦提供了後端算力。xAI 似乎正將這些容量在多個領域變現——企業 AI、開發者工具，現在還有語音 API。

對於開發語音代理或轉錄工具的開發者來說，這個價格遠低於已建立的競爭者。Groks 的準確率聲稱在實際部署中是否能持續有效，仍是未解之謎。相關文件和速率限制已在 xAI 的 API 控制台提供，供準備測試的用戶使用。

圖片來源：Shutterstock

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

xAI 推出 Grok 語音 API，價格比競爭對手低 60%

值得審視的基準聲稱

開發者的技術功能

策略背景

熱門話題

WCTC交易王PK

比特幣突破7.9萬美元

加密市場普遍上漲

白宮記協晚宴發生槍擊事件

伊朗提出霍爾木茲海峽重開協議條件

置頂