✍️ Gate 廣場「創作者認證激勵計劃」優質創作者持續招募中!
Gate 廣場現正面向優質創作者開放認證申請!
立即加入,發布優質內容,參與活動即可瓜分月度 $10,000+ 創作獎勵!
📕 認證申請步驟:
1️⃣ 打開 App 首頁底部【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】,提交申請等待審核
注:請確保 App 版本更新至 7.25.0 或以上。
👉 立即報名:https://www.gate.com/questionnaire/7159
豪華代幣獎池、Gate 精美週邊、流量曝光等超 $10,000 豐厚獎勵等你拿!
📅 活動自 11 月 1 日起持續進行
在 Gate 廣場讓優質內容變現,創作賺取獎勵!
活動詳情:https://www.gate.com/announcements/article/47889
Meta AI 推出全語言語音識別(ASR),推動超過 1,600 種語言的自動語音識別技術
簡要介紹
Meta AI 已推出 Omnilingual 自動語音辨識系統,支援超過 1600 種語言的語音識別,並釋出開源模型與涵蓋 350 種服務不足語言的語料庫。
科技公司 Meta 的研究部門 Meta AI,專注於人工智慧與擴增實境,宣布推出 Meta Omnilingual 自動語音辨識(ASR)系統。
這套模型能提供超過 1600 種語言的語音識別,達到前所未有的高品質表現。此外,Meta AI 也開源了 Omnilingual wav2vec 2.0,一個具有 70 億參數的自我監督、多語言語音表示模型,旨在支援各種下游語音任務。
除了這些工具外,該組織還發布了 Omnilingual ASR 語料庫,這是一個由全球合作夥伴共同開發的、包含 350 種服務不足語言的轉錄語音資料集。
近年來,自動語音辨識技術已取得顯著進展,許多廣泛使用的語言已達到接近完美的辨識率。然而,擴展到資源較少的語言仍具挑戰,主要因為現有 AI 架構對資料與計算資源的高需求。Omnilingual ASR 系統通過將 wav2vec 2.0 語音編碼器擴展至 70 億參數,從原始未轉錄的語音中建立豐富的多語言表示,解決了這一限制。兩種解碼器變體將這些表示轉換為字符標記:一種使用連接時序分類(CTC),另一種則採用類似大型語言模型的變壓器方法。
這種受大型語言模型啟發的 ASR 方法,在超過 1600 種語言中達到最先進的性能,78% 的語言字符錯誤率低於 10,並引入了更靈活的新增語言方式。
與傳統系統需專家微調不同,Omnilingual ASR 只需少量配對的音訊與文字範例,即可加入未支援的語言,實現轉錄,無需大量資料、專業知識或高端運算資源。雖然零-shot 的結果尚未達到完全訓練系統的水準,但此方法提供了一個可擴展的途徑,讓服務不足的語言進入數位生態。
Meta AI 推出 Omnilingual ASR 套件與語料庫,推動語音識別技術進步
該研究部門釋出了一套完整的模型與資料集,旨在推動任何語言的語音技術發展。基於 FAIR 先前的研究,Omnilingual ASR 包含兩種解碼器變體,從適用於低功耗裝置的 3億參數輕量模型,到提供高精度的 70億模型,適用於多種應用。通用的 wav2vec 2.0 語音基礎模型也提供多個規模,支持超越 ASR 的多種語音任務。所有模型皆採用 Apache 2.0 授權,資料集則採用 CC-BY 授權,讓研究人員、開發者與語言推廣者能在 PyTorch 生態系中的 FAIR 開源框架 fairseq2 上,調整與擴展語音解決方案。
Omnilingual ASR 在史上最大、語言多樣性最高的 ASR 資料庫之一上訓練,結合公開資料集與社群收集的錄音。為支援數位資源有限的語言,Meta AI 與當地組織合作,招募並補償偏遠或資料不足地區的母語者,建立了 Omnilingual ASR 語料庫,至今為止最大規模的超低資源自發性 ASR 資料集。透過語言科技合作夥伴計畫,還匯聚了全球語言學家、研究人員與語言社群,包括與 Mozilla Foundation 的 Common Voice 以及 Lanfrica/NaijaVoices 的合作,提供深厚的語言學見解與文化背景,確保技術符合當地需求,同時賦能多元語言社群。