👀 家人们,每天看行情、刷大佬观点,却从来不开口说两句?你的观点可能比你想的更有价值!
广场新人 & 回归福利正式上线!不管你是第一次发帖还是久违回归,我们都直接送你奖励!🎁
每月 $20,000 奖金等你来领!
📅 活动时间: 长期有效(月底结算)
💎 参与方式:
用户需为首次发帖的新用户或一个月未发帖的回归用户。
发帖时必须带上话题标签: #我在广场发首帖 。
内容不限:币圈新闻、行情分析、晒单吐槽、币种推荐皆可。
💰 奖励机制:
必得奖:发帖体验券
每位有效发帖用户都可获得 $50 仓位体验券。(注:每月奖池上限 $20,000,先到先得!如果大家太热情,我们会继续加码!)
进阶奖:发帖双王争霸
月度发帖王: 当月发帖数量最多的用户,额外奖励 50U。
月度互动王: 当月帖子互动量(点赞+评论+转发+分享)最高的用户,额外奖励 50U。
📝 发帖要求:
帖子字数需 大于30字,拒绝纯表情或无意义字符。
内容需积极健康,符合社区规范,严禁广告引流及违规内容。
💡 你的观点可能会启发无数人,你的第一次分享也许就是成为“广场大V”的起点,现在就开始广场创作之旅吧!
Meta AI 推出全语言自动语音识别(ASR),推动超过1600种语言的自动语音识别技术发展
简要介绍
Meta AI推出了Omnilingual自动语音识别(ASR)系统,支持超过1600种语言的语音识别,并发布了开源模型和涵盖350种欠缺资源语言的语料库。
科技公司Meta的研究部门Meta AI专注于人工智能和增强现实,宣布发布Meta Omnilingual自动语音识别(ASR)系统。
该系列模型能够实现超过1600种语言的自动语音识别,性能达到前所未有的高水平。此外,Meta AI还开源了Omnilingual wav2vec 2.0,这是一个具有70亿参数的自监督、多语种语音表示模型,旨在支持多种下游语音任务。
除了这些工具外,组织还发布了Omnilingual ASR语料库,这是一个由全球合作伙伴共同开发的、包含350种欠缺资源语言的转录语音的精选集。
近年来,自动语音识别技术取得了显著进步,在许多广泛使用的语言中达到了几乎完美的准确率。然而,扩展到资源较少的语言仍然具有挑战性,因为现有AI架构对数据和计算资源的需求很高。Omnilingual ASR系统通过将wav2vec 2.0语音编码器扩展到70亿参数,从原始未转录语音中创建丰富的多语种表示,解决了这一限制。两种解码器变体将这些表示映射为字符标记:一种使用连接时序分类(CTC),另一种采用类似大型语言模型的变换器方法。
这种受大型语言模型启发的ASR方法在超过1600种语言中实现了最先进的性能,其中78%的语言字符错误率低于10,并引入了一种更灵活的添加新语言的方法。
与传统系统需要专家微调不同,Omnilingual ASR只需少量配对的音频-文本样本即可支持之前未支持的语言,实现转录,无需大量数据、专业技能或高端计算。虽然零样本(zero-shot)结果尚未达到完全训练系统的水平,但这种方法为将欠缺资源的语言引入数字生态系统提供了可扩展的途径。
Meta AI通过Omnilingual ASR套件和语料库推动语音识别技术
研究部门发布了一套全面的模型和数据集,旨在推动任何语言的语音技术发展。在FAIR之前的研究基础上,Omnilingual ASR包括两种解码器变体,从适用于低功耗设备的300M轻量级模型,到提供高精度、多应用场景的70亿参数模型。通用的wav2vec 2.0语音基础模型也提供多种规模,支持超出ASR的多种语音相关任务。所有模型均采用Apache 2.0许可证发布,数据集则采用CC-BY协议,方便研究人员、开发者和语言倡导者在PyTorch生态系统中的fairseq2开源框架下,进行定制和扩展语音解决方案。
Omnilingual ASR在史上最大、最具语言多样性的ASR语料库之一上进行训练,结合了公开数据集和社区采集的录音。为了支持数字资源有限的语言,Meta AI与本地组织合作,招募并补偿偏远或资料不足地区的母语者,创建了Omnilingual ASR语料库,这是迄今为止最大规模的超低资源自发语音识别数据集。通过语言技术合作伙伴计划(Language Technology Partner Program),还汇聚了全球的语言学家、研究人员和语言社区,包括与Mozilla基金会的Common Voice和Lanfrica/NaijaVoices的合作。这些努力提供了深厚的语言学洞察和文化背景,确保技术满足本地需求,同时赋能全球多样化的语言社区。