Terobosan AI terbaru dari Microsoft baru saja hadir - VibeVoice-Realtime-0.5B resmi diluncurkan. Teknologi ini didukung oleh mesin TTS dengan 1,5 miliar parameter yang mengungguli tolok ukur saat ini. Apa yang menarik perhatian saya? Waktu respons yang hampir instan - sekitar 300 milidetik sebelum kamu mendengar suara pertama. Itu sangat cepat untuk teks ke suara. Dan yang paling menarik: ini sepenuhnya open-source di bawah lisensi MIT, artinya para pengembang benar-benar bisa membangun dengan teknologi ini tanpa pusing soal lisensi. Bagi siapa pun yang mengerjakan antarmuka suara atau alat komunikasi waktu nyata, ini bisa jadi game-changer. Fakta bahwa raksasa teknologi merilis sesuatu yang sekuat ini untuk komunitas? Langkah seperti inilah yang mempercepat inovasi di semua lini.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
10 Suka
Hadiah
10
4
Posting ulang
Bagikan
Komentar
0/400
WalletWhisperer
· 12-05 17:44
Latensi 300ms... pengenalan pola benar-benar terasa sekarang. Langkah open-source adalah strategi akumulasi klasik—perhatikan indikator perilaku yang mulai terlihat.
Lihat AsliBalas0
GateUser-75ee51e7
· 12-05 17:34
Hanya butuh 300 milidetik untuk bersuara? Kali ini Microsoft benar-benar tidak berlebihan, langkah open source MIT ini memang luar biasa.
Lihat AsliBalas0
SpeakWithHatOn
· 12-05 17:34
Hanya butuh 300 milidetik untuk mengeluarkan suara? Kali ini Microsoft memang luar biasa, open source dan bahkan lisensinya MIT, para developer benar-benar dimanjakan.
Lihat AsliBalas0
CryptoMom
· 12-05 17:24
300 milidetik bersuara? Kecepatannya benar-benar luar biasa, akhirnya bisa melakukan percakapan secara real-time.
Terobosan AI terbaru dari Microsoft baru saja hadir - VibeVoice-Realtime-0.5B resmi diluncurkan. Teknologi ini didukung oleh mesin TTS dengan 1,5 miliar parameter yang mengungguli tolok ukur saat ini. Apa yang menarik perhatian saya? Waktu respons yang hampir instan - sekitar 300 milidetik sebelum kamu mendengar suara pertama. Itu sangat cepat untuk teks ke suara. Dan yang paling menarik: ini sepenuhnya open-source di bawah lisensi MIT, artinya para pengembang benar-benar bisa membangun dengan teknologi ini tanpa pusing soal lisensi. Bagi siapa pun yang mengerjakan antarmuka suara atau alat komunikasi waktu nyata, ini bisa jadi game-changer. Fakta bahwa raksasa teknologi merilis sesuatu yang sekuat ini untuk komunitas? Langkah seperti inilah yang mempercepat inovasi di semua lini.