Последний прорыв Microsoft в области ИИ только что появился на рынке — VibeVoice-Realtime-0.5B официально представлен. Эта система оснащена TTS-движком с 1,5 миллиардами параметров, который превосходит текущие бенчмарки. Что меня особенно поразило? Практически мгновенное время отклика — речь идет примерно о 300 миллисекундах до того, как вы услышите первый звук. Для синтеза речи это невероятно быстро. И вот в чем суть: проект полностью с открытым исходным кодом по лицензии MIT, а значит, разработчики могут использовать его без лицензионных проблем. Для всех, кто работает над голосовыми интерфейсами или инструментами для общения в реальном времени, это может стать настоящим прорывом. И тот факт, что технологический гигант выпускает настолько мощное решение для сообщества? Именно такие шаги ускоряют инновации во всех сферах.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
10 Лайков
Награда
10
4
Репост
Поделиться
комментарий
0/400
WalletWhisperer
· 12-05 17:44
300 мс задержка... интуиция по распознаванию шаблонов сейчас зашкаливает. Открытие исходного кода — это классическая стратегия накопления — наблюдайте, как разворачиваются поведенческие индикаторы.
Посмотреть ОригиналОтветить0
GateUser-75ee51e7
· 12-05 17:34
Звук появляется всего за 300 миллисекунд? На этот раз Microsoft действительно не преувеличивает, MIT с этим открытым исходным кодом действительно впечатляет.
Посмотреть ОригиналОтветить0
SpeakWithHatOn
· 12-05 17:34
Звук появляется всего за 300 миллисекунд? На этот раз у Microsoft действительно что-то стоящее, да ещё и с открытым исходным кодом по лицензии MIT — теперь разработчики действительно довольны.
Посмотреть ОригиналОтветить0
CryptoMom
· 12-05 17:24
Звук появляется за 300 миллисекунд? Эта скорость просто невероятная, наконец-то можно делать разговоры в реальном времени.
Последний прорыв Microsoft в области ИИ только что появился на рынке — VibeVoice-Realtime-0.5B официально представлен. Эта система оснащена TTS-движком с 1,5 миллиардами параметров, который превосходит текущие бенчмарки. Что меня особенно поразило? Практически мгновенное время отклика — речь идет примерно о 300 миллисекундах до того, как вы услышите первый звук. Для синтеза речи это невероятно быстро. И вот в чем суть: проект полностью с открытым исходным кодом по лицензии MIT, а значит, разработчики могут использовать его без лицензионных проблем. Для всех, кто работает над голосовыми интерфейсами или инструментами для общения в реальном времени, это может стать настоящим прорывом. И тот факт, что технологический гигант выпускает настолько мощное решение для сообщества? Именно такие шаги ускоряют инновации во всех сферах.