Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/aihappens/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
AI Happens@aihappens P.305
AIHAPPENS Telegram 305
Почти год лидером среди открытых решений для распознавания речи был Whisper от OpenAI. Но теперь пальму первенства среди API сервисов перехватила новая модель Universal-1 от AssemblyAI.

(я постестил на длинном звонке - работает правда хорошо. Можно 100 часов бесплатно потестить)

Universal-1 превосходит Whisper и другие коммерческие решения по нескольким ключевым параметрам:

Качество: на 10% и более точнее распознает речь на английском, испанском и немецком языках в сравнении с лучшими протестированными аналогами. При этом генерирует на 30% меньше некорректных вставок слов (так называемых "галлюцинаций") на обычной речи и на 90% - на фоновых шумах.

Скорость: в 5 раз быстрее благодаря оптимизации архитектуры и распараллеливанию инференса. Теперь 1 час аудио обрабатывается всего за 38 секунд на одном GPU.

Многоязычность: умеет распознавать речь сразу на нескольких языках в рамках одного аудиофайла (code switching).

В 71% случаев пользователи предпочитают транскрипции Universal-1 по сравнению с предыдущей моделью Conformer-2.

Новая версия Universal-1 уже доступна клиентам AssemblyAI через API. Похоже, лидерство в гонке решений для speech-to-text переходит от открытого Whisper к проприетарному Universal-1.

Учитывая такой технологический рывок, теперь AssemblyAI может составить серьезную конкуренцию гигантам вроде OpenAo, Google, Amazon и Microsoft на быстрорастущем рынке Speech AI.

@aihappens
❤‍🔥40👍19127🔥6😢1



tgoop.com/aihappens/305
Create:
Last Update:

Почти год лидером среди открытых решений для распознавания речи был Whisper от OpenAI. Но теперь пальму первенства среди API сервисов перехватила новая модель Universal-1 от AssemblyAI.

(я постестил на длинном звонке - работает правда хорошо. Можно 100 часов бесплатно потестить)

Universal-1 превосходит Whisper и другие коммерческие решения по нескольким ключевым параметрам:

Качество: на 10% и более точнее распознает речь на английском, испанском и немецком языках в сравнении с лучшими протестированными аналогами. При этом генерирует на 30% меньше некорректных вставок слов (так называемых "галлюцинаций") на обычной речи и на 90% - на фоновых шумах.

Скорость: в 5 раз быстрее благодаря оптимизации архитектуры и распараллеливанию инференса. Теперь 1 час аудио обрабатывается всего за 38 секунд на одном GPU.

Многоязычность: умеет распознавать речь сразу на нескольких языках в рамках одного аудиофайла (code switching).

В 71% случаев пользователи предпочитают транскрипции Universal-1 по сравнению с предыдущей моделью Conformer-2.

Новая версия Universal-1 уже доступна клиентам AssemblyAI через API. Похоже, лидерство в гонке решений для speech-to-text переходит от открытого Whisper к проприетарному Universal-1.

Учитывая такой технологический рывок, теперь AssemblyAI может составить серьезную конкуренцию гигантам вроде OpenAo, Google, Amazon и Microsoft на быстрорастущем рынке Speech AI.

@aihappens

BY AI Happens




Share with your friend now:
tgoop.com/aihappens/305

View MORE
Open in Telegram


Telegram News

Date: |

It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month. Concise As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces.
from us


Telegram AI Happens
FROM American