BIGDATA_1 Telegram 954
Mini-Omni

В данной работе представлена Mini-Omni — аудиобазированная сквозная модель для диалогового взаимодействия в реальном времени. Чтобы достичь этой возможности, мы предлагаем метод генерации речи, управляемый текстовыми инструкциями, а также стратегию batch-parallel во время инференса, что дополнительно повышает производительность. Наш метод также позволяет сохранить исходные языковые способности модели с минимальной деградацией, обеспечивая основу для создания других моделей с возможностями взаимодействия в реальном времени. Мы называем этот метод обучения "Любая модель может говорить" (*Any Model Can Talk*).

Кроме того, мы представляем VoiceAssistant-400K — датасет, предназначенный для дообучения моделей, оптимизированных для генерации речи. Насколько нам известно, Mini-Omni является первой полностью сквозной open-source моделью для взаимодействия с речью в реальном времени, открывая новые перспективы для будущих исследований.


https://huggingface.co/gpt-omni/mini-omni/tree/main

https://arxiv.org/abs/2408.16725

https://github.com/gpt-omni/mini-omni


👉 @bigdata_1
👍1



tgoop.com/bigdata_1/954
Create:
Last Update:

Mini-Omni

В данной работе представлена Mini-Omni — аудиобазированная сквозная модель для диалогового взаимодействия в реальном времени. Чтобы достичь этой возможности, мы предлагаем метод генерации речи, управляемый текстовыми инструкциями, а также стратегию batch-parallel во время инференса, что дополнительно повышает производительность. Наш метод также позволяет сохранить исходные языковые способности модели с минимальной деградацией, обеспечивая основу для создания других моделей с возможностями взаимодействия в реальном времени. Мы называем этот метод обучения "Любая модель может говорить" (*Any Model Can Talk*).

Кроме того, мы представляем VoiceAssistant-400K — датасет, предназначенный для дообучения моделей, оптимизированных для генерации речи. Насколько нам известно, Mini-Omni является первой полностью сквозной open-source моделью для взаимодействия с речью в реальном времени, открывая новые перспективы для будущих исследований.


https://huggingface.co/gpt-omni/mini-omni/tree/main

https://arxiv.org/abs/2408.16725

https://github.com/gpt-omni/mini-omni


👉 @bigdata_1

BY BigData


Share with your friend now:
tgoop.com/bigdata_1/954

View MORE
Open in Telegram


Telegram News

Date: |

A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. Write your hashtags in the language of your target audience. Concise
from us


Telegram BigData
FROM American