TENSORBANANA Telegram 1223
T-one STT (распознавание речи на русском) под виндой (без WSL и докера) на CPU

- размер очень маленький - 71M параметров (whisper large - 1500M), поэтому быстрый.
- по первым ощущениям, уровень ошибок на уровне whisper-large.
- но по метрикам превосходит все существующие модули распознавания речи для русского.
- по умолчанию работает на CPU и довольно быстро. Намного быстрее виспера на cpu
- на ГПУ запускать лень, надо triton-inference-server поднимать. Пишут, что для GPU нужно 8 GB vram
- не ставит знаки препинания (а виспер ставит)
- обычное голосовое сообщение умеренного качества, записанное на улице, длиной 74 секунды он распознал за 12 секунд на CPU. Работает потоково. Первая фраза появилась уже через 1 секунду. Итого: 10 ошибок, в основном, пропуск слов, которые плохо слышно, иногда неверные окончания.


Установка под виндой

(для linux или wsl - используйте официальную инструкцию)

git clone https://github.com/voicekit-team/T-one.git
cd T-one
python -m venv .venv
.venv\Scripts\activate

в файле pyproject.toml удаляем или комментируем (#) строчку 16:
"kenlm (>=0.2.0,<1.0.0)",

git clone https://github.com/Microsoft/vcpkg.git
cd vcpkg
bootstrap-vcpkg.sh
vcpkg integrate install
vcpkg install kenlm

cd ..
pip install poetry
poetry lock
poetry install -E demo
pip install kenlm

uvicorn --host 127.0.0.1 --port 8081 tone.demo.website:app --reload

открываем 127.0.0.1:8081 в браузере



По умолчанию демо работает на CPU. Чтобы запустить на GPU нужно ставить TensorRT и triton-inference-server. Там свои сложности, под винду есть только некоторые версии сервера. Официальная инструкция (я не тестил) https://github.com/voicekit-team/T-one/blob/main/docs/triton_inference_server.ru.md



гитхаб: https://github.com/voicekit-team/T-one

HF: https://huggingface.co/t-tech/T-one
1👍32🔥65🤔3



tgoop.com/tensorbanana/1223
Create:
Last Update:

T-one STT (распознавание речи на русском) под виндой (без WSL и докера) на CPU

- размер очень маленький - 71M параметров (whisper large - 1500M), поэтому быстрый.
- по первым ощущениям, уровень ошибок на уровне whisper-large.
- но по метрикам превосходит все существующие модули распознавания речи для русского.
- по умолчанию работает на CPU и довольно быстро. Намного быстрее виспера на cpu
- на ГПУ запускать лень, надо triton-inference-server поднимать. Пишут, что для GPU нужно 8 GB vram
- не ставит знаки препинания (а виспер ставит)
- обычное голосовое сообщение умеренного качества, записанное на улице, длиной 74 секунды он распознал за 12 секунд на CPU. Работает потоково. Первая фраза появилась уже через 1 секунду. Итого: 10 ошибок, в основном, пропуск слов, которые плохо слышно, иногда неверные окончания.


Установка под виндой

(для linux или wsl - используйте официальную инструкцию)

git clone https://github.com/voicekit-team/T-one.git
cd T-one
python -m venv .venv
.venv\Scripts\activate

в файле pyproject.toml удаляем или комментируем (#) строчку 16:
"kenlm (>=0.2.0,<1.0.0)",

git clone https://github.com/Microsoft/vcpkg.git
cd vcpkg
bootstrap-vcpkg.sh
vcpkg integrate install
vcpkg install kenlm

cd ..
pip install poetry
poetry lock
poetry install -E demo
pip install kenlm

uvicorn --host 127.0.0.1 --port 8081 tone.demo.website:app --reload

открываем 127.0.0.1:8081 в браузере



По умолчанию демо работает на CPU. Чтобы запустить на GPU нужно ставить TensorRT и triton-inference-server. Там свои сложности, под винду есть только некоторые версии сервера. Официальная инструкция (я не тестил) https://github.com/voicekit-team/T-one/blob/main/docs/triton_inference_server.ru.md



гитхаб: https://github.com/voicekit-team/T-one

HF: https://huggingface.co/t-tech/T-one

BY Tensor Banana




Share with your friend now:
tgoop.com/tensorbanana/1223

View MORE
Open in Telegram


Telegram News

Date: |

Administrators Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! With Bitcoin down 30% in the past week, some crypto traders have taken to Telegram to “voice” their feelings. Some Telegram Channels content management tips Unlimited number of subscribers per channel
from us


Telegram Tensor Banana
FROM American