GITHUB_CODE Telegram 353
Forwarded from Machinelearning
🌟 Step-Audio: ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Ρ€Π΅Ρ‡Π΅Π²ΠΎΠ³ΠΎ взаимодСйствия.

Step-Audio – ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° с ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ исходным ΠΊΠΎΠ΄ΠΎΠΌ, ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‰Π°Ρ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ Ρ€Π΅Ρ‡ΠΈ для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΡΠ·Ρ‹Ρ‡Π½Ρ‹Ρ… Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ² (китайский, английский ΠΈ японский).

Step-Audio способна ΠΏΠ΅Ρ€Π΅Π΄Π°Π²Π°Ρ‚ΡŒ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Ρ‚Π΅Π½ΠΊΠΈ, Ρ€Π΅Π³ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ Π΄ΠΈΠ°Π»Π΅ΠΊΡ‚Ρ‹, Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ стили Ρ€Π΅Ρ‡ΠΈ ΠΈ Π²ΠΎΠΊΠ°Π»Π°.

Основой Step-Audio являСтся 130B ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ модСль, которая ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ Π² сСбС Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ распознавания ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π΅Ρ‡ΠΈ, сСмантичСского понимания, вСдСния Π΄ΠΈΠ°Π»ΠΎΠ³Π°, клонирования голоса ΠΈ синтСза Ρ€Π΅Ρ‡ΠΈ. Π’Π°ΠΆΠ½Ρ‹ΠΌ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ΠΎΠΌ являСтся собствСнный Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰ΠΈΠΉ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ высококачСствСнный Π·Π²ΡƒΠΊ Π±Π΅Π· Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ сбора Π΄Π°Π½Π½Ρ‹Ρ… Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ.

▢️ Бостав Ρ€Π΅Π»ΠΈΠ·Π°:

Step-Audio-Tokenizer - Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ Ρ€Π΅Ρ‡ΠΈ. Для лингвистичСской Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΊΠΎΠ΄Π΅Ρ€ Paraformer, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ квантуСтся Π² дискрСтныС прСдставлСния с частотой 16,7 Π“Ρ†. Для сСмантичСской Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ - Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ CosyVoice, ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ для эффСктивного кодирования характСристик, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Ρ… для создания СстСствСнных ΠΈ Π²Ρ‹Ρ€Π°Π·ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Ρ€Π΅Ρ‡Π΅Π²Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ², Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‰ΠΈΠΉ Π½Π° частотС 25 Π“Ρ†.

Step-Audio-Chat - ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ LLM с 130 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², которая ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ чСловСчСской Ρ€Π΅Ρ‡ΠΈ.

Step-Audio-TTS-3B - TTS-модСль, обучСнная Π½Π° ΠΊΡ€ΡƒΠΏΠ½ΠΎΠΌ синтСтичСском Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… с использованиСм ΠΏΠ°Ρ€Π°Π΄ΠΈΠ³ΠΌΡ‹ LLM-Chat. МодСль ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ нСсколько языков, мноТСство ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ элСмСнты управлСния стилСм голоса. Step-Audio-TTS-3B являСтся ΠΏΠ΅Ρ€Π²ΠΎΠΉ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΉ TTS-модСлью, способной Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ пСвчСский Π²ΠΎΠΊΠ°Π».

StepEval-Audio-360 - датасСт, собранный ΠΏΡ€ΠΈ участии ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π°Π½Π½ΠΎΡ‚Π°Ρ‚ΠΎΡ€ΠΎΠ² ΠΈ содСрТит вСсь спСктр возмоТностСй: ΠΏΠ΅Π½ΠΈΠ΅, творчСство, Ρ€ΠΎΠ»Π΅Π²Ρ‹Π΅ ΠΈΠ³Ρ€Ρ‹, логичСскиС рассуТдСния, ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ голоса, слСдованиС голосовым инструкциям, ΠΈΠ³Ρ€Ρ‹, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ Ρ€Π΅Ρ‡Π΅Π²Ρ‹ΠΌΠΈ эмоциями ΠΈ языковыС способности Π½Π° китайском, английском ΠΈ японском языках.

⚠️ Для локального использования понадобится (41.6Π“Ρ†): Step-Audio-Tokenizer - 1.5 GB VRAM, Step-Audio-Chat - 256 GB VRAM, Step-Audio-TTS-3B - 8GB VRAM.

⚠️ НаиболСС качСствСнный инфСрСнс, ΠΏΠΎ словам Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠ², достигаСтся Π½Π° 4xA800/H800 GPU с 80GB ΠΈΠ»ΠΈ большС.


β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ инфСрСнс Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ TTS:

# Clone the repository
git clone https://github.com/stepfun-ai/Step-Audio.git

# Create a Conda venv
conda create -n stepaudio python=3.10
conda activate stepaudio

# Install dependencies
cd Step-Audio
pip install -r requirements.txt

git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

# TTS inference
python tts_inference.py --model-path --output-path --synthesis-type use_tts_or_clone


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘ΠšΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡ Π½Π° HF
πŸŸ‘Π’Π΅Ρ…ΠΎΡ‚Ρ‡Π΅Ρ‚
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #TTS #StepAudio
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/github_code/353
Create:
Last Update:

🌟 Step-Audio: ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Ρ€Π΅Ρ‡Π΅Π²ΠΎΠ³ΠΎ взаимодСйствия.

Step-Audio – ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° с ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ исходным ΠΊΠΎΠ΄ΠΎΠΌ, ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‰Π°Ρ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ Ρ€Π΅Ρ‡ΠΈ для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΡΠ·Ρ‹Ρ‡Π½Ρ‹Ρ… Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ² (китайский, английский ΠΈ японский).

Step-Audio способна ΠΏΠ΅Ρ€Π΅Π΄Π°Π²Π°Ρ‚ΡŒ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Ρ‚Π΅Π½ΠΊΠΈ, Ρ€Π΅Π³ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ Π΄ΠΈΠ°Π»Π΅ΠΊΡ‚Ρ‹, Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ стили Ρ€Π΅Ρ‡ΠΈ ΠΈ Π²ΠΎΠΊΠ°Π»Π°.

Основой Step-Audio являСтся 130B ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ модСль, которая ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ Π² сСбС Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ распознавания ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π΅Ρ‡ΠΈ, сСмантичСского понимания, вСдСния Π΄ΠΈΠ°Π»ΠΎΠ³Π°, клонирования голоса ΠΈ синтСза Ρ€Π΅Ρ‡ΠΈ. Π’Π°ΠΆΠ½Ρ‹ΠΌ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ΠΎΠΌ являСтся собствСнный Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰ΠΈΠΉ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ высококачСствСнный Π·Π²ΡƒΠΊ Π±Π΅Π· Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ сбора Π΄Π°Π½Π½Ρ‹Ρ… Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ.

▢️ Бостав Ρ€Π΅Π»ΠΈΠ·Π°:

Step-Audio-Tokenizer - Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ Ρ€Π΅Ρ‡ΠΈ. Для лингвистичСской Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΊΠΎΠ΄Π΅Ρ€ Paraformer, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ квантуСтся Π² дискрСтныС прСдставлСния с частотой 16,7 Π“Ρ†. Для сСмантичСской Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ - Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ CosyVoice, ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ для эффСктивного кодирования характСристик, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Ρ… для создания СстСствСнных ΠΈ Π²Ρ‹Ρ€Π°Π·ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Ρ€Π΅Ρ‡Π΅Π²Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ², Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‰ΠΈΠΉ Π½Π° частотС 25 Π“Ρ†.

Step-Audio-Chat - ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ LLM с 130 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², которая ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ чСловСчСской Ρ€Π΅Ρ‡ΠΈ.

Step-Audio-TTS-3B - TTS-модСль, обучСнная Π½Π° ΠΊΡ€ΡƒΠΏΠ½ΠΎΠΌ синтСтичСском Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… с использованиСм ΠΏΠ°Ρ€Π°Π΄ΠΈΠ³ΠΌΡ‹ LLM-Chat. МодСль ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ нСсколько языков, мноТСство ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ элСмСнты управлСния стилСм голоса. Step-Audio-TTS-3B являСтся ΠΏΠ΅Ρ€Π²ΠΎΠΉ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΉ TTS-модСлью, способной Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ пСвчСский Π²ΠΎΠΊΠ°Π».

StepEval-Audio-360 - датасСт, собранный ΠΏΡ€ΠΈ участии ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π°Π½Π½ΠΎΡ‚Π°Ρ‚ΠΎΡ€ΠΎΠ² ΠΈ содСрТит вСсь спСктр возмоТностСй: ΠΏΠ΅Π½ΠΈΠ΅, творчСство, Ρ€ΠΎΠ»Π΅Π²Ρ‹Π΅ ΠΈΠ³Ρ€Ρ‹, логичСскиС рассуТдСния, ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ голоса, слСдованиС голосовым инструкциям, ΠΈΠ³Ρ€Ρ‹, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ Ρ€Π΅Ρ‡Π΅Π²Ρ‹ΠΌΠΈ эмоциями ΠΈ языковыС способности Π½Π° китайском, английском ΠΈ японском языках.

⚠️ Для локального использования понадобится (41.6Π“Ρ†): Step-Audio-Tokenizer - 1.5 GB VRAM, Step-Audio-Chat - 256 GB VRAM, Step-Audio-TTS-3B - 8GB VRAM.

⚠️ НаиболСС качСствСнный инфСрСнс, ΠΏΠΎ словам Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠ², достигаСтся Π½Π° 4xA800/H800 GPU с 80GB ΠΈΠ»ΠΈ большС.


β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ инфСрСнс Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ TTS:

# Clone the repository
git clone https://github.com/stepfun-ai/Step-Audio.git

# Create a Conda venv
conda create -n stepaudio python=3.10
conda activate stepaudio

# Install dependencies
cd Step-Audio
pip install -r requirements.txt

git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

# TTS inference
python tts_inference.py --model-path --output-path --synthesis-type use_tts_or_clone


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘ΠšΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡ Π½Π° HF
πŸŸ‘Π’Π΅Ρ…ΠΎΡ‚Ρ‡Π΅Ρ‚
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #TTS #StepAudio

BY Github






Share with your friend now:
tgoop.com/github_code/353

View MORE
Open in Telegram


Telegram News

Date: |

When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. ZDNET RECOMMENDS Activate up to 20 bots Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the β€œYo” app was launched with the sole purpose of enabling users to send each other the greeting β€œYo.” How to create a business channel on Telegram? (Tutorial)
from us


Telegram Github
FROM American