tgoop.com/github_code/353
Last Update:
Step-Audio β ΠΏΠ»Π°ΡΡΠΎΡΠΌΠ° Ρ ΠΎΡΠΊΡΡΡΡΠΌ ΠΈΡΡ
ΠΎΠ΄Π½ΡΠΌ ΠΊΠΎΠ΄ΠΎΠΌ, ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΡΡΡΠ°Ρ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΡ ΡΠ΅ΡΠΈ Π΄Π»Ρ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠΈ ΠΌΡΠ»ΡΡΠΈΡΠ·ΡΡΠ½ΡΡ
Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ² (ΠΊΠΈΡΠ°ΠΉΡΠΊΠΈΠΉ, Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΈΠΉ ΠΈ ΡΠΏΠΎΠ½ΡΠΊΠΈΠΉ).
Step-Audio ΡΠΏΠΎΡΠΎΠ±Π½Π° ΠΏΠ΅ΡΠ΅Π΄Π°Π²Π°ΡΡ ΡΠΌΠΎΡΠΈΠΎΠ½Π°Π»ΡΠ½ΡΠ΅ ΠΎΡΡΠ΅Π½ΠΊΠΈ, ΡΠ΅Π³ΠΈΠΎΠ½Π°Π»ΡΠ½ΡΠ΅ Π΄ΠΈΠ°Π»Π΅ΠΊΡΡ, ΡΠ°Π·Π»ΠΈΡΠ½ΡΠ΅ ΡΡΠΈΠ»ΠΈ ΡΠ΅ΡΠΈ ΠΈ Π²ΠΎΠΊΠ°Π»Π°.
ΠΡΠ½ΠΎΠ²ΠΎΠΉ Step-Audio ΡΠ²Π»ΡΠ΅ΡΡΡ 130B ΠΌΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ, ΠΊΠΎΡΠΎΡΠ°Ρ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ Π² ΡΠ΅Π±Π΅ ΡΡΠ½ΠΊΡΠΈΠΈ ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΡ ΠΈ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΡΠ΅ΡΠΈ, ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠΎΠ³ΠΎ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΡ, Π²Π΅Π΄Π΅Π½ΠΈΡ Π΄ΠΈΠ°Π»ΠΎΠ³Π°, ΠΊΠ»ΠΎΠ½ΠΈΡΠΎΠ²Π°Π½ΠΈΡ Π³ΠΎΠ»ΠΎΡΠ° ΠΈ ΡΠΈΠ½ΡΠ΅Π·Π° ΡΠ΅ΡΠΈ. ΠΠ°ΠΆΠ½ΡΠΌ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½ΡΠΎΠΌ ΡΠ²Π»ΡΠ΅ΡΡΡ ΡΠΎΠ±ΡΡΠ²Π΅Π½Π½ΡΠΉ ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΎΡ, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡΡΠΈΠΉ ΡΠΎΠ·Π΄Π°Π²Π°ΡΡ Π²ΡΡΠΎΠΊΠΎΠΊΠ°ΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΠΉ Π·Π²ΡΠΊ Π±Π΅Π· ΡΡΠ°Π΄ΠΈΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠ±ΠΎΡΠ° Π΄Π°Π½Π½ΡΡ
Π²ΡΡΡΠ½ΡΡ.
Step-Audio-Tokenizer - ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΎΡ ΡΠ΅ΡΠΈ. ΠΠ»Ρ Π»ΠΈΠ½Π³Π²ΠΈΡΡΠΈΡΠ΅ΡΠΊΠΎΠΉ ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΈΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ ΠΊΠΎΠ΄Π΅Ρ Paraformer, ΠΊΠΎΡΠΎΡΡΠΉ ΠΊΠ²Π°Π½ΡΡΠ΅ΡΡΡ Π² Π΄ΠΈΡΠΊΡΠ΅ΡΠ½ΡΠ΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΡ Ρ ΡΠ°ΡΡΠΎΡΠΎΠΉ 16,7 ΠΡ. ΠΠ»Ρ ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠΎΠΉ ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΈΠΈ - ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΎΡ CosyVoice, ΡΠΏΠ΅ΡΠΈΠ°Π»ΡΠ½ΠΎ ΡΠ°Π·ΡΠ°Π±ΠΎΡΠ°Π½Π½ΡΠΉ Π΄Π»Ρ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΠ³ΠΎ ΠΊΠΎΠ΄ΠΈΡΠΎΠ²Π°Π½ΠΈΡ Ρ
Π°ΡΠ°ΠΊΡΠ΅ΡΠΈΡΡΠΈΠΊ, Π½Π΅ΠΎΠ±Ρ
ΠΎΠ΄ΠΈΠΌΡΡ
Π΄Π»Ρ ΡΠΎΠ·Π΄Π°Π½ΠΈΡ Π΅ΡΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΡ
ΠΈ Π²ΡΡΠ°Π·ΠΈΡΠ΅Π»ΡΠ½ΡΡ
ΡΠ΅ΡΠ΅Π²ΡΡ
ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠ², ΡΠ°Π±ΠΎΡΠ°ΡΡΠΈΠΉ Π½Π° ΡΠ°ΡΡΠΎΡΠ΅ 25 ΠΡ.
Step-Audio-Chat - ΠΌΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½Π°Ρ LLM Ρ 130 ΠΌΠ»ΡΠ΄. ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ², ΠΊΠΎΡΠΎΡΠ°Ρ ΠΎΡΠ²Π΅ΡΠ°Π΅Ρ Π·Π° ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΡ ΡΠ΅Π»ΠΎΠ²Π΅ΡΠ΅ΡΠΊΠΎΠΉ ΡΠ΅ΡΠΈ.
Step-Audio-TTS-3B - TTS-ΠΌΠΎΠ΄Π΅Π»Ρ, ΠΎΠ±ΡΡΠ΅Π½Π½Π°Ρ Π½Π° ΠΊΡΡΠΏΠ½ΠΎΠΌ ΡΠΈΠ½ΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΎΠΌ Π½Π°Π±ΠΎΡΠ΅ Π΄Π°Π½Π½ΡΡ
Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ ΠΏΠ°ΡΠ°Π΄ΠΈΠ³ΠΌΡ LLM-Chat. ΠΠΎΠ΄Π΅Π»Ρ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°Π΅Ρ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΠ·ΡΠΊΠΎΠ², ΠΌΠ½ΠΎΠΆΠ΅ΡΡΠ²ΠΎ ΡΠΌΠΎΡΠΈΠΎΠ½Π°Π»ΡΠ½ΡΡ
Π²ΡΡΠ°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ ΡΠ°Π·Π»ΠΈΡΠ½ΡΠ΅ ΡΠ»Π΅ΠΌΠ΅Π½ΡΡ ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΡ ΡΡΠΈΠ»Π΅ΠΌ Π³ΠΎΠ»ΠΎΡΠ°. Step-Audio-TTS-3B ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΏΠ΅ΡΠ²ΠΎΠΉ ΠΎΡΠΊΡΡΡΠΎΠΉ TTS-ΠΌΠΎΠ΄Π΅Π»ΡΡ, ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΠΉ Π³Π΅Π½Π΅ΡΠΈΡΠΎΠ²Π°ΡΡ ΠΏΠ΅Π²ΡΠ΅ΡΠΊΠΈΠΉ Π²ΠΎΠΊΠ°Π».
StepEval-Audio-360 - Π΄Π°ΡΠ°ΡΠ΅Ρ, ΡΠΎΠ±ΡΠ°Π½Π½ΡΠΉ ΠΏΡΠΈ ΡΡΠ°ΡΡΠΈΠΈ ΠΏΡΠΎΡΠ΅ΡΡΠΈΠΎΠ½Π°Π»ΡΠ½ΡΡ
Π°Π½Π½ΠΎΡΠ°ΡΠΎΡΠΎΠ² ΠΈ ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ Π²Π΅ΡΡ ΡΠΏΠ΅ΠΊΡΡ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠ΅ΠΉ: ΠΏΠ΅Π½ΠΈΠ΅, ΡΠ²ΠΎΡΡΠ΅ΡΡΠ²ΠΎ, ΡΠΎΠ»Π΅Π²ΡΠ΅ ΠΈΠ³ΡΡ, Π»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΠ΅ ΡΠ°ΡΡΡΠΆΠ΄Π΅Π½ΠΈΡ, ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π³ΠΎΠ»ΠΎΡΠ°, ΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΠ΅ Π³ΠΎΠ»ΠΎΡΠΎΠ²ΡΠΌ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΡΠΌ, ΠΈΠ³ΡΡ, ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΠ΅ ΡΠ΅ΡΠ΅Π²ΡΠΌΠΈ ΡΠΌΠΎΡΠΈΡΠΌΠΈ ΠΈ ΡΠ·ΡΠΊΠΎΠ²ΡΠ΅ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΠΈ Π½Π° ΠΊΠΈΡΠ°ΠΉΡΠΊΠΎΠΌ, Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΎΠΌ ΠΈ ΡΠΏΠΎΠ½ΡΠΊΠΎΠΌ ΡΠ·ΡΠΊΠ°Ρ
.
β οΈ ΠΠ»Ρ Π»ΠΎΠΊΠ°Π»ΡΠ½ΠΎΠ³ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ ΠΏΠΎΠ½Π°Π΄ΠΎΠ±ΠΈΡΡΡ (41.6ΠΡ): Step-Audio-Tokenizer - 1.5 GB VRAM, Step-Audio-Chat - 256 GB VRAM, Step-Audio-TTS-3B - 8GB VRAM.
β οΈ ΠΠ°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΠΉ ΠΈΠ½ΡΠ΅ΡΠ΅Π½Ρ, ΠΏΠΎ ΡΠ»ΠΎΠ²Π°ΠΌ ΡΠ°Π·ΡΠ°Π±ΠΎΡΡΠΈΠΊΠΎΠ², Π΄ΠΎΡΡΠΈΠ³Π°Π΅ΡΡΡ Π½Π° 4xA800/H800 GPU Ρ 80GB ΠΈΠ»ΠΈ Π±ΠΎΠ»ΡΡΠ΅.
# Clone the repository
git clone https://github.com/stepfun-ai/Step-Audio.git
# Create a Conda venv
conda create -n stepaudio python=3.10
conda activate stepaudio
# Install dependencies
cd Step-Audio
pip install -r requirements.txt
git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B
# TTS inference
python tts_inference.py --model-path --output-path --synthesis-type use_tts_or_clone
@ai_machinelearning_big_data
#AI #ML #ASR #TTS #StepAudio