Neural Kovalskii@neuraldeep P.1561

Neural Kovalskii

gpt-oss запуск на 4090/3090 TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100 Временно используйте llama.cpp…

gpt-oss-120b запуск на 4090/3090 часть 2

И так по подсказке подписчика @dvv101111 я переехал на llama.cpp он так же проверил что на его х4 4090(24gb) все запустится и не будет проблем

Брал я эти веса

Далее тесты и что мы имеем

На простые запросы не более 1к токенов 101-122 t/s

| Фаза   | Токен | Скорость  |
| Prompt | ~11к  | ~1.6к t/s |
| Gen    | ~1к   | ~89.2 t/s |

Заняло все это чудо в 120b 73GB на 32768 токенов контекста

Так же прикладываю внутренний тест rag_qa 558 вопросов по внутренней корп базе знаний red_mad_robot (что успел прогнать сегодня за вечер)

Вопросы включают в себя работу с контекстом от 3-16к токенов

Промпты заточены под 7b модельку (извлечение данных + следование инструкции)

Валидация по методу llm as judge gpt-4o

Учитывая, что Qwen модели тюнились под русский язык и были специально заточены под наш RAG, считаю что gpt-oss-120b на конфигурации 2x4090 (48GB) может стать лучшей заменой, как только её оптимизируют под vLLM и затюнят под ру
120 t/s - это не шутки

🔥36❤15👍11

www.tgoop.com/neuraldeep/1561

6.21K viewsedited Aug 6 at 22:39

tgoop.com/neuraldeep/1561

Create: 2025-08-06
Last Update: 2025-10-18 08:32:08

| Фаза   | Токен | Скорость  |
| Prompt | ~11к  | ~1.6к t/s |
| Gen    | ~1к   | ~89.2 t/s |

BY Neural Kovalskii

Share with your friend now:
tgoop.com/neuraldeep/1561

Telegram News

gpt-oss-120b запуск на 4090/3090 часть 2