NN_FOR_SCIENCE Telegram 2519
Визуальный разбор GPT-OSS 🧠⚙️

OpenAI выложила gpt-oss-20B и gpt-oss-120B - это MoE-модели с 128k контекстом и «ручкой» reasoning: low/medium/high. Плюс новый формат harmony для сообщений и тулколлов.

Зачем нам это сейчас 🔥

Впервые со времён GPT-2 у OpenAI появились LLM с открытыми весами: можно скачать веса, крутить локально, настраивать под свои пайплайны и политику данных.

Как все устроено простыми словами 🛠️
Архитектура: трансформер с Mixture-of-Experts. В 120B128 экспертов, в 20B32, при этом на токен активны 4 (экономия времени/памяти без просадки качества на типичных задачах). Контекст — до ~128k токенов.
Размер и железо: чекпоинты ≈ 60.8 GiB (120B) и 12.8 GiB (20B). Благодаря квантованию MXFP4 MoE-веса ужимаются так, что 120B помещается в 80 ГБ GPU, а 20B можно запускать от ~16 ГБ памяти.
Формат harmony: «каналы» ответа — analysis (мышление/часть тулколлов), commentary (тулколлы), final (итог). Он нужен, чтобы модель корректно «думала» и вызывала инструменты.
Reasoning modes: low/medium/high задаются в системном промпте и напрямую меняют бюджет размышлений: выше точность → дольше отвечает -> выше стоимость.
Токенизатор: o200k_harmony—чуть аккуратнее с не-английскими символами/эмодзи, но датасет в основном англоязычный—держим это в голове для RU-кейсов.

Мини-пример: как «крутить ручку» рассуждений 🎚️

```
<|start|>system<|message|>
You are a helpful AI.
Reasoning: medium
Tools: web_search, python
<|end|>
```


Так вы буквально указываете модели «думать средне». Для A/B можно сравнить low/medium/high по задержке и качеству на своей задаче..

Почему это важно в большом контексте 🌍
Локальные агенты и приватность: 20B реально тянется на доступном железе; можно строить оффлайн-ассистентов с чувствительными данными.
Стандартизация интерфейса: harmony снимает боль разношёрстных промпт-форматов и упрощает перенос между рантаймами (vLLM/Ollama/и т.д.).
Осознанный трейд-офф: режимы рассуждений позволяют тонко балансировать «скорость точность» и деньги. Пример с AIME в разборе у Джея: medium даёт правильный ответ, а high просто тратит больше токенов.

Как попробовать за час ⏱️
1. Запуск: возьмите 20B на локальной машине (≥16 ГБ RAM/VRAM) или арендуйте 80 ГБ GPU для 120B (или используйте провайдера с vLLM/Ollama).
2. Форматирование: подайте промпты в harmony (готовые рендереры — Python/Rust).
3. Эксперимент: замерьте на своей задаче low vs medium vs high (качество/латентность/стоимость) и выберите пресет под прод.

Пара важных оговорок 🧯
CoT-трейсы (цепочки рассуждений) не показывайте пользователям без фильтрации/суммаризации — в модельной карте это отмечено отдельно.
• Мультиязычность неплохая, но датасет в основном EN—для чувствительных RU-кейсов планируйте адаптацию/дообучение.

Итого: GPT-OSS — это не «магический скачок», а грамотная инженерия плюс удобные стандарты. В сумме — ниже порог входа, выше контролируемость и понятный путь к локальным агентам.

Если было полезно — поделитесь с коллегами.

Лучше всего почитать блог пост в оригинале:

Джей Аламмар — визуальный разбор (очень наглядно) и про каналы/режимы рассуждений.
👍238🔥6



tgoop.com/nn_for_science/2519
Create:
Last Update:

Визуальный разбор GPT-OSS 🧠⚙️

OpenAI выложила gpt-oss-20B и gpt-oss-120B - это MoE-модели с 128k контекстом и «ручкой» reasoning: low/medium/high. Плюс новый формат harmony для сообщений и тулколлов.

Зачем нам это сейчас 🔥

Впервые со времён GPT-2 у OpenAI появились LLM с открытыми весами: можно скачать веса, крутить локально, настраивать под свои пайплайны и политику данных.

Как все устроено простыми словами 🛠️
Архитектура: трансформер с Mixture-of-Experts. В 120B128 экспертов, в 20B32, при этом на токен активны 4 (экономия времени/памяти без просадки качества на типичных задачах). Контекст — до ~128k токенов.
Размер и железо: чекпоинты ≈ 60.8 GiB (120B) и 12.8 GiB (20B). Благодаря квантованию MXFP4 MoE-веса ужимаются так, что 120B помещается в 80 ГБ GPU, а 20B можно запускать от ~16 ГБ памяти.
Формат harmony: «каналы» ответа — analysis (мышление/часть тулколлов), commentary (тулколлы), final (итог). Он нужен, чтобы модель корректно «думала» и вызывала инструменты.
Reasoning modes: low/medium/high задаются в системном промпте и напрямую меняют бюджет размышлений: выше точность → дольше отвечает -> выше стоимость.
Токенизатор: o200k_harmony—чуть аккуратнее с не-английскими символами/эмодзи, но датасет в основном англоязычный—держим это в голове для RU-кейсов.

Мини-пример: как «крутить ручку» рассуждений 🎚️

```
<|start|>system<|message|>
You are a helpful AI.
Reasoning: medium
Tools: web_search, python
<|end|>
```


Так вы буквально указываете модели «думать средне». Для A/B можно сравнить low/medium/high по задержке и качеству на своей задаче..

Почему это важно в большом контексте 🌍
Локальные агенты и приватность: 20B реально тянется на доступном железе; можно строить оффлайн-ассистентов с чувствительными данными.
Стандартизация интерфейса: harmony снимает боль разношёрстных промпт-форматов и упрощает перенос между рантаймами (vLLM/Ollama/и т.д.).
Осознанный трейд-офф: режимы рассуждений позволяют тонко балансировать «скорость точность» и деньги. Пример с AIME в разборе у Джея: medium даёт правильный ответ, а high просто тратит больше токенов.

Как попробовать за час ⏱️
1. Запуск: возьмите 20B на локальной машине (≥16 ГБ RAM/VRAM) или арендуйте 80 ГБ GPU для 120B (или используйте провайдера с vLLM/Ollama).
2. Форматирование: подайте промпты в harmony (готовые рендереры — Python/Rust).
3. Эксперимент: замерьте на своей задаче low vs medium vs high (качество/латентность/стоимость) и выберите пресет под прод.

Пара важных оговорок 🧯
CoT-трейсы (цепочки рассуждений) не показывайте пользователям без фильтрации/суммаризации — в модельной карте это отмечено отдельно.
• Мультиязычность неплохая, но датасет в основном EN—для чувствительных RU-кейсов планируйте адаптацию/дообучение.

Итого: GPT-OSS — это не «магический скачок», а грамотная инженерия плюс удобные стандарты. В сумме — ниже порог входа, выше контролируемость и понятный путь к локальным агентам.

Если было полезно — поделитесь с коллегами.

Лучше всего почитать блог пост в оригинале:

Джей Аламмар — визуальный разбор (очень наглядно) и про каналы/режимы рассуждений.

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2519

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. To edit your name or bio, click the Menu icon and select “Manage Channel.” Invite up to 200 users from your contacts to join your channel Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN.
from us


Telegram AI для Всех
FROM American