Мнение
DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят. Остальные могут повторять и ресечить мощно.
Кроме них есть Qwen, Mistral которые очень большие молодцы, много выкладывают. Mistral Nemo вон какой крутой, квены постоянно тюнят и делают локальные модельки.
OpenAI - локомотив. У них суперребятки (хотя чот в последнее время куча народу ушло, да? Зачем?), у них много ресурсов, старгейт вон. Кажется, что они смогут в любом случае. Часто цены снижают, модельки обновляют на более новые, RL двигают (это кстати они в очередной раз сделали RL великим). Но вот в РФ допустим они просто так не работают...
Мне лично гораздо ценнее иметь крутую локальную модельку, чем где-то там в облаке.
Кажется, что для всех лучше если они будут там друг друга поджимать, выкладывать модельки и цены снижать. Поэтому просто кайфуем.
Я кстати за DeepMind😃 (Что у них там вообще происходит?)
Где можно просто початиться:
Дипсик - https://www.deepseek.com/ (но щас им плохо, толком не работает, надеюсь полегчает)
Квен - https://chat.qwenlm.ai/
Mistral - https://chat.mistral.ai/
DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят. Остальные могут повторять и ресечить мощно.
Кроме них есть Qwen, Mistral которые очень большие молодцы, много выкладывают. Mistral Nemo вон какой крутой, квены постоянно тюнят и делают локальные модельки.
OpenAI - локомотив. У них суперребятки (хотя чот в последнее время куча народу ушло, да? Зачем?), у них много ресурсов, старгейт вон. Кажется, что они смогут в любом случае. Часто цены снижают, модельки обновляют на более новые, RL двигают (это кстати они в очередной раз сделали RL великим). Но вот в РФ допустим они просто так не работают...
Мне лично гораздо ценнее иметь крутую локальную модельку, чем где-то там в облаке.
Кажется, что для всех лучше если они будут там друг друга поджимать, выкладывать модельки и цены снижать. Поэтому просто кайфуем.
Я кстати за DeepMind
Где можно просто початиться:
Дипсик - https://www.deepseek.com/ (но щас им плохо, толком не работает, надеюсь полегчает)
Квен - https://chat.qwenlm.ai/
Mistral - https://chat.mistral.ai/
Please open Telegram to view this post
VIEW IN TELEGRAM
Deepseek
DeepSeek | 深度求索
深度求索(DeepSeek),成立于2023年,专注于研究世界领先的通用人工智能底层模型与技术,挑战人工智能前沿性难题。基于自研训练框架、自建智算集群和万卡算力等资源,深度求索团队仅用半年时间便已发布并开源多个百亿级参数大模型,如DeepSeek-LLM通用大语言模型、DeepSeek-Coder代码大模型,并在2024年1月率先开源国内首个MoE大模型(DeepSeek-MoE),各大模型在公开评测榜单及真实样本外的泛化效果均有超越同级别模型的出色表现。和 DeepSeek AI 对话,轻松接入 API。
👍12💯4❤2👏2
Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl
https://github.com/huggingface/trl/blob/main/docs/source/grpo_trainer.md
Вообще оригинальная статья с этим алгоритмом выходила 5 февраля 2024, но заимплементили ток щас (почему??):
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
https://arxiv.org/abs/2402.03300v3
https://github.com/huggingface/trl/blob/main/docs/source/grpo_trainer.md
Вообще оригинальная статья с этим алгоритмом выходила 5 февраля 2024, но заимплементили ток щас (почему??):
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
https://arxiv.org/abs/2402.03300v3
GitHub
trl/docs/source/grpo_trainer.md at main · huggingface/trl
Train transformer language models with reinforcement learning. - huggingface/trl
👍8🔥5❤1
Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱 😱 😱
Вот так вот верь им теперь. Думал RL придумали свой и вон какие крутые
https://api-docs.deepseek.com/
Вот так вот верь им теперь. Думал RL придумали свой и вон какие крутые
https://api-docs.deepseek.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
😁37🤣12👏2
А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на посттрейне ллмов.
Вот бы померить а есть ли там разница с обобщающими способностями и запоминанием после этих тюнов.
Сделали бенч из двух задачек. В каждой задачке был текстовый вариант и визуальный вариант.
The V-IRL Environment (первая картинка):
Тестируют способности к пространственному рассуждению и навигации в открытом мире с использованием реалистичных визуальных данных.
Цель — добраться до целевого местоположения, следуя набору инструкций.
Основная визуальная сложность в V-IRL заключается в распознавании различных ориентиров на основе визуальных наблюдений перед выполнением действия
Тренировались на навигации по Нью-Йорку, а тестились на бенче из навигаций по разным городам.
The GeneralPoints Environment: (Пример на 2м скрине)
Цель — составить уравнение, которое равно заданному числу (по умолчанию 24), используя все 4 числа с карт ровно один раз.
Еще нужно интерпретировать буквы в числа на картах: 'J'->'11', 'Q'->'12' и 'K' ->'13' (либо все они как 10 считаются).
Тут тренировали тоже и текстовые варианты и визуальные, используя черные масти для трена, красные для теста.
3 и 4 скрин результаты. После RLя лучше справляется с задачами которые не видел на трене, после SFT работает хуже на невиданных задачах.
SFT помогает запоминать информацию, а RL помогает генерализоваться (прям как строчкой ниже написано)
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
https://arxiv.org/abs/2501.17161v1
https://tianzhechu.com/SFTvsRL/
кстати для статей по RLю и многому другому есть https://www.tgoop.com/researchim
Вот бы померить а есть ли там разница с обобщающими способностями и запоминанием после этих тюнов.
Сделали бенч из двух задачек. В каждой задачке был текстовый вариант и визуальный вариант.
The V-IRL Environment (первая картинка):
Тестируют способности к пространственному рассуждению и навигации в открытом мире с использованием реалистичных визуальных данных.
Цель — добраться до целевого местоположения, следуя набору инструкций.
Основная визуальная сложность в V-IRL заключается в распознавании различных ориентиров на основе визуальных наблюдений перед выполнением действия
Тренировались на навигации по Нью-Йорку, а тестились на бенче из навигаций по разным городам.
The GeneralPoints Environment: (Пример на 2м скрине)
Цель — составить уравнение, которое равно заданному числу (по умолчанию 24), используя все 4 числа с карт ровно один раз.
Еще нужно интерпретировать буквы в числа на картах: 'J'->'11', 'Q'->'12' и 'K' ->'13' (либо все они как 10 считаются).
Тут тренировали тоже и текстовые варианты и визуальные, используя черные масти для трена, красные для теста.
3 и 4 скрин результаты. После RLя лучше справляется с задачами которые не видел на трене, после SFT работает хуже на невиданных задачах.
SFT помогает запоминать информацию, а RL помогает генерализоваться (прям как строчкой ниже написано)
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
https://arxiv.org/abs/2501.17161v1
https://tianzhechu.com/SFTvsRL/
кстати для статей по RLю и многому другому есть https://www.tgoop.com/researchim
👍9❤3🔥2
Forwarded from Love. Death. Transformers.
Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ
Чем предстоит заниматься:
Дообучение и Оценка Sota llm, аттаки на blackbox модели
Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
Оптимизация инференса (vLLM, SGLang, TRT).
Требования:
Опыт работы с LLM (архитектуры, RL, alignment).
Знание PyTorch/JAX.
Реальная практика с RL методами (DPO, RLHF — плюс).
Опыт с системами инференса (vLLM, kuber, docker).
Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество:
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия:
Зарплата: 80K–130K usd + опционы.
Релокация в Париж🥐, полная занятость.
Работа с передовым стеком (AI research, model alignment).
Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
Стартап в области безопасности ИИ
Чем предстоит заниматься:
Дообучение и Оценка Sota llm, аттаки на blackbox модели
Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
Оптимизация инференса (vLLM, SGLang, TRT).
Требования:
Опыт работы с LLM (архитектуры, RL, alignment).
Знание PyTorch/JAX.
Реальная практика с RL методами (DPO, RLHF — плюс).
Опыт с системами инференса (vLLM, kuber, docker).
Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество:
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия:
Зарплата: 80K–130K usd + опционы.
Релокация в Париж🥐, полная занятость.
Работа с передовым стеком (AI research, model alignment).
Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
👍5🤔3❤1
Агенты ИИ | AGI_and_RL
HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения Хотят нагенерить данных из R1 и дистильнуть в свои модельки, потренить аналог R1-Zero (будет Open R1-Zero), а в конце получить Open R1 https://github…
Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1
https://huggingface.co/blog/open-r1/update-1
https://huggingface.co/blog/open-r1/update-1
huggingface.co
Open-R1: Update #1
A Blog post by Open R1 on Hugging Face
❤5👍2🔥2
Forwarded from Ruadaptная комната
Первая экспериментальная Ruadapt ризонинг модель:
RuadaptQwen2.5-14B-R1-distill-preview-v1
Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в <think> </think> теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях.
Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях.
В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется.
Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF
RuadaptQwen2.5-14B-R1-distill-preview-v1
Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в <think> </think> теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях.
Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях.
В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется.
Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF
🔥10👍4🤔1
Forwarded from black_samorez
Претренить нужно в INT4
Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.
Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.
Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.
Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!
Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.
Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.
Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.
Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!
Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
👍11🥰6❤2🔥2
Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли выбить результы больше чем у O1-Preview.
Ребятам для тюна потребовало 3,800 часов на A100. Взяли они уже претрененую Deepseek-R1-Distilled-Qwen-1.5B модельку. В процессе тюна они увеличивали размер контекстного окна с 8к до 16к, а потом до 24к.
Ревард:
1 — если ответ модели корректный и его удалось нормально спарсить;
0 — если модель ответила неправильно или не соблюдала формат (например, отсутствуют разделители <think> и </think>)
Данные - взяли AIME с 1984 по 2023 годы, задачи AMC до 2023 года, а также вопросы из наборов Omni-MATH и Still. Ответы из AMC и AIME доставали с помощью gemini-1.5-pro-002, удаляли дубликаты и отфильтровали некоторые вопросы ответы на которые пришлось бы оценивать с помощью другой ллмку (а это накладно на трене).
В конце получили 40000 пар задача-ответ (данные выложили, внизу будут по ссылке).
В результате трена 1.5B моделька выдала 43,1% точности Pass@1 на AIME2024 (против 28,8% у базовой модельки), .
Что они еще отмечают:
*Пока тестировали Deepseek-R1-Distilled-Qwen-1.5B (исходную) на AIME2024 то увидели, что неверные ответы в среднем содержат в три раза больше токенов, чем правильные (20 346 против 6 395), и вот мол если сразу начинать RL тюн с длинным контекстом, то оно вот будет длинные и неправильные ответы давать, поэтому может быть полезным увеличивать контекст постепенно.
*Достижение уровня O1-preview получилось лишь с расширением контекста до 24K: после того как расширили до 16к контексти и тренили 500 шагов - ревард вышел на плато в какой-то момент (0.625) и только после расширения контекста до 24к удалось преодолеть 40% AIME (через 50 шагов трена с 24к контекстом) и выйти на 43% в дальнейшем (еще через 200 шагов).
В целом прогресс шел так:
*изначальная моделька выдавала 28.9% на AIME, при инициализации с 8К окном трена упала до 22% затем через тысячу шагов поднялась до 33.9% при этом сильно укоротив среднюю длину ответов (корректные в среднем 6396 -> 3661.2, некорректные 20346.3 -> 6976.8)
*затем 500 шагов с 16к контекстом удалось выбить 38% AIME но средняя длина ответа увеличилась с 3500 токенов до 5500;
*еще 250 шагов с 24к контекстом и тут удалось дойти до 43.1% AIME.
И еще ребята считают что надо и качественный SFT делать и RL потом :)
Так понял.
Кстати, сначала собираю подобные проекты и статьи в ресечим: https://www.tgoop.com/researchim а потом уже тут рассказываю.
Ссылки по проекту:
https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2
https://github.com/agentica-project
Код и Датасет в репе лежит:
https://github.com/agentica-project/deepscaler
Моделька:
https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
Ребятам для тюна потребовало 3,800 часов на A100. Взяли они уже претрененую Deepseek-R1-Distilled-Qwen-1.5B модельку. В процессе тюна они увеличивали размер контекстного окна с 8к до 16к, а потом до 24к.
Ревард:
1 — если ответ модели корректный и его удалось нормально спарсить;
0 — если модель ответила неправильно или не соблюдала формат (например, отсутствуют разделители <think> и </think>)
Данные - взяли AIME с 1984 по 2023 годы, задачи AMC до 2023 года, а также вопросы из наборов Omni-MATH и Still. Ответы из AMC и AIME доставали с помощью gemini-1.5-pro-002, удаляли дубликаты и отфильтровали некоторые вопросы ответы на которые пришлось бы оценивать с помощью другой ллмку (а это накладно на трене).
В конце получили 40000 пар задача-ответ (данные выложили, внизу будут по ссылке).
В результате трена 1.5B моделька выдала 43,1% точности Pass@1 на AIME2024 (против 28,8% у базовой модельки), .
Что они еще отмечают:
*Пока тестировали Deepseek-R1-Distilled-Qwen-1.5B (исходную) на AIME2024 то увидели, что неверные ответы в среднем содержат в три раза больше токенов, чем правильные (20 346 против 6 395), и вот мол если сразу начинать RL тюн с длинным контекстом, то оно вот будет длинные и неправильные ответы давать, поэтому может быть полезным увеличивать контекст постепенно.
*Достижение уровня O1-preview получилось лишь с расширением контекста до 24K: после того как расширили до 16к контексти и тренили 500 шагов - ревард вышел на плато в какой-то момент (0.625) и только после расширения контекста до 24к удалось преодолеть 40% AIME (через 50 шагов трена с 24к контекстом) и выйти на 43% в дальнейшем (еще через 200 шагов).
В целом прогресс шел так:
*изначальная моделька выдавала 28.9% на AIME, при инициализации с 8К окном трена упала до 22% затем через тысячу шагов поднялась до 33.9% при этом сильно укоротив среднюю длину ответов (корректные в среднем 6396 -> 3661.2, некорректные 20346.3 -> 6976.8)
*затем 500 шагов с 16к контекстом удалось выбить 38% AIME но средняя длина ответа увеличилась с 3500 токенов до 5500;
*еще 250 шагов с 24к контекстом и тут удалось дойти до 43.1% AIME.
И еще ребята считают что надо и качественный SFT делать и RL потом :)
Так понял.
Кстати, сначала собираю подобные проекты и статьи в ресечим: https://www.tgoop.com/researchim а потом уже тут рассказываю.
Ссылки по проекту:
https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2
https://github.com/agentica-project
Код и Датасет в репе лежит:
https://github.com/agentica-project/deepscaler
Моделька:
https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
50🔥7👾3❤2
Forwarded from Vikhr models
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .
🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
🔥15🤡3👎1👏1
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.
https://huggingface.co/blog/open-r1/update-2
Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.
почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw
-
PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim
https://huggingface.co/blog/open-r1/update-2
Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.
почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw
-
PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim
huggingface.co
Open R1: Update #2
A Blog post by Open R1 on Hugging Face
🆒9❤2👍1
Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно было бы на мобилках крутить.
Сам на опрос не успел, но по-моему пусть лучше модельку уровня o3-mini выклыдывают в общий. Ну оно и победило, кстати) Жду
Сам на опрос не успел, но по-моему пусть лучше модельку уровня o3-mini выклыдывают в общий. Ну оно и победило, кстати) Жду
4❤18👍1
Forwarded from Vikhr models
Qwen2.5-7B-Instruct-Tool-Planning-v0.1
Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!
🔗модель
🔗датасет
Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!
🔗модель
🔗датасет
🔥13👍1
HuggingFace 🤗 выложили
The Ultra-Scale Playbook:
Training LLMs on GPU Clusters
https://huggingface.co/spaces/nanotron/ultrascale-playbook
- это интерактивный учебник по тому как тренируются ллмковые разных размеров на видеокартах (и на кластерах) и что там внутри происходит.
Под что память выделяется и как рассчитывается,
про виды распределенного обучения (Data Parallelism, Tensor Parallelism, Context Parallelism, Pipeline Parallelism),
как атеншены вычисляются и оптимизируются,
Flash Attention 1-3,
овервью того как GPUшки работают,
как кернелы оптимизировать
и много всякого полезного
Раньше многие вещи пришлось бы собирать самому по всему интернету, а теперь все здесь с примерами кода из своего учебного фреймворка для распределенного обучения ллмов https://github.com/huggingface/picotron. Ну и много полезных ссылочек.
Ну прям молодцы ребятки. Изучаем 🤗 (и picotron тоже)
—
PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim
The Ultra-Scale Playbook:
Training LLMs on GPU Clusters
https://huggingface.co/spaces/nanotron/ultrascale-playbook
- это интерактивный учебник по тому как тренируются ллмковые разных размеров на видеокартах (и на кластерах) и что там внутри происходит.
Под что память выделяется и как рассчитывается,
про виды распределенного обучения (Data Parallelism, Tensor Parallelism, Context Parallelism, Pipeline Parallelism),
как атеншены вычисляются и оптимизируются,
Flash Attention 1-3,
овервью того как GPUшки работают,
как кернелы оптимизировать
и много всякого полезного
Раньше многие вещи пришлось бы собирать самому по всему интернету, а теперь все здесь с примерами кода из своего учебного фреймворка для распределенного обучения ллмов https://github.com/huggingface/picotron. Ну и много полезных ссылочек.
Ну прям молодцы ребятки. Изучаем 🤗 (и picotron тоже)
—
PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim
huggingface.co
The Ultra-Scale Playbook - a Hugging Face Space by nanotron
This blog post explains how to efficiently train large language models (LLMs) using GPU clusters, providing insights and guidance on optimizing performance and resource utilization.
❤17🔥11👍6
Там это... Ребята из Саканы выложили своего оптимизатора торч кода для видеокарт.
The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and Composition
https://sakana.ai/ai-cuda-engineer/
Это фреймворк с ллмкой и эволюционкой который транслирует торч в оптимизированные куда кернелы.
Ну и написали, что иногда код на выходе получается 10x-100x быстрее.
Выложили статью с примерами кернелов.
Ребятки в интернете додумались прогнать кернелы через o3-mini и спросить, есть ли там проблемы.
o3-mini проблемы нашла. Суть была в том, что AI CUDA Engineer также генерит и тестовый код для запуска алгоритма который получился. И в конкретном примере с обсчетом матрицы запускался обсчет всего одной строки в матрице.
Внесли фиксы в код запуска и запустили кернел он оказался ~3 раза медленнее (вместо большого ускорения).
Такие дела. Надеюсь что ребята в Сакане все перепроверят ну и мб апдейт какой выложат)
Вот тут разборки с фиксами:
https://x.com/giffmana/status/1892510741242036468
PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim
The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and Composition
https://sakana.ai/ai-cuda-engineer/
Это фреймворк с ллмкой и эволюционкой который транслирует торч в оптимизированные куда кернелы.
Ну и написали, что иногда код на выходе получается 10x-100x быстрее.
Выложили статью с примерами кернелов.
Ребятки в интернете додумались прогнать кернелы через o3-mini и спросить, есть ли там проблемы.
o3-mini проблемы нашла. Суть была в том, что AI CUDA Engineer также генерит и тестовый код для запуска алгоритма который получился. И в конкретном примере с обсчетом матрицы запускался обсчет всего одной строки в матрице.
Внесли фиксы в код запуска и запустили кернел он оказался ~3 раза медленнее (вместо большого ускорения).
Такие дела. Надеюсь что ребята в Сакане все перепроверят ну и мб апдейт какой выложат)
Вот тут разборки с фиксами:
https://x.com/giffmana/status/1892510741242036468
PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim
sakana.ai
Sakana AI
The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and Composition
😁14🤨7🔥4❤2👍2