Агенты ИИ | AGI_and_RL 967

Агенты ИИ | AGI_and_RL

Мнение

DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят. Остальные могут повторять и ресечить мощно.
Кроме них есть Qwen, Mistral которые очень большие молодцы, много выкладывают. Mistral Nemo вон какой крутой, квены постоянно тюнят и делают локальные модельки.

OpenAI - локомотив. У них суперребятки (хотя чот в последнее время куча народу ушло, да? Зачем?), у них много ресурсов, старгейт вон. Кажется, что они смогут в любом случае. Часто цены снижают, модельки обновляют на более новые, RL двигают (это кстати они в очередной раз сделали RL великим). Но вот в РФ допустим они просто так не работают...

Мне лично гораздо ценнее иметь крутую локальную модельку, чем где-то там в облаке.

Кажется, что для всех лучше если они будут там друг друга поджимать, выкладывать модельки и цены снижать. Поэтому просто кайфуем.

Я кстати за DeepMind 😃 (Что у них там вообще происходит?)

Где можно просто початиться:

Дипсик - https://www.deepseek.com/ (но щас им плохо, толком не работает, надеюсь полегчает)
Квен - https://chat.qwenlm.ai/
Mistral - https://chat.mistral.ai/

Please open Telegram to view this post

VIEW IN TELEGRAM

Deepseek

DeepSeek | 深度求索

深度求索（DeepSeek），成立于2023年，专注于研究世界领先的通用人工智能底层模型与技术，挑战人工智能前沿性难题。基于自研训练框架、自建智算集群和万卡算力等资源，深度求索团队仅用半年时间便已发布并开源多个百亿级参数大模型，如DeepSeek-LLM通用大语言模型、DeepSeek-Coder代码大模型，并在2024年1月率先开源国内首个MoE大模型（DeepSeek-MoE），各大模型在公开评测榜单及真实样本外的泛化效果均有超越同级别模型的出色表现。和 DeepSeek AI 对话，轻松接入 API。

👍12💯4❤2👏2

1.88K viewsedited 15:20

Агенты ИИ | AGI_and_RL

Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl

https://github.com/huggingface/trl/blob/main/docs/source/grpo_trainer.md

Вообще оригинальная статья с этим алгоритмом выходила 5 февраля 2024, но заимплементили ток щас (почему??):

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
https://arxiv.org/abs/2402.03300v3

GitHub

trl/docs/source/grpo_trainer.md at main · huggingface/trl

Train transformer language models with reinforcement learning. - huggingface/trl

👍8🔥5❤1

2.27K viewsedited 15:57

Агенты ИИ | AGI_and_RL

Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱

😱

Вот так вот верь им теперь. Думал RL придумали свой и вон какие крутые

https://api-docs.deepseek.com/

Please open Telegram to view this post

VIEW IN TELEGRAM

😁37🤣12👏2

2.07K viewsedited 14:46

Агенты ИИ | AGI_and_RL

А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на посттрейне ллмов.
Вот бы померить а есть ли там разница с обобщающими способностями и запоминанием после этих тюнов.

Сделали бенч из двух задачек. В каждой задачке был текстовый вариант и визуальный вариант.

The V-IRL Environment (первая картинка):
Тестируют способности к пространственному рассуждению и навигации в открытом мире с использованием реалистичных визуальных данных.
Цель — добраться до целевого местоположения, следуя набору инструкций.
Основная визуальная сложность в V-IRL заключается в распознавании различных ориентиров на основе визуальных наблюдений перед выполнением действия
Тренировались на навигации по Нью-Йорку, а тестились на бенче из навигаций по разным городам.

The GeneralPoints Environment: (Пример на 2м скрине)
Цель — составить уравнение, которое равно заданному числу (по умолчанию 24), используя все 4 числа с карт ровно один раз.
Еще нужно интерпретировать буквы в числа на картах: 'J'->'11', 'Q'->'12' и 'K' ->'13' (либо все они как 10 считаются).
Тут тренировали тоже и текстовые варианты и визуальные, используя черные масти для трена, красные для теста.

3 и 4 скрин результаты. После RLя лучше справляется с задачами которые не видел на трене, после SFT работает хуже на невиданных задачах.

SFT помогает запоминать информацию, а RL помогает генерализоваться (прям как строчкой ниже написано)

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
https://arxiv.org/abs/2501.17161v1

https://tianzhechu.com/SFTvsRL/

кстати для статей по RLю и многому другому есть https://www.tgoop.com/researchim

👍9❤3🔥2

3.58K views16:38

Агенты ИИ | AGI_and_RL

Forwarded from Love. Death. Transformers.

Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ

Чем предстоит заниматься:

Дообучение и Оценка Sota llm, аттаки на blackbox модели

Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).

Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).

Оптимизация инференса (vLLM, SGLang, TRT).

Требования:

Опыт работы с LLM (архитектуры, RL, alignment).

Знание PyTorch/JAX.

Реальная практика с RL методами (DPO, RLHF — плюс).

Опыт с системами инференса (vLLM, kuber, docker).

Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.

Преимущество:

Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.

Условия:

Зарплата: 80K–130K usd + опционы.

Релокация в Париж🥐, полная занятость.

Работа с передовым стеком (AI research, model alignment).

Отклик:
https://forms.gle/z45WwdBTRHrd8inM9

👍5🤔3❤1

1.86K views11:39

Агенты ИИ | AGI_and_RL

HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения Хотят нагенерить данных из R1 и дистильнуть в свои модельки, потренить аналог R1-Zero (будет Open R1-Zero), а в конце получить Open R1 https://github…

Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1

https://huggingface.co/blog/open-r1/update-1

huggingface.co

Open-R1: Update #1

A Blog post by Open R1 on Hugging Face

❤5👍2🔥2

7.45K views12:04

Агенты ИИ | AGI_and_RL

Forwarded from Ruadaptная комната

Первая экспериментальная Ruadapt ризонинг модель:
RuadaptQwen2.5-14B-R1-distill-preview-v1

Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в <think> </think> теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях.

Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях.

В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется.

Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5

Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF

🔥10👍4🤔1

2.23K views04:12

Агенты ИИ | AGI_and_RL

Forwarded from black_samorez

Претренить нужно в INT4

Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.

Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.

Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.

Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!

Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.

👍11🥰6❤2🔥2

1.5K views11:09

Агенты ИИ | AGI_and_RL

Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли выбить результы больше чем у O1-Preview.
Ребятам для тюна потребовало 3,800 часов на A100. Взяли они уже претрененую Deepseek-R1-Distilled-Qwen-1.5B модельку. В процессе тюна они увеличивали размер контекстного окна с 8к до 16к, а потом до 24к.

Ревард:

1 — если ответ модели корректный и его удалось нормально спарсить;
0 — если модель ответила неправильно или не соблюдала формат (например, отсутствуют разделители <think> и </think>)

Данные - взяли AIME с 1984 по 2023 годы, задачи AMC до 2023 года, а также вопросы из наборов Omni-MATH и Still. Ответы из AMC и AIME доставали с помощью gemini-1.5-pro-002, удаляли дубликаты и отфильтровали некоторые вопросы ответы на которые пришлось бы оценивать с помощью другой ллмку (а это накладно на трене).

В конце получили 40000 пар задача-ответ (данные выложили, внизу будут по ссылке).

В результате трена 1.5B моделька выдала 43,1% точности Pass@1 на AIME2024 (против 28,8% у базовой модельки), .

Что они еще отмечают:

*Пока тестировали Deepseek-R1-Distilled-Qwen-1.5B (исходную) на AIME2024 то увидели, что неверные ответы в среднем содержат в три раза больше токенов, чем правильные (20 346 против 6 395), и вот мол если сразу начинать RL тюн с длинным контекстом, то оно вот будет длинные и неправильные ответы давать, поэтому может быть полезным увеличивать контекст постепенно.

*Достижение уровня O1-preview получилось лишь с расширением контекста до 24K: после того как расширили до 16к контексти и тренили 500 шагов - ревард вышел на плато в какой-то момент (0.625) и только после расширения контекста до 24к удалось преодолеть 40% AIME (через 50 шагов трена с 24к контекстом) и выйти на 43% в дальнейшем (еще через 200 шагов).

В целом прогресс шел так:
*изначальная моделька выдавала 28.9% на AIME, при инициализации с 8К окном трена упала до 22% затем через тысячу шагов поднялась до 33.9% при этом сильно укоротив среднюю длину ответов (корректные в среднем 6396 -> 3661.2, некорректные 20346.3 -> 6976.8)
*затем 500 шагов с 16к контекстом удалось выбить 38% AIME но средняя длина ответа увеличилась с 3500 токенов до 5500;
*еще 250 шагов с 24к контекстом и тут удалось дойти до 43.1% AIME.

И еще ребята считают что надо и качественный SFT делать и RL потом :)

Так понял.

Кстати, сначала собираю подобные проекты и статьи в ресечим: https://www.tgoop.com/researchim а потом уже тут рассказываю.

Ссылки по проекту:

https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2

https://github.com/agentica-project

Код и Датасет в репе лежит:
https://github.com/agentica-project/deepscaler

Моделька:
https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview

50🔥7👾3❤2

2.36K views16:18

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .

🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r

🔥15🤡3👎1👏1

1.67K views17:25

Агенты ИИ | AGI_and_RL

Вот и 1.5B с RL на русском) Молодцы ребята, RL любят

2.23K viewsedited 17:28

Агенты ИИ | AGI_and_RL

Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.

https://huggingface.co/blog/open-r1/update-2

Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.

почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw

-
PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim

huggingface.co

Open R1: Update #2

A Blog post by Open R1 on Hugging Face

🆒9❤2👍1

11.1K views06:53

Агенты ИИ | AGI_and_RL

Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно было бы на мобилках крутить.

Сам на опрос не успел, но по-моему пусть лучше модельку уровня o3-mini выклыдывают в общий. Ну оно и победило, кстати) Жду

4❤18👍1

25.3K viewsedited 12:42

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

Qwen2.5-7B-Instruct-Tool-Planning-v0.1

Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!

🔗модель
🔗датасет

🔥13👍1

1.5K views17:18

Агенты ИИ | AGI_and_RL

HuggingFace 🤗 выложили

The Ultra-Scale Playbook:
Training LLMs on GPU Clusters
https://huggingface.co/spaces/nanotron/ultrascale-playbook

- это интерактивный учебник по тому как тренируются ллмковые разных размеров на видеокартах (и на кластерах) и что там внутри происходит.

Под что память выделяется и как рассчитывается,
про виды распределенного обучения (Data Parallelism, Tensor Parallelism, Context Parallelism, Pipeline Parallelism),
как атеншены вычисляются и оптимизируются,
Flash Attention 1-3,
овервью того как GPUшки работают,
как кернелы оптимизировать
и много всякого полезного

Раньше многие вещи пришлось бы собирать самому по всему интернету, а теперь все здесь с примерами кода из своего учебного фреймворка для распределенного обучения ллмов https://github.com/huggingface/picotron. Ну и много полезных ссылочек.

Ну прям молодцы ребятки. Изучаем 🤗 (и picotron тоже)

—
PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim

huggingface.co

The Ultra-Scale Playbook - a Hugging Face Space by nanotron

This blog post explains how to efficiently train large language models (LLMs) using GPU clusters, providing insights and guidance on optimizing performance and resource utilization.

❤17🔥11👍6

2.48K viewsedited 06:06

Агенты ИИ | AGI_and_RL

Там это... Ребята из Саканы выложили своего оптимизатора торч кода для видеокарт.

The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and Composition
https://sakana.ai/ai-cuda-engineer/

Это фреймворк с ллмкой и эволюционкой который транслирует торч в оптимизированные куда кернелы.
Ну и написали, что иногда код на выходе получается 10x-100x быстрее.
Выложили статью с примерами кернелов.

Ребятки в интернете додумались прогнать кернелы через o3-mini и спросить, есть ли там проблемы.
o3-mini проблемы нашла. Суть была в том, что AI CUDA Engineer также генерит и тестовый код для запуска алгоритма который получился. И в конкретном примере с обсчетом матрицы запускался обсчет всего одной строки в матрице.

Внесли фиксы в код запуска и запустили кернел он оказался ~3 раза медленнее (вместо большого ускорения).

Такие дела. Надеюсь что ребята в Сакане все перепроверят ну и мб апдейт какой выложат)

Вот тут разборки с фиксами:
https://x.com/giffmana/status/1892510741242036468

PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim

sakana.ai

Sakana AI

The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and Composition

😁14🤨7🔥4❤2👍2

1.84K viewsedited 16:34

2025/07/14 03:27:44
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>