Агенты ИИ | AGI_and_RL 959 - Telegram Web

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .

🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r

🔥15🤡3👎1👏1

1.67K views17:25

Агенты ИИ | AGI_and_RL

Вот и 1.5B с RL на русском) Молодцы ребята, RL любят

2.23K viewsedited 17:28

Агенты ИИ | AGI_and_RL

Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.

https://huggingface.co/blog/open-r1/update-2

Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.

почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw

-
PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim

Open R1: Update #2

A Blog post by Open R1 on Hugging Face

🆒9❤2👍1

11.1K views06:53

Агенты ИИ | AGI_and_RL

Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно было бы на мобилках крутить.

Сам на опрос не успел, но по-моему пусть лучше модельку уровня o3-mini выклыдывают в общий. Ну оно и победило, кстати) Жду

4❤18👍1

25.3K viewsedited 12:42

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

Qwen2.5-7B-Instruct-Tool-Planning-v0.1

Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!

🔗модель
🔗датасет

🔥13👍1

1.5K views17:18

Агенты ИИ | AGI_and_RL

HuggingFace 🤗 выложили

The Ultra-Scale Playbook:
Training LLMs on GPU Clusters
https://huggingface.co/spaces/nanotron/ultrascale-playbook

- это интерактивный учебник по тому как тренируются ллмковые разных размеров на видеокартах (и на кластерах) и что там внутри происходит.

Под что память выделяется и как рассчитывается,
про виды распределенного обучения (Data Parallelism, Tensor Parallelism, Context Parallelism, Pipeline Parallelism),
как атеншены вычисляются и оптимизируются,
Flash Attention 1-3,
овервью того как GPUшки работают,
как кернелы оптимизировать
и много всякого полезного

Раньше многие вещи пришлось бы собирать самому по всему интернету, а теперь все здесь с примерами кода из своего учебного фреймворка для распределенного обучения ллмов https://github.com/huggingface/picotron. Ну и много полезных ссылочек.

Ну прям молодцы ребятки. Изучаем 🤗 (и picotron тоже)

—
PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim

The Ultra-Scale Playbook - a Hugging Face Space by nanotron

This blog post explains how to efficiently train large language models (LLMs) using GPU clusters, providing insights and guidance on optimizing performance and resource utilization.

❤17🔥11👍6

2.48K viewsedited 06:06

Агенты ИИ | AGI_and_RL

Там это... Ребята из Саканы выложили своего оптимизатора торч кода для видеокарт.

The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and Composition
https://sakana.ai/ai-cuda-engineer/

Это фреймворк с ллмкой и эволюционкой который транслирует торч в оптимизированные куда кернелы.
Ну и написали, что иногда код на выходе получается 10x-100x быстрее.
Выложили статью с примерами кернелов.

Ребятки в интернете додумались прогнать кернелы через o3-mini и спросить, есть ли там проблемы.
o3-mini проблемы нашла. Суть была в том, что AI CUDA Engineer также генерит и тестовый код для запуска алгоритма который получился. И в конкретном примере с обсчетом матрицы запускался обсчет всего одной строки в матрице.

Внесли фиксы в код запуска и запустили кернел он оказался ~3 раза медленнее (вместо большого ускорения).

Такие дела. Надеюсь что ребята в Сакане все перепроверят ну и мб апдейт какой выложат)

Вот тут разборки с фиксами:
https://x.com/giffmana/status/1892510741242036468

PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim

The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and Composition

😁14🤨7🔥4❤2👍2

1.84K viewsedited 16:34

Агенты ИИ | AGI_and_RL

Forwarded from Kali Novskaya

🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers

Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".

🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.

Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.

🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.

Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.

Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.

🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...).
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.

Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.

🟣Arxiv: https://arxiv.org/abs/2502.14499

🟣

Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0

Please open Telegram to view this post

VIEW IN TELEGRAM

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for evaluating and developing LLM agents on AI research tasks. This is the first Gym environment for machine learning (ML)...

🔥12👍5❤3

1.14K views10:38

Агенты ИИ | AGI_and_RL

This media is not supported in your browser

VIEW IN TELEGRAM

rl... rl всегда возвращается

это еще из очень олдовых экспериментов хардмару, но ржомба

Если убрать все ограничения конструкции, оптимизатор придумал действительно высокого двуногого шагающего робота, который «решает» задачу, просто падая и приземляясь около выхода.

https://x.com/hardmaru/status/1892995060557640098

😁28👍2🤣2👏1

2.07K viewsedited 07:48

Агенты ИИ | AGI_and_RL

Агенты ИИ | AGI_and_RL

Есть вот такая эксплорилка архива. https://www.alphaxiv.org/explore Что-то типа https://huggingface.co/papers Показывает тренды папир на архиве К статьям можно оставлять комменты, ставить 👍 (если зарегаться) Еще есть сообщества по темам, где статьи собираются…

Ребята на https://www.alphaxiv.org/ завезли o3-mini с которой можно по статьям общаться, вот это прикольно

🔥15❤3👏3

2.3K views09:49

Агенты ИИ | AGI_and_RL

Агенты ИИ | AGI_and_RL

Ребята на https://www.alphaxiv.org/ завезли o3-mini с которой можно по статьям общаться, вот это прикольно

сори, тупанул, вот правильный скрин 🤨

кроме 03-mini есть claude 3.5 и Gemini 2

По лимитам я пока не понял. Но блин, с такой штукой очень удобно статейки читать

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍4👏2

1.87K views10:10

Агенты ИИ | AGI_and_RL

У нас тут бегущий по ризонингу

Ребята потренили Qwen 1.5B на то чтобы проходить не сильно сложные лабиринты 5x5. Но исходная моделька и этого не умела.

Нагенерили https://huggingface.co/datasets/jan-hq/Maze-Reasoning датасет со 100к лабиринтами, с COT трейсами.
И вот в блоге https://homebrew.ltd/blog/alpha-maze пишут про этот датасет. И там много подробностей с ревардами и сетапом.

Но вообще в статье пишут

AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO
https://arxiv.org/abs/2502.14669

что для SFT был 500к датасет для SFT, 16к для GRPO и евал был на 30к сете. Чего тогда только 100к выложили - не пон. Вполне возможно что разные эксперименты описываются.

На вход подается только текстовое описание задачи (но в датасете нагенерили и картинки). А моделька должна сгенерить в качестве ответа путь прохождения вида: <|down|><|left|><|left|><|down|><|right|><|right|><|right|>

Вообще всего в описании лабиринта участвуют следующие маркеры:
Координаты:
<row-col> (например, <0-0>, <2-4>) для идентификации каждой клетки в сетке.
Стены:
Токены, такие как <no_wall>, <up_wall>, <down_wall> и т.д., указывающие на наличие или отсутствие стен в каждом направлении. Это позволяет модели «видеть» структуру лабиринта.
Движение:
<up>, <down>, <left>, <right> для обозначения возможных действий, которые может совершить модель.
Специальные маркеры:
<origin> и <target> для обозначения начальной и конечной точек.

В статье пишут, что исходная моделька на евале показала 0% акураси.
Ребята сделали SFT на своем сете (добились 86%), а потом GRPO сверху 1600 шагов (подняли до 93%).
А вот если учить без ризонинга напрямую генерить решение - то акураси тот же 0% будет. То есть для решения лабиринта нужно учить решать задачу по шагам с размышлениями.

Надо больше экспериментов и с лабиринтами разных размеров.
Вообще прохождение лабиринтов - это большая задача и в обычном RLе, без ллмок, там много этим занимаются. И бОльшие лабиринты проходят и в 3D, ну у ллмок все впереди похоже.

Так понял. Ризонинг делать нада.

покайфу собираем статьи и всякое полезное в том числе и по ризонингу (много) тут: https://www.tgoop.com/researchim

❤13👍6😁1

2.21K viewsedited 15:48

Агенты ИИ | AGI_and_RL

Ммм, там датасетик на 250к семплов под RL над LLMками и ризонинге подвезли. Все по матеше конечное

Это сборка из других открытых датасетов (на скринах) + 47к своих новых (назвали Big-Math-Reformulated).

Мол в открытых датасетах не всегда прям качественные данные, поэтому вот авторы хорошее пособирали и своего долили.

Big-Math-RL-Verified
https://huggingface.co/datasets/SynthLabsAI/Big-Math-RL-Verified

Как все это дело компилировали читаем здесь:

Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models
https://arxiv.org/abs/2502.17387

PS собираемся и cобираем все крутое по нейронкам тут: https://www.tgoop.com/researchim

❤9🔥5👍3

2.13K views07:07

Агенты ИИ | AGI_and_RL

Ребятки, не забываем про квен (он в России работает)

https://chat.qwen.ai/

Там вроде как апдейтик с думающим Qwen2.5-Max подвезли. Нравится.

Чтобы модельки размышляли нажимаем Thinking (QwQ)

❤19👍9👌2

2.21K views11:03

Агенты ИИ | AGI_and_RL

Forwarded from Love. Death. Transformers.

Member of Technical Staff LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ

Чем предстоит заниматься:

Дообучение и Оценка Sota llm, аттаки на blackbox модели

Заставлять LLM генерировать рецепты всего и тд

Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).

Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).

Оптимизация инференса (vLLM, SGLang, TRT).

Требования:

Опыт работы с LLM (архитектуры, RL, alignment).

Знание PyTorch/JAX.

Реальная практика с RL методами (DPO, RLHF — плюс).

Опыт с системами инференса (vLLM, kuber, docker).

Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.

Преимущество:

Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.

Условия:

Зарплата: 80K–130K usd + опционы.

Релокация в Париж🥐, полная занятость.

Работа с передовым стеком (AI research, model alignment).

Отклик:
https://forms.gle/z45WwdBTRHrd8inM9

😁6👍4🥴3👎1

2.1K views11:47

Агенты ИИ | AGI_and_RL

Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками.

Много про разного вида RL который можно применять, цепочки рассуждений, test-time scaling и вот это все
Читаем!

LLM Post-Training: A Deep Dive into Reasoning Large Language Models
https://arxiv.org/abs/2502.21321

И конечно же листик пособирали, тоже приятный.

https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

PS собираемся и собираем все крутое по нейронкам тут https://www.tgoop.com/researchim

❤9👍9🔥3👏2

5.32K views11:14

Агенты ИИ | AGI_and_RL

reinforcementlearningreinforcementlearningreinforcementlearning

Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL 🥳

🕺

🥰

https://awards.acm.org/about/2024-turing

Я считаю что заслужили.
А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html

Please open Telegram to view this post

VIEW IN TELEGRAM

Andrew Barto and Richard Sutton are the recipients of the 2024 ACM A.M. Turing Award for developing the conceptual and algorithmic…

❤29🔥10🏆7⚡1

9.22K views15:05

2025/07/12 00:40:38
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>