Telegram Web
Forwarded from Vikhr models
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .


🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
🔥15🤡3👎1👏1
Вот и 1.5B с RL на русском) Молодцы ребята, RL любят
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.

https://huggingface.co/blog/open-r1/update-2

Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.

почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw

-
PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim
🆒92👍1
Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно было бы на мобилках крутить.

Сам на опрос не успел, но по-моему пусть лучше модельку уровня o3-mini выклыдывают в общий. Ну оно и победило, кстати) Жду
418👍1
Forwarded from Vikhr models
Qwen2.5-7B-Instruct-Tool-Planning-v0.1

Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!

🔗модель
🔗датасет
🔥13👍1
HuggingFace 🤗 выложили

The Ultra-Scale Playbook:
Training LLMs on GPU Clusters
https://huggingface.co/spaces/nanotron/ultrascale-playbook

- это интерактивный учебник по тому как тренируются ллмковые разных размеров на видеокартах (и на кластерах) и что там внутри происходит.

Под что память выделяется и как рассчитывается,
про виды распределенного обучения (Data Parallelism, Tensor Parallelism, Context Parallelism, Pipeline Parallelism),
как атеншены вычисляются и оптимизируются,
Flash Attention 1-3,
овервью того как GPUшки работают,
как кернелы оптимизировать
и много всякого полезного

Раньше многие вещи пришлось бы собирать самому по всему интернету, а теперь все здесь с примерами кода из своего учебного фреймворка для распределенного обучения ллмов https://github.com/huggingface/picotron. Ну и много полезных ссылочек.

Ну прям молодцы ребятки. Изучаем 🤗 (и picotron тоже)


PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim
17🔥11👍6
Там это... Ребята из Саканы выложили своего оптимизатора торч кода для видеокарт.

The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and Composition
https://sakana.ai/ai-cuda-engineer/

Это фреймворк с ллмкой и эволюционкой который транслирует торч в оптимизированные куда кернелы.
Ну и написали, что иногда код на выходе получается 10x-100x быстрее.
Выложили статью с примерами кернелов.

Ребятки в интернете додумались прогнать кернелы через o3-mini и спросить, есть ли там проблемы.
o3-mini проблемы нашла. Суть была в том, что AI CUDA Engineer также генерит и тестовый код для запуска алгоритма который получился. И в конкретном примере с обсчетом матрицы запускался обсчет всего одной строки в матрице.

Внесли фиксы в код запуска и запустили кернел он оказался ~3 раза медленнее (вместо большого ускорения).

Такие дела. Надеюсь что ребята в Сакане все перепроверят ну и мб апдейт какой выложат)

Вот тут разборки с фиксами:
https://x.com/giffmana/status/1892510741242036468

PS покайфу собираем все что с мл/ии связано в группе https://www.tgoop.com/researchim
😁14🤨7🔥42👍2
Forwarded from Kali Novskaya
🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers

Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".

🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.

Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.

🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.

Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.  

Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.

🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...)
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.

Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.

🟣Arxiv: https://arxiv.org/abs/2502.14499
🟣Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍53
This media is not supported in your browser
VIEW IN TELEGRAM
rl... rl всегда возвращается

это еще из очень олдовых экспериментов хардмару, но ржомба

Если убрать все ограничения конструкции, оптимизатор придумал действительно высокого двуногого шагающего робота, который «решает» задачу, просто падая и приземляясь около выхода.



https://x.com/hardmaru/status/1892995060557640098
😁28👍2🤣2👏1
Агенты ИИ | AGI_and_RL
Ребята на https://www.alphaxiv.org/ завезли o3-mini с которой можно по статьям общаться, вот это прикольно
сори, тупанул, вот правильный скрин 🤨

кроме 03-mini есть claude 3.5 и Gemini 2

По лимитам я пока не понял. Но блин, с такой штукой очень удобно статейки читать
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4👏2
У нас тут бегущий по ризонингу

Ребята потренили Qwen 1.5B на то чтобы проходить не сильно сложные лабиринты 5x5. Но исходная моделька и этого не умела.

Нагенерили https://huggingface.co/datasets/jan-hq/Maze-Reasoning датасет со 100к лабиринтами, с COT трейсами.
И вот в блоге https://homebrew.ltd/blog/alpha-maze пишут про этот датасет. И там много подробностей с ревардами и сетапом.

Но вообще в статье пишут

AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO
https://arxiv.org/abs/2502.14669

что для SFT был 500к датасет для SFT, 16к для GRPO и евал был на 30к сете. Чего тогда только 100к выложили - не пон. Вполне возможно что разные эксперименты описываются.

На вход подается только текстовое описание задачи (но в датасете нагенерили и картинки). А моделька должна сгенерить в качестве ответа путь прохождения вида: <|down|><|left|><|left|><|down|><|right|><|right|><|right|>

Вообще всего в описании лабиринта участвуют следующие маркеры:
Координаты:
<row-col> (например, <0-0>, <2-4>) для идентификации каждой клетки в сетке.
Стены:
Токены, такие как <no_wall>, <up_wall>, <down_wall> и т.д., указывающие на наличие или отсутствие стен в каждом направлении. Это позволяет модели «видеть» структуру лабиринта.
Движение:
<up>, <down>, <left>, <right> для обозначения возможных действий, которые может совершить модель.
Специальные маркеры:
<origin> и <target> для обозначения начальной и конечной точек.

В статье пишут, что исходная моделька на евале показала 0% акураси.
Ребята сделали SFT на своем сете (добились 86%), а потом GRPO сверху 1600 шагов (подняли до 93%).
А вот если учить без ризонинга напрямую генерить решение - то акураси тот же 0% будет. То есть для решения лабиринта нужно учить решать задачу по шагам с размышлениями.

Надо больше экспериментов и с лабиринтами разных размеров.
Вообще прохождение лабиринтов - это большая задача и в обычном RLе, без ллмок, там много этим занимаются. И бОльшие лабиринты проходят и в 3D, ну у ллмок все впереди похоже.

Так понял. Ризонинг делать нада.

покайфу собираем статьи и всякое полезное в том числе и по ризонингу (много) тут: https://www.tgoop.com/researchim
13👍6😁1
Ммм, там датасетик на 250к семплов под RL над LLMками и ризонинге подвезли. Все по матеше конечное

Это сборка из других открытых датасетов (на скринах) + 47к своих новых (назвали Big-Math-Reformulated).

Мол в открытых датасетах не всегда прям качественные данные, поэтому вот авторы хорошее пособирали и своего долили.

Big-Math-RL-Verified
https://huggingface.co/datasets/SynthLabsAI/Big-Math-RL-Verified

Как все это дело компилировали читаем здесь:

Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models
https://arxiv.org/abs/2502.17387

PS собираемся и cобираем все крутое по нейронкам тут: https://www.tgoop.com/researchim
9🔥5👍3
Ребятки, не забываем про квен (он в России работает)

https://chat.qwen.ai/

Там вроде как апдейтик с думающим Qwen2.5-Max подвезли. Нравится.

Чтобы модельки размышляли нажимаем Thinking (QwQ)
19👍9👌2
Member of Technical Staff LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ

Чем предстоит заниматься:

Дообучение и Оценка Sota llm, аттаки на blackbox модели

Заставлять LLM генерировать рецепты всего и тд

Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).

Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).

Оптимизация инференса (vLLM, SGLang, TRT).

Требования:

Опыт работы с LLM (архитектуры, RL, alignment).

Знание PyTorch/JAX.

Реальная практика с RL методами (DPO, RLHF — плюс).

Опыт с системами инференса (vLLM, kuber, docker).

Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.

Преимущество:

Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.

Условия:

Зарплата: 80K–130K usd + опционы.

Релокация в Париж🥐, полная занятость.

Работа с передовым стеком (AI research, model alignment).

Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
😁6👍4🥴3👎1
Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками.

Много про разного вида RL который можно применять, цепочки рассуждений, test-time scaling и вот это все
Читаем!

LLM Post-Training: A Deep Dive into Reasoning Large Language Models
https://arxiv.org/abs/2502.21321

И конечно же листик пособирали, тоже приятный.

https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

PS собираемся и собираем все крутое по нейронкам тут https://www.tgoop.com/researchim
9👍9🔥3👏2
reinforcementlearningreinforcementlearningreinforcementlearning

Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL 🥳🕺🥰

https://awards.acm.org/about/2024-turing

Я считаю что заслужили.
А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html
Please open Telegram to view this post
VIEW IN TELEGRAM
29🔥10🏆71
2025/07/10 21:24:37
Back to Top
HTML Embed Code: