Агенты ИИ | AGI_and_RL 1109

Агенты ИИ | AGI_and_RL

ллмный RL апдейтит лишь 5%-30% весов
и эти веса образуют подсеть, которую можно тюнить рлем саму по себе (заморозив остальные веса) и после тюна она будет почти такой же как если тюнить всю модель

Причем
- Каждый слой и каждая матрица (Q, K, V, FFN) получает одинаково разреженные, но при этом почти полноранговые обновления, параметры LayerNorm практически не трогаются.
- Для одной и той же базовой модели «активные» подсети, полученные при разных сидax, датасетax и даже разных RL-алгоритмах, перекрываются гораздо сильнее случайного, а значит существует частично переносимая структура подсети
- если потюнить эти регионы с замороженными остальными весами, то можно даже пару процентов докинуть на тесте
- большая разреженность сохраняется на 7 алгоритмах (PPO, GRPO, ORPO, KTO, DPO, SimPO, PRIME) и 10 моделях разных семейств.
- SFT на тех же данных до RLя особо картину не меняет, разреженность ~ та же на RLе
- на примере PRIME алгоритма показали что со временем разреженность падает, т.е. апдейтится все больше весов

Авторы связывают основную причину большой разреженности с тюнингом/рлем на in-distribution данных. Например DPO на out-of-distribution показало что тюнится 94% весов, ка и с SFT.
Так понял.

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
https://arxiv.org/abs/2505.11711
https://www.alphaxiv.org/ru/overview/2505.11711

PS собираем всякое крутое по ИИ и проектики делаем в https://www.tgoop.com/researchim

👍11❤6🔥4

2.28K views18:36

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

ToneSpeak - первый русскоязычный датасет с описанием акецента и настроения.

Сгенерили через openai api, получилось очень приятно, пользуйтесь!

Huggingface

2🔥14❤4👍2💩1

1.36K views09:04

Агенты ИИ | AGI_and_RL

Ну что как вам клод 4?
Чот у меня пока неоднозначненько. Пока тыкаю сонет в курсоре, но блин он реально часто делает что-то не то. Но всегда ставит смайлики везде.
😃😢😱💋😳 - 99% кода (ладно не 99. но больше чем надо)

Выглядит так, что он буквально симулирует деятельность. В результате реально ничего не работает

скрин из поста https://x.com/vasumanmoza/status/1926487201463832863

😁16🔥15👍4😢2

2.17K viewsedited 05:39

Агенты ИИ | AGI_and_RL

Forwarded from black_samorez

Написали статью про претрен LLM в MXFP4. Кернелы будут на следующей неделе, пока от текста кайфуйте.

https://huggingface.co/papers/2505.14669

huggingface.co

Paper page - Quartet: Native FP4 Training Can Be Optimal for Large Language Models

Join the discussion on this paper page

🔥5❤1🤡1

2.01K views10:18

Агенты ИИ | AGI_and_RL

дипсики выложили обновку R1

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

4 на ливкодбенче код ген 😎
https://livecodebench.github.io/leaderboard.html

Жалко в 3090 не влезает

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13❤3👍1

1.98K viewsedited 06:33

Агенты ИИ | AGI_and_RL

Хм, похоже в Дипмаинде что-то крутое сделали... 😑
На самом деле я и сам попадаюсь на видосики которые сгенерены с veo 3, иногда правда сложно понять что это генка. Это прям мощная штука получилась
Действительно новый уровень

https://deepmind.google/models/veo/

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥3❤1

1.78K views16:17

Агенты ИИ | AGI_and_RL

Квены 2.5 можно подтюнить RLем с неправильными и рандомными наградами и они неплохо бустанутся.

Авторы считают что это связано с тем, что квены даже с рандомными наградами начинают писать больше питон кода во время RLя и получают корректные результаты (они изначально умеют решать задачки кодом)

А с лламой и Olmo это не работает

(Учите питон, крч)

https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f

https://github.com/ruixin31/Rethink_RLVR/tree/main

PS собираемся и собираем интересное по ИИшке в https://www.tgoop.com/researchim

😁12❤7⚡2👍1

2.23K viewsedited 16:36

Агенты ИИ | AGI_and_RL

дипсики выложили обновку R1 https://huggingface.co/deepseek-ai/DeepSeek-R1-0528 4 на ливкодбенче код ген 😎 https://livecodebench.github.io/leaderboard.html Жалко в 3090 не влезает

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

Пробуем

huggingface.co

deepseek-ai/DeepSeek-R1-0528-Qwen3-8B · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

❤8👍1🔥1

2.01K views10:48

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

Выложили QVikhr-3-1.7B на основе Qwen-3-1.7B, лучшая в классе и обгоняет лучшие модели. Ризонинг прямо сейчас выключен, будет позже. Но и без него модель обходит стандартную модель с включенным ризонингом. А самое главное, можно запустить на CPU и не страдать от низкой скорости TPS (Token per second).

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning-GGUF
⚖️ Лицензия: apache-2.0

👥 Авторы: @LakoMoorDev @nlpwanderer

🔥11🤮5🌚5💩3❤1

1.82K views15:03

Агенты ИИ | AGI_and_RL

Чот призадумался с обновой R1 от дипсика, а наступят ли времена когда опенсурсные модельки будут обходить закрытые?
Что думаете?

Условно я NewCompanyName, хочу плотно прохайпить. У меня есть некоторые ресурсы + люди + возможности сделать жесткую модель которая лучше прям всех. Бахну опенсурс который накажет всех остальных.

🤔3

2.13K viewsedited 18:04

Агенты ИИ | AGI_and_RL

Forwarded from человек наук

Прочитал безумно интересную статью о новом алгоритме для перемножения матрицы на неё же, но перевёрнутую – транспонированную. Если вы когда-либо применяли PCA (метод главных компонент) или линейную регрессию, то там используется эта операция. Как и ещё в куче мест

Не без помощи ИИ авторы нашли алгоритм, который делает это быстрее! Матрицы можно перемножать эффективнее, чем так как вас учили в университете – это показал Штрассен ещё в прошлом веке. А некоторые частные случаи могут быть решены ещё быстрее. Например, для матриц специального размера это совсем недавно показали в Дипмайнде. А перемножение матрицы на её транспонированную обладает симметричной структурой, которой можно воспользоваться для ещё более эффективного алгоритма

Однако в комментариях к посту о статье жаловались, что авторы не провели эксперименты на GPU – видеокартах. А это как раз самое интересное, все самые тяжёлые вычисления (как, например, тренировка больших языковых моделей) происходят на них. Мне захотелось потратить выходные, чтобы написать этот алгоритм для видеокарт, а заодно стряхнуть пыль со знаний C++ и разобраться как вообще выглядит такое программирование

Три недели спустя алгоритм был наконец написан, а баги отловлены. В процессе мне удалось его даже улучшить. Для вычисления результата авторы вводят 47 дополнительных переменных. На видеокартах заводить дополнительные переменные и выделять память под них – дорого, важно избежать каждой лишней операции. И мне удалось вместить все вычисления в память результирующей матрицы. Выделять дополнительную не нужно совсем!

К моему удивлению, готовый алгоритм заработал медленнее, чем стандартный из библиотеки от NVIDIA. Пусть в ней и не оптимальный алгоритм, куча инженеров и миллионы долларов, потраченных на их работу, привели к тому, что он отполирован донельзя и работает лучше, чем теоретически более быстрый. Впрочем, нам удалось догнать и перегнать стандартный алгоритм на больших матрицах. И это с минимумом оптимизаций! Если написать более низкоуровневый алгоритм на уровне ядер, вычисления станут ещё быстрее

Если вам близка эта тема, загляните в репозиторий: https://github.com/VladimirShitov/RTXX-CUDA . Звёздочки (а тем более улучшения) крайне приветствуются!

#программирование@chelovek_nauk

arXiv.org

$XX^{t}$ Can Be Faster

We present RXTX, a new algorithm for computing the product of matrix by its transpose $XX^{t}$ for $X\in \mathbb{R}^{n\times m}$. RXTX uses $5\%$ fewer multiplications and $5\%$ fewer operations...

🔥29❤5🤓3

1.9K views12:14

Агенты ИИ | AGI_and_RL

В нвидии не смогли принять что ллмный РЛ ВСЁ и поресечили на тему того, чтобы RL не схлопывал pass@k у базовой модельки.
Что предлагают - тюнить 2к шагов и применяют модификации из статьи DAPO (асимметричные клипы 0.8, 1.4) учили с высокой температурой 1.2 с чтобы энтропия не сильно падала (сохранять как можно дольше эксплорейшен у ллмки) + во время трена динамически подбирают сложность задачки (отсекают задачки которые моделька всегда решает и которые не решает во время трена) + использовали KL штраф межд реф и полиси (пишут, что все же KL лучше не убирать, как рекомендуют в некоторых статьях).

Тюнили дипсик 1.5 дистил на искусственных логических задачках и матеше + кодовых из уже известных датасетов.

В результате пишут что увидели генерализацию на задачку, которой не было в трейне и которую базовая моделька совсем не могла решать. + генерализовалась на графовых задачках на бОльшие размеры графа.
Сравнивали базовую модельку с промежуточным и финальным чекпоинтами:
- были задачки где pass@k слегка схлопнулся (авторы считают, что моделька уже видело слишком много таких задач и дотрен не помогает)
- плато (на промежуточном чекпоенте pass@1 - pass@128 улучшились к промежуточному чекпоинту и на финальном почти не изменились)
- pass@k улучшался до конца с рлем.

Но правда трен такой много ресурсов требует (пишут что 16к гпу часов на 4 x 8xNVIDIA-H100-80GB для 1.5B)

Крч надо учиться делать правильный РЛ (и пробовать скейлить).

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
https://arxiv.org/abs/2505.24864
https://www.alphaxiv.org/ru/overview/2505.24864

PS кстати заходите в https://www.tgoop.com/researchim там собираем инфу по ИИшечке и проектики делаем (в том числе по генерации логических задачек синтетических)

🔥8❤5👍2

2.52K views18:06

Агенты ИИ | AGI_and_RL

Применение_искусственного_интеллекта_в_биологии_итоги_2023–2025.pdf

1.6 MB

небольшой чатгптшный ресечик по ии в биологии
Прям понравился

❤10✍2👍1

3.24K views15:18

Агенты ИИ | AGI_and_RL

Channel allows Direct Messages for 🕺

🕺

🕺 each

Please open Telegram to view this post

VIEW IN TELEGRAM

🆒5👍2😁1

2.05K views06:39

Агенты ИИ | AGI_and_RL

Кстати, там же курсор до 1.0 версии апдейтнулся.
Background агенты, работа с юпитер ноутбуками, mcpшки, память
(пока ничего из этого толком не потестил, но так пишут)

А так базово пока отличий от 0.5 (предыдущей версии) не увидел. Работает в целом 🎹

https://www.cursor.com/changelog

Please open Telegram to view this post

VIEW IN TELEGRAM

👀7👍4🤔2💩1

2.3K views13:49

2025/07/10 21:17:25
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>