Telegram Web
Forwarded from Dmitry Rybin 人工智能
Привет! А мы тут не отстаем от Дипмайнда: нашли новый алгоритм умножения X*X^t.

Для 4x4 матриц получили алгоритм с 34 умножениями (у SotA было 38).

Для n x n при больших n на 5% быстрее.

https://arxiv.org/abs/2505.09814
🔥43👍118🤔1
у любителей ллмного RLя сегодня снова приподнятое настроение

там потюнили квен coder 7б с PPO, чтобы он оптимизировал асемблерный код. Ну и получили ускорение в среднем x1.47 (дефолтный 7б кодер x1.1 выдавал), и % компиляции с 79% до 96% поднял
ну и круче других протесченых ллмок получилось 🎹

Improving Assembly Code Performance with Large Language Models via Reinforcement Learning
https://www.arxiv.org/abs/2505.11480

увидел в https://www.tgoop.com/j_links кстати
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍42🤔1
Кстати, вообще считаю что вайбкодинг это очень круто если понимаешь что делаешь. Прямо быстро можно прототипчик сделать чего угодно. Да и с ллмками можно вполне разобраться почти в любой теме если есть желание.

В одного с ллмными агентами щас можно собрать почти все.
👍32🔥5🦄5
Ребят, если что интересного увидите в презухе гугла, черкните в коменты плиз
И надо будет посчитать количество упоминаний ИИ агентов
👍8🥱3👌2
https://huggingface.co/mistralai/Devstral-Small-2505

Новая кодовая агентная открытая моделька от мистраля. 24B, 128к контекст
В сыром виде в 3090/4090 не влезет, надо подождать awq

lm-studio уже сделали GGUF кванты, можно в LM studio или llama.cpp пробовать запускать
https://huggingface.co/lmstudio-community/Devstral-Small-2505-GGUF

интересно что там с русским
🔥12👍42
Всем привет! Рад сообщить о нашем новом релизе RuadaptQwen3-32B-Instruct 🎉. Это адаптированная версия Qwen3-32B, которая также является гибридным ризонером с режимом размышлений по-умолчанию.

Отличия текущего релиза от прошлых:

1. Версионирование: теперь версионирование моделей будет идти внутри одного репозитория, но в Versions будут отмечены даты и соответствующие коммиты, которые могут быть использованы, если кому-то больше понравится “прошлая версия”. Таким образом мне проще выкладывать текущие наработки, которые я все еще не могу назвать итоговыми, но которые уже неплохи на мой взгляд.

2. Процедура адаптации была улучшена: токенайзер содержит потерянные смайлы и не содержит ненужных цифр, количество данных в continued pretraining было увеличено вдвое и еще несколько минорных изменений процедуры, которые приводят к бОльшему качеству на выходе.
Так как для Qwen3-32B не была выложена базовая версия, мы сделали ее сами, дообучив только эмбеддинги (входные и выходные) на +-миллиарде токенов.

3. Новый набор для SFT и пока что отсутствие Pref-tuning этапа: в этот раз данные для обучения были сгенерированы на основе большой модели Qwen3-235B-A22B. Для сохранения функции переключения между режимами, в 30% случаев think содержимое выбрасывалось и добавлялся /no_think токен к последнему сообщению пользователя. Для 10% случаев, когда размышления оставались добавлялся токен /think. Используемый датасет выложен и упомянут в карточке модели.

4. Метрик пока нет, но в целом имеется некоторая просадка на мат. задачах, однако для обычного использования все должно быть +- на уровне исходной версии.

Если заметите плохие или наоборот хорошие стороны модели - обязательно пишите, так как сейчас активно идут работы над инструктивной частью и фидбек по поводу проблем будет очень актуален.

Модель: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct-GGUF
Space: https://huggingface.co/spaces/RefalMachine/RuadaptQwen3
🔥8👍5🤔21🌚1
ллмный RL апдейтит лишь 5%-30% весов
и эти веса образуют подсеть, которую можно тюнить рлем саму по себе (заморозив остальные веса) и после тюна она будет почти такой же как если тюнить всю модель

Причем
- Каждый слой и каждая матрица (Q, K, V, FFN) получает одинаково разреженные, но при этом почти полноранговые обновления, параметры LayerNorm практически не трогаются.
- Для одной и той же базовой модели «активные» подсети, полученные при разных сидax, датасетax и даже разных RL-алгоритмах, перекрываются гораздо сильнее случайного, а значит существует частично переносимая структура подсети
- если потюнить эти регионы с замороженными остальными весами, то можно даже пару процентов докинуть на тесте
- большая разреженность сохраняется на 7 алгоритмах (PPO, GRPO, ORPO, KTO, DPO, SimPO, PRIME) и 10 моделях разных семейств.
- SFT на тех же данных до RLя особо картину не меняет, разреженность ~ та же на RLе
- на примере PRIME алгоритма показали что со временем разреженность падает, т.е. апдейтится все больше весов

Авторы связывают основную причину большой разреженности с тюнингом/рлем на in-distribution данных. Например DPO на out-of-distribution показало что тюнится 94% весов, ка и с SFT.
Так понял.

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

https://arxiv.org/abs/2505.11711
https://www.alphaxiv.org/ru/overview/2505.11711

PS собираем всякое крутое по ИИ и проектики делаем в https://www.tgoop.com/researchim
👍116🔥4
Forwarded from Vikhr models
This media is not supported in your browser
VIEW IN TELEGRAM
ToneSpeak - первый русскоязычный датасет с описанием акецента и настроения.

Сгенерили через openai api, получилось очень приятно, пользуйтесь!

Huggingface
2🔥144👍2💩1
Ну что как вам клод 4?
Чот у меня пока неоднозначненько. Пока тыкаю сонет в курсоре, но блин он реально часто делает что-то не то. Но всегда ставит смайлики везде.
😃😢😱💋😳 - 99% кода (ладно не 99. но больше чем надо)

Выглядит так, что он буквально симулирует деятельность. В результате реально ничего не работает

скрин из поста https://x.com/vasumanmoza/status/1926487201463832863
😁16🔥15👍4😢2
Forwarded from black_samorez
Написали статью про претрен LLM в MXFP4. Кернелы будут на следующей неделе, пока от текста кайфуйте.

https://huggingface.co/papers/2505.14669
🔥51🤡1
дипсики выложили обновку R1

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

4 на ливкодбенче код ген 😎
https://livecodebench.github.io/leaderboard.html

Жалко в 3090 не влезает
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥133👍1
Хм, похоже в Дипмаинде что-то крутое сделали... 😑
На самом деле я и сам попадаюсь на видосики которые сгенерены с veo 3, иногда правда сложно понять что это генка. Это прям мощная штука получилась
Действительно новый уровень

https://deepmind.google/models/veo/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥31
Квены 2.5 можно подтюнить RLем с неправильными и рандомными наградами и они неплохо бустанутся.

Авторы считают что это связано с тем, что квены даже с рандомными наградами начинают писать больше питон кода во время RLя и получают корректные результаты (они изначально умеют решать задачки кодом)

А с лламой и Olmo это не работает

(Учите питон, крч)

https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f

https://github.com/ruixin31/Rethink_RLVR/tree/main

PS собираемся и собираем интересное по ИИшке в https://www.tgoop.com/researchim
😁1272👍1
2025/07/14 10:56:08
Back to Top
HTML Embed Code: