В любой момент времени можно скинуть лучший конспект по RLю на русском
https://arxiv.org/abs/2201.09746
https://arxiv.org/abs/2201.09746
arXiv.org
Reinforcement Learning Textbook
This textbook covers principles behind main modern deep reinforcement learning algorithms that achieved breakthrough results in many domains from game AI to robotics. All required theory is...
❤18👍6🔥3
Кстати тоже все хотел сделать как-нить подборку РЛ челов и стартапов. Все руки не дойдут
Пока можно тут почитать
https://www.chemistry.vc/post/rl-reigns-supreme
Из тех что выше вижу часто мелькают Thinking Machines и OpenPipe
PS высвобождаем и делаем потихоньку в https://www.tgoop.com/researchim
Пока можно тут почитать
https://www.chemistry.vc/post/rl-reigns-supreme
Из тех что выше вижу часто мелькают Thinking Machines и OpenPipe
PS высвобождаем и делаем потихоньку в https://www.tgoop.com/researchim
🔥6❤4👍1
HF выложили thinking модельку SmolLM3-3B и рассказывают как тюнили. Русского в языках нету
https://huggingface.co/HuggingFaceTB/SmolLM3-3B
https://huggingface.co/blog/smollm3
Думаю самое интересное это почитать про сам трен
https://huggingface.co/HuggingFaceTB/SmolLM3-3B
https://huggingface.co/blog/smollm3
Думаю самое интересное это почитать про сам трен
huggingface.co
SmolLM3: smol, multilingual, long-context reasoner
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥9👍2❤1
Forwarded from Attention Signs
Вышел Grok-4
По бенчмаркам SOTA, понятное дело, как обычно, в принципе. Его почти сразу завезли в курсор, поэтому я немного потыкался и поспрашивал.
В повседневном диалоге/математике/науке - действительно не плох, хоть я и мучал его совсем чуть-чуть.
А вот в коде - что-то очень странное. Во-первых, в курсоре у него закрыт CoT (видимо, он закрыт для всех по дефолту), но это даже не самое интересное, мы такое уже видели в линейке 'o' моделей от OpenAI.
1. Он уже несколько раз мне ничего не отвечал на промпт, только раздумывал что-то сам с собой. Но после того, как я спросил, почему он ничего не ответил, он извинялся и говорил так, будто оно так и должно было быть (т.к это часть шага)
2. Он не берется решать сразу проблему, а делает маленькие инкрементальные шаги, ожидая чего-то от меня (или, видимо, фидбек от системы) - например, при просьбе написать тесты, он пишет всего ОДНУ функцию и заканчивает turn, заставляя переспрашивать его снова.
(Примеры таких 'пустых' диалогов прилагаю к посту)
Это может наводить на мысли, что он обучался немного другому RL, либо у него, возможно, была целая среда, которая давала ему continuous feedback, вследствие чего тот научился делать постепенные небольшие шаги (или связке думать + бездействовать на этом шаге) в сторону правильного решения.
Я не берусь ничего утверждать, это просто догадки спустя 1,5ч использования модели. В общем и целом, пока что он мне не очень понравился, по крайней мере, как ассистент для кода. Там ещё ожидается специализированный grok-code, так что посмотрим, что будет там)
По бенчмаркам SOTA, понятное дело, как обычно, в принципе. Его почти сразу завезли в курсор, поэтому я немного потыкался и поспрашивал.
В повседневном диалоге/математике/науке - действительно не плох, хоть я и мучал его совсем чуть-чуть.
А вот в коде - что-то очень странное. Во-первых, в курсоре у него закрыт CoT (видимо, он закрыт для всех по дефолту), но это даже не самое интересное, мы такое уже видели в линейке 'o' моделей от OpenAI.
1. Он уже несколько раз мне ничего не отвечал на промпт, только раздумывал что-то сам с собой. Но после того, как я спросил, почему он ничего не ответил, он извинялся и говорил так, будто оно так и должно было быть (т.к это часть шага)
2. Он не берется решать сразу проблему, а делает маленькие инкрементальные шаги, ожидая чего-то от меня (или, видимо, фидбек от системы) - например, при просьбе написать тесты, он пишет всего ОДНУ функцию и заканчивает turn, заставляя переспрашивать его снова.
(Примеры таких 'пустых' диалогов прилагаю к посту)
Это может наводить на мысли, что он обучался немного другому RL, либо у него, возможно, была целая среда, которая давала ему continuous feedback, вследствие чего тот научился делать постепенные небольшие шаги (или связке думать + бездействовать на этом шаге) в сторону правильного решения.
Я не берусь ничего утверждать, это просто догадки спустя 1,5ч использования модели. В общем и целом, пока что он мне не очень понравился, по крайней мере, как ассистент для кода. Там ещё ожидается специализированный grok-code, так что посмотрим, что будет там)
❤10👍4🔥2
Пара приятных и полезных находок
Введение в диффузионки
Step-by-Step Diffusion: An Elementary Tutorial
https://arxiv.org/abs/2406.08929
И обзор методов скрытых рассуждений в ллмках (т.е. когда ллмы "рассуждают" не текстом в лицо, а во внутренних представлениях модельки)
В целом какие подходы бывают, как тренируют и про интерпретируемость
A Survey on Latent Reasoning
https://arxiv.org/abs/2507.06203
https://www.alphaxiv.org/ru/overview/2507.06203v1
https://github.com/multimodal-art-projection/LatentCoT-Horizon
Введение в диффузионки
Step-by-Step Diffusion: An Elementary Tutorial
https://arxiv.org/abs/2406.08929
И обзор методов скрытых рассуждений в ллмках (т.е. когда ллмы "рассуждают" не текстом в лицо, а во внутренних представлениях модельки)
В целом какие подходы бывают, как тренируют и про интерпретируемость
A Survey on Latent Reasoning
https://arxiv.org/abs/2507.06203
https://www.alphaxiv.org/ru/overview/2507.06203v1
https://github.com/multimodal-art-projection/LatentCoT-Horizon
arXiv.org
Step-by-Step Diffusion: An Elementary Tutorial
We present an accessible first course on diffusion models and flow matching for machine learning, aimed at a technical audience with no diffusion experience. We try to simplify the mathematical...
1❤8👍3🔥2
Агенты ИИ | AGI_and_RL
Челики которые недавно ллмный RL туда-сюда гоняли, пруверы тренили щас запустили агента https://www.kimi.com/ РЛьные (пусть и ллмные) делают стартапы и рвутся к бабкам, это хорошо https://moonshotai.github.io/Kimi-Researcher/ PS а мы проекты делаем и ИИнфу…
Как насчет опенсурсной агенточной модельки на 1Т параметров? Kimi K2
https://moonshotai.github.io/Kimi-K2/
https://huggingface.co/moonshotai/Kimi-K2-Instruct
https://huggingface.co/moonshotai/Kimi-K2-Base
https://github.com/MoonshotAI/Kimi-K2?tab=License-1-ov-file#readme
MOE с 32б активных параметров. Но все равно 1Т общих оч много
Но зато опенсурс и поэтому кайфуем. Еще и от челов которые RL над ллмками активно делают
Всем РЛьным респект всегда
https://moonshotai.github.io/Kimi-K2/
https://huggingface.co/moonshotai/Kimi-K2-Instruct
https://huggingface.co/moonshotai/Kimi-K2-Base
https://github.com/MoonshotAI/Kimi-K2?tab=License-1-ov-file#readme
MOE с 32б активных параметров. Но все равно 1Т общих оч много
Но зато опенсурс и поэтому кайфуем. Еще и от челов которые RL над ллмками активно делают
Всем РЛьным респект всегда
😱4❤3😢1