Telegram Web
Кстати тоже все хотел сделать как-нить подборку РЛ челов и стартапов. Все руки не дойдут

Пока можно тут почитать
https://www.chemistry.vc/post/rl-reigns-supreme

Из тех что выше вижу часто мелькают Thinking Machines и OpenPipe

PS высвобождаем и делаем потихоньку в https://www.tgoop.com/researchim
🔥64👍1
HF выложили thinking модельку SmolLM3-3B и рассказывают как тюнили. Русского в языках нету

https://huggingface.co/HuggingFaceTB/SmolLM3-3B

https://huggingface.co/blog/smollm3

Думаю самое интересное это почитать про сам трен
🔥9👍21
Forwarded from Attention Signs
Вышел Grok-4

По бенчмаркам SOTA, понятное дело, как обычно, в принципе. Его почти сразу завезли в курсор, поэтому я немного потыкался и поспрашивал.
В повседневном диалоге/математике/науке - действительно не плох, хоть я и мучал его совсем чуть-чуть.
А вот в коде - что-то очень странное. Во-первых, в курсоре у него закрыт CoT (видимо, он закрыт для всех по дефолту), но это даже не самое интересное, мы такое уже видели в линейке 'o' моделей от OpenAI.

1. Он уже несколько раз мне ничего не отвечал на промпт, только раздумывал что-то сам с собой. Но после того, как я спросил, почему он ничего не ответил, он извинялся и говорил так, будто оно так и должно было быть (т.к это часть шага)
2. Он не берется решать сразу проблему, а делает маленькие инкрементальные шаги, ожидая чего-то от меня (или, видимо, фидбек от системы) - например, при просьбе написать тесты, он пишет всего ОДНУ функцию и заканчивает turn, заставляя переспрашивать его снова.

(Примеры таких 'пустых' диалогов прилагаю к посту)

Это может наводить на мысли, что он обучался немного другому RL, либо у него, возможно, была целая среда, которая давала ему continuous feedback, вследствие чего тот научился делать постепенные небольшие шаги (или связке думать + бездействовать на этом шаге) в сторону правильного решения.

Я не берусь ничего утверждать, это просто догадки спустя 1,5ч использования модели. В общем и целом, пока что он мне не очень понравился, по крайней мере, как ассистент для кода. Там ещё ожидается специализированный grok-code, так что посмотрим, что будет там)
10👍4🔥2
Ну шьто, как вам грок 4 кто уже трогал?
🤔4
Пара приятных и полезных находок

Введение в диффузионки

Step-by-Step Diffusion: An Elementary Tutorial
https://arxiv.org/abs/2406.08929

И обзор методов скрытых рассуждений в ллмках (т.е. когда ллмы "рассуждают" не текстом в лицо, а во внутренних представлениях модельки)
В целом какие подходы бывают, как тренируют и про интерпретируемость

A Survey on Latent Reasoning
https://arxiv.org/abs/2507.06203
https://www.alphaxiv.org/ru/overview/2507.06203v1

https://github.com/multimodal-art-projection/LatentCoT-Horizon
18👍3🔥2
Агенты ИИ | AGI_and_RL
Челики которые недавно ллмный RL туда-сюда гоняли, пруверы тренили щас запустили агента https://www.kimi.com/ РЛьные (пусть и ллмные) делают стартапы и рвутся к бабкам, это хорошо https://moonshotai.github.io/Kimi-Researcher/ PS а мы проекты делаем и ИИнфу…
Как насчет опенсурсной агенточной модельки на 1Т параметров? Kimi K2

https://moonshotai.github.io/Kimi-K2/

https://huggingface.co/moonshotai/Kimi-K2-Instruct

https://huggingface.co/moonshotai/Kimi-K2-Base

https://github.com/MoonshotAI/Kimi-K2?tab=License-1-ov-file#readme

MOE с 32б активных параметров. Но все равно 1Т общих оч много
Но зато опенсурс и поэтому кайфуем. Еще и от челов которые RL над ллмками активно делают
Всем РЛьным респект всегда
😱43😢1
2025/07/13 02:33:47
Back to Top
HTML Embed Code: