Агенты ИИ | AGI_and_RL 1167

В любой момент времени можно скинуть лучший конспект по RLю на русском

https://arxiv.org/abs/2201.09746

This textbook covers principles behind main modern deep reinforcement learning algorithms that achieved breakthrough results in many domains from game AI to robotics. All required theory is...

❤18👍6🔥3

1.42K viewsedited 17:45

Агенты ИИ | AGI_and_RL

Кстати тоже все хотел сделать как-нить подборку РЛ челов и стартапов. Все руки не дойдут

Пока можно тут почитать
https://www.chemistry.vc/post/rl-reigns-supreme

Из тех что выше вижу часто мелькают Thinking Machines и OpenPipe

PS высвобождаем и делаем потихоньку в https://www.tgoop.com/researchim

🔥6❤4👍1

1.2K viewsedited 16:29

Агенты ИИ | AGI_and_RL

HF выложили thinking модельку SmolLM3-3B и рассказывают как тюнили. Русского в языках нету

https://huggingface.co/HuggingFaceTB/SmolLM3-3B

https://huggingface.co/blog/smollm3

Думаю самое интересное это почитать про сам трен

huggingface.co

SmolLM3: smol, multilingual, long-context reasoner

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥9👍2❤1

1.25K views19:00

Агенты ИИ | AGI_and_RL

Forwarded from Attention Signs

Вышел Grok-4

По бенчмаркам SOTA, понятное дело, как обычно, в принципе. Его почти сразу завезли в курсор, поэтому я немного потыкался и поспрашивал.
В повседневном диалоге/математике/науке - действительно не плох, хоть я и мучал его совсем чуть-чуть.
А вот в коде - что-то очень странное. Во-первых, в курсоре у него закрыт CoT (видимо, он закрыт для всех по дефолту), но это даже не самое интересное, мы такое уже видели в линейке 'o' моделей от OpenAI.

1. Он уже несколько раз мне ничего не отвечал на промпт, только раздумывал что-то сам с собой. Но после того, как я спросил, почему он ничего не ответил, он извинялся и говорил так, будто оно так и должно было быть (т.к это часть шага)
2. Он не берется решать сразу проблему, а делает маленькие инкрементальные шаги, ожидая чего-то от меня (или, видимо, фидбек от системы) - например, при просьбе написать тесты, он пишет всего ОДНУ функцию и заканчивает turn, заставляя переспрашивать его снова.

(Примеры таких 'пустых' диалогов прилагаю к посту)

Это может наводить на мысли, что он обучался немного другому RL, либо у него, возможно, была целая среда, которая давала ему continuous feedback, вследствие чего тот научился делать постепенные небольшие шаги (или связке думать + бездействовать на этом шаге) в сторону правильного решения.

Я не берусь ничего утверждать, это просто догадки спустя 1,5ч использования модели. В общем и целом, пока что он мне не очень понравился, по крайней мере, как ассистент для кода. Там ещё ожидается специализированный grok-code, так что посмотрим, что будет там)

❤10👍4🔥2

1.01K views12:47

Агенты ИИ | AGI_and_RL

Ну шьто, как вам грок 4 кто уже трогал?

🤔4

1.05K views12:47

Агенты ИИ | AGI_and_RL

Пара приятных и полезных находок

Введение в диффузионки

Step-by-Step Diffusion: An Elementary Tutorial
https://arxiv.org/abs/2406.08929

И обзор методов скрытых рассуждений в ллмках (т.е. когда ллмы "рассуждают" не текстом в лицо, а во внутренних представлениях модельки)
В целом какие подходы бывают, как тренируют и про интерпретируемость

A Survey on Latent Reasoning
https://arxiv.org/abs/2507.06203
https://www.alphaxiv.org/ru/overview/2507.06203v1

https://github.com/multimodal-art-projection/LatentCoT-Horizon

arXiv.org

Step-by-Step Diffusion: An Elementary Tutorial

We present an accessible first course on diffusion models and flow matching for machine learning, aimed at a technical audience with no diffusion experience. We try to simplify the mathematical...

1❤8👍3🔥2

983 views15:18

Агенты ИИ | AGI_and_RL

Челики которые недавно ллмный RL туда-сюда гоняли, пруверы тренили щас запустили агента https://www.kimi.com/ РЛьные (пусть и ллмные) делают стартапы и рвутся к бабкам, это хорошо https://moonshotai.github.io/Kimi-Researcher/ PS а мы проекты делаем и ИИнфу…

Как насчет опенсурсной агенточной модельки на 1Т параметров? Kimi K2

https://moonshotai.github.io/Kimi-K2/

https://huggingface.co/moonshotai/Kimi-K2-Instruct

https://huggingface.co/moonshotai/Kimi-K2-Base

https://github.com/MoonshotAI/Kimi-K2?tab=License-1-ov-file#readme

MOE с 32б активных параметров. Но все равно 1Т общих оч много
Но зато опенсурс и поэтому кайфуем. Еще и от челов которые RL над ллмками активно делают
Всем РЛьным респект всегда

😱4❤3😢1

893 viewsedited 16:18

2025/07/13 02:33:47
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>