Агенты ИИ | AGI_and_RL - Telegram Web

Агенты ИИ | AGI_and_RL

из SSI уволился Даниэль Гросс (я на самом деле хз кто это)
А Илья теперь гендир SSI
У них есть вычислительная техника кстати.

https://x.com/ilyasut/status/1940802278979690613

😁11🥴4👍2❤1

1.63K views10:55

Агенты ИИ | AGI_and_RL

жесть модельки деграднули за 5 лет

😁11🥰6👍1🤔1

1.61K views13:51

Агенты ИИ | AGI_and_RL

Челики которые недавно ллмный RL туда-сюда гоняли, пруверы тренили
щас запустили агента https://www.kimi.com/
РЛьные (пусть и ллмные) делают стартапы и рвутся к бабкам, это хорошо

https://moonshotai.github.io/Kimi-Researcher/

PS а мы проекты делаем и ИИнфу собираем в https://www.tgoop.com/researchim

👍4❤2

1.53K viewsedited 14:16

Агенты ИИ | AGI_and_RL

Короче ребятки, если вы на ютубе в шортсах видели как Владимир Сурдин и Алексей Семихатов разговаривают за всякое науковое, но при этом не могли найти ориг, то это канал https://www.youtube.com/@vselennayaplus
Я вот сам только что нашел

Не то что не мог найти ориг, просто щас впервые решил его найти

Вселенная Плюс

Где-то в параллельной вселенной физик Алексей Семихатов и астроном Владимир Сурдин беседуют о том, как устроен мир вокруг нас.
И иногда, чтобы разобраться лучше, приглашают представителей других областей знания.

Телеграм-канал проекта "Вселенная Плюс": …

👍14❤2🔥1💩1

1.43K viewsedited 07:32

Агенты ИИ | AGI_and_RL

Есть такая головоломка "Баба - это ты" (эххехех)
https://store.steampowered.com/app/736260/Baba_Is_You/
Как я понял там на уровнях есть блоки с которыми надо взаимодействовать (толкать, останавливать, управлять им, победить) чтобы этот уровень пройти до конца. От разных блоков правила мира могут меняться.
По отзывам в стиме ощущается что игра людям заходит и кажется довольно сложной

Выглядит как бенчмарк.
Подключили к ней Клод 4 по MCP.
Клод смог пройти 0 уровень. Как я понимаю там надо было 8 раз направо двинуться.
А больше ничего не смог
Конец

https://fi-le.net/baba/

❤15😁9

1.62K viewsedited 11:47

Агенты ИИ | AGI_and_RL

Челы собрали мультиагентного бота для генерации cuda кернелов. Пишут что хорошо получилось

Один агент кернелы писал, другой компилил, третий дебагал

Бота не дают. Кернелы дают
https://github.com/Lossfunk/Flash-Kernels

Почитать
https://letters.lossfunk.com/p/how-many-agents-does-it-take-to-beat

❤12👍1

1.64K viewsedited 13:21

Агенты ИИ | AGI_and_RL

Есть такой проект https://github.com/vosen/ZLUDA
Там челы переносят CUDA на другие гпушки

Я про них чот давно не слышал, думал заглохли.
А оказывается что живы, у них команда удвоилась недавно + начали работу по переносу PhysX

Но пока еще там активная разработка и вряд ли что-то полезное будет работать.
Но было интересно узнать что проект живет

https://vosen.github.io/ZLUDA/blog/zluda-update-q2-2025/

GitHub - vosen/ZLUDA: CUDA on non-NVIDIA GPUs

CUDA on non-NVIDIA GPUs. Contribute to vosen/ZLUDA development by creating an account on GitHub.

👍13❤4🔥1

1.66K views09:21

Агенты ИИ | AGI_and_RL

Хм. Соглы.
Го все виброкодировать RL среды
Уже давно этим занимаюсь

Виброкодируем тут https://www.tgoop.com/researchim

🤣24👍4❤1👎1

1.53K viewsedited 11:24

Агенты ИИ | AGI_and_RL

Эм. Тут говорят что АИ рисечеры кто делает $10-$100 мультов играет в доту
Верим?
https://analyticsindiamag.com/ai-features/every-single-ai-researcher-making-10-100-million-is-a-dota-2-player/

Analytics India Magazine

‘Every Single AI Researcher Making $10-100 Million is a Dota 2 Player’ | AIM

If you’re wondering what separates a $200,000 AI engineer from a $10 million one, check their Steam profile, not GitHub.

🤔14😁6❤4💩3💯1

1.67K views19:47

Агенты ИИ | AGI_and_RL

Челы из Allen AI сделали бенчмарк по саенсу
Пишешь запрос, там внутри достается контекст из релевантных статеек и по нему моделька отвечает пользователю

Дипсик R1 0528 на 4 месте, хорошая (а главное опенсурсная) моделька
o3 из тестируемых лучшая, тут понятно

https://allenai.org/blog/sciarena

лидерборд
https://sciarena.allen.ai/

Код евала
https://github.com/yale-nlp/SciArena

Данные
https://huggingface.co/datasets/yale-nlp/SciArena

Можно и самим вопросики позадавать и пооценивать

👍3

1.29K views17:40

Агенты ИИ | AGI_and_RL

В любой момент времени можно скинуть лучший конспект по RLю на русском

https://arxiv.org/abs/2201.09746

Reinforcement Learning Textbook

This textbook covers principles behind main modern deep reinforcement learning algorithms that achieved breakthrough results in many domains from game AI to robotics. All required theory is...

❤18👍6🔥3

1.4K viewsedited 17:45

Агенты ИИ | AGI_and_RL

Кстати тоже все хотел сделать как-нить подборку РЛ челов и стартапов. Все руки не дойдут

Пока можно тут почитать
https://www.chemistry.vc/post/rl-reigns-supreme

Из тех что выше вижу часто мелькают Thinking Machines и OpenPipe

PS высвобождаем и делаем потихоньку в https://www.tgoop.com/researchim

🔥6❤4👍1

1.18K viewsedited 16:29

Агенты ИИ | AGI_and_RL

HF выложили thinking модельку SmolLM3-3B и рассказывают как тюнили. Русского в языках нету

https://huggingface.co/HuggingFaceTB/SmolLM3-3B

https://huggingface.co/blog/smollm3

Думаю самое интересное это почитать про сам трен

SmolLM3: smol, multilingual, long-context reasoner

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥9👍2❤1

1.23K views19:00

Агенты ИИ | AGI_and_RL

Forwarded from Attention Signs

Вышел Grok-4

По бенчмаркам SOTA, понятное дело, как обычно, в принципе. Его почти сразу завезли в курсор, поэтому я немного потыкался и поспрашивал.
В повседневном диалоге/математике/науке - действительно не плох, хоть я и мучал его совсем чуть-чуть.
А вот в коде - что-то очень странное. Во-первых, в курсоре у него закрыт CoT (видимо, он закрыт для всех по дефолту), но это даже не самое интересное, мы такое уже видели в линейке 'o' моделей от OpenAI.

1. Он уже несколько раз мне ничего не отвечал на промпт, только раздумывал что-то сам с собой. Но после того, как я спросил, почему он ничего не ответил, он извинялся и говорил так, будто оно так и должно было быть (т.к это часть шага)
2. Он не берется решать сразу проблему, а делает маленькие инкрементальные шаги, ожидая чего-то от меня (или, видимо, фидбек от системы) - например, при просьбе написать тесты, он пишет всего ОДНУ функцию и заканчивает turn, заставляя переспрашивать его снова.

(Примеры таких 'пустых' диалогов прилагаю к посту)

Это может наводить на мысли, что он обучался немного другому RL, либо у него, возможно, была целая среда, которая давала ему continuous feedback, вследствие чего тот научился делать постепенные небольшие шаги (или связке думать + бездействовать на этом шаге) в сторону правильного решения.

Я не берусь ничего утверждать, это просто догадки спустя 1,5ч использования модели. В общем и целом, пока что он мне не очень понравился, по крайней мере, как ассистент для кода. Там ещё ожидается специализированный grok-code, так что посмотрим, что будет там)

❤10👍4🔥2

989 views12:47

Агенты ИИ | AGI_and_RL

Ну шьто, как вам грок 4 кто уже трогал?

🤔4

1.02K views12:47

Агенты ИИ | AGI_and_RL

Пара приятных и полезных находок

Введение в диффузионки

Step-by-Step Diffusion: An Elementary Tutorial
https://arxiv.org/abs/2406.08929

И обзор методов скрытых рассуждений в ллмках (т.е. когда ллмы "рассуждают" не текстом в лицо, а во внутренних представлениях модельки)
В целом какие подходы бывают, как тренируют и про интерпретируемость

A Survey on Latent Reasoning
https://arxiv.org/abs/2507.06203
https://www.alphaxiv.org/ru/overview/2507.06203v1

https://github.com/multimodal-art-projection/LatentCoT-Horizon

Step-by-Step Diffusion: An Elementary Tutorial

We present an accessible first course on diffusion models and flow matching for machine learning, aimed at a technical audience with no diffusion experience. We try to simplify the mathematical...

1❤8👍3🔥2

955 views15:18

Агенты ИИ | AGI_and_RL

Агенты ИИ | AGI_and_RL

Челики которые недавно ллмный RL туда-сюда гоняли, пруверы тренили щас запустили агента https://www.kimi.com/ РЛьные (пусть и ллмные) делают стартапы и рвутся к бабкам, это хорошо https://moonshotai.github.io/Kimi-Researcher/ PS а мы проекты делаем и ИИнфу…

Как насчет опенсурсной агенточной модельки на 1Т параметров? Kimi K2

https://moonshotai.github.io/Kimi-K2/

https://huggingface.co/moonshotai/Kimi-K2-Instruct

https://huggingface.co/moonshotai/Kimi-K2-Base

https://github.com/MoonshotAI/Kimi-K2?tab=License-1-ov-file#readme

MOE с 32б активных параметров. Но все равно 1Т общих оч много
Но зато опенсурс и поэтому кайфуем. Еще и от челов которые RL над ллмками активно делают
Всем РЛьным респект всегда

😱4❤3😢1

815 viewsedited 16:18

2025/07/12 11:24:12
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>