Telegram Web
из SSI уволился Даниэль Гросс (я на самом деле хз кто это)
А Илья теперь гендир SSI
У них есть вычислительная техника кстати.

https://x.com/ilyasut/status/1940802278979690613
😁11🥴4👍21
жесть модельки деграднули за 5 лет
😁11🥰6👍1🤔1
Челики которые недавно ллмный RL туда-сюда гоняли, пруверы тренили
щас запустили агента https://www.kimi.com/
РЛьные (пусть и ллмные) делают стартапы и рвутся к бабкам, это хорошо

https://moonshotai.github.io/Kimi-Researcher/

PS а мы проекты делаем и ИИнфу собираем в https://www.tgoop.com/researchim
👍42
Короче ребятки, если вы на ютубе в шортсах видели как Владимир Сурдин и Алексей Семихатов разговаривают за всякое науковое, но при этом не могли найти ориг, то это канал https://www.youtube.com/@vselennayaplus
Я вот сам только что нашел

Не то что не мог найти ориг, просто щас впервые решил его найти
👍142🔥1💩1
Есть такая головоломка "Баба - это ты" (эххехех)
https://store.steampowered.com/app/736260/Baba_Is_You/
Как я понял там на уровнях есть блоки с которыми надо взаимодействовать (толкать, останавливать, управлять им, победить) чтобы этот уровень пройти до конца. От разных блоков правила мира могут меняться.
По отзывам в стиме ощущается что игра людям заходит и кажется довольно сложной

Выглядит как бенчмарк.
Подключили к ней Клод 4 по MCP.
Клод смог пройти 0 уровень. Как я понимаю там надо было 8 раз направо двинуться.
А больше ничего не смог
Конец

https://fi-le.net/baba/
15😁9
Челы собрали мультиагентного бота для генерации cuda кернелов. Пишут что хорошо получилось

Один агент кернелы писал, другой компилил, третий дебагал

Бота не дают. Кернелы дают
https://github.com/Lossfunk/Flash-Kernels

Почитать
https://letters.lossfunk.com/p/how-many-agents-does-it-take-to-beat
12👍1
Есть такой проект https://github.com/vosen/ZLUDA
Там челы переносят CUDA на другие гпушки

Я про них чот давно не слышал, думал заглохли.
А оказывается что живы, у них команда удвоилась недавно + начали работу по переносу PhysX

Но пока еще там активная разработка и вряд ли что-то полезное будет работать.
Но было интересно узнать что проект живет

https://vosen.github.io/ZLUDA/blog/zluda-update-q2-2025/
👍134🔥1
Хм. Соглы.
Го все виброкодировать RL среды
Уже давно этим занимаюсь

Виброкодируем тут https://www.tgoop.com/researchim
🤣24👍41👎1
Челы из Allen AI сделали бенчмарк по саенсу
Пишешь запрос, там внутри достается контекст из релевантных статеек и по нему моделька отвечает пользователю

Дипсик R1 0528 на 4 месте, хорошая (а главное опенсурсная) моделька
o3 из тестируемых лучшая, тут понятно

https://allenai.org/blog/sciarena

лидерборд
https://sciarena.allen.ai/

Код евала
https://github.com/yale-nlp/SciArena

Данные
https://huggingface.co/datasets/yale-nlp/SciArena

Можно и самим вопросики позадавать и пооценивать
👍3
Кстати тоже все хотел сделать как-нить подборку РЛ челов и стартапов. Все руки не дойдут

Пока можно тут почитать
https://www.chemistry.vc/post/rl-reigns-supreme

Из тех что выше вижу часто мелькают Thinking Machines и OpenPipe

PS высвобождаем и делаем потихоньку в https://www.tgoop.com/researchim
🔥64👍1
HF выложили thinking модельку SmolLM3-3B и рассказывают как тюнили. Русского в языках нету

https://huggingface.co/HuggingFaceTB/SmolLM3-3B

https://huggingface.co/blog/smollm3

Думаю самое интересное это почитать про сам трен
🔥9👍21
Forwarded from Attention Signs
Вышел Grok-4

По бенчмаркам SOTA, понятное дело, как обычно, в принципе. Его почти сразу завезли в курсор, поэтому я немного потыкался и поспрашивал.
В повседневном диалоге/математике/науке - действительно не плох, хоть я и мучал его совсем чуть-чуть.
А вот в коде - что-то очень странное. Во-первых, в курсоре у него закрыт CoT (видимо, он закрыт для всех по дефолту), но это даже не самое интересное, мы такое уже видели в линейке 'o' моделей от OpenAI.

1. Он уже несколько раз мне ничего не отвечал на промпт, только раздумывал что-то сам с собой. Но после того, как я спросил, почему он ничего не ответил, он извинялся и говорил так, будто оно так и должно было быть (т.к это часть шага)
2. Он не берется решать сразу проблему, а делает маленькие инкрементальные шаги, ожидая чего-то от меня (или, видимо, фидбек от системы) - например, при просьбе написать тесты, он пишет всего ОДНУ функцию и заканчивает turn, заставляя переспрашивать его снова.

(Примеры таких 'пустых' диалогов прилагаю к посту)

Это может наводить на мысли, что он обучался немного другому RL, либо у него, возможно, была целая среда, которая давала ему continuous feedback, вследствие чего тот научился делать постепенные небольшие шаги (или связке думать + бездействовать на этом шаге) в сторону правильного решения.

Я не берусь ничего утверждать, это просто догадки спустя 1,5ч использования модели. В общем и целом, пока что он мне не очень понравился, по крайней мере, как ассистент для кода. Там ещё ожидается специализированный grok-code, так что посмотрим, что будет там)
10👍4🔥2
Ну шьто, как вам грок 4 кто уже трогал?
🤔4
Пара приятных и полезных находок

Введение в диффузионки

Step-by-Step Diffusion: An Elementary Tutorial
https://arxiv.org/abs/2406.08929

И обзор методов скрытых рассуждений в ллмках (т.е. когда ллмы "рассуждают" не текстом в лицо, а во внутренних представлениях модельки)
В целом какие подходы бывают, как тренируют и про интерпретируемость

A Survey on Latent Reasoning
https://arxiv.org/abs/2507.06203
https://www.alphaxiv.org/ru/overview/2507.06203v1

https://github.com/multimodal-art-projection/LatentCoT-Horizon
18👍3🔥2
Агенты ИИ | AGI_and_RL
Челики которые недавно ллмный RL туда-сюда гоняли, пруверы тренили щас запустили агента https://www.kimi.com/ РЛьные (пусть и ллмные) делают стартапы и рвутся к бабкам, это хорошо https://moonshotai.github.io/Kimi-Researcher/ PS а мы проекты делаем и ИИнфу…
Как насчет опенсурсной агенточной модельки на 1Т параметров? Kimi K2

https://moonshotai.github.io/Kimi-K2/

https://huggingface.co/moonshotai/Kimi-K2-Instruct

https://huggingface.co/moonshotai/Kimi-K2-Base

https://github.com/MoonshotAI/Kimi-K2?tab=License-1-ov-file#readme

MOE с 32б активных параметров. Но все равно 1Т общих оч много
Но зато опенсурс и поэтому кайфуем. Еще и от челов которые RL над ллмками активно делают
Всем РЛьным респект всегда
😱43😢1
2025/07/12 11:24:12
Back to Top
HTML Embed Code: