HF выложили thinking модельку SmolLM3-3B и рассказывают как тюнили. Русского в языках нету
https://huggingface.co/HuggingFaceTB/SmolLM3-3B
https://huggingface.co/blog/smollm3
Думаю самое интересное это почитать про сам трен
https://huggingface.co/HuggingFaceTB/SmolLM3-3B
https://huggingface.co/blog/smollm3
Думаю самое интересное это почитать про сам трен
huggingface.co
SmolLM3: smol, multilingual, long-context reasoner
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥9👍2❤1
Forwarded from Attention Signs
Вышел Grok-4
По бенчмаркам SOTA, понятное дело, как обычно, в принципе. Его почти сразу завезли в курсор, поэтому я немного потыкался и поспрашивал.
В повседневном диалоге/математике/науке - действительно не плох, хоть я и мучал его совсем чуть-чуть.
А вот в коде - что-то очень странное. Во-первых, в курсоре у него закрыт CoT (видимо, он закрыт для всех по дефолту), но это даже не самое интересное, мы такое уже видели в линейке 'o' моделей от OpenAI.
1. Он уже несколько раз мне ничего не отвечал на промпт, только раздумывал что-то сам с собой. Но после того, как я спросил, почему он ничего не ответил, он извинялся и говорил так, будто оно так и должно было быть (т.к это часть шага)
2. Он не берется решать сразу проблему, а делает маленькие инкрементальные шаги, ожидая чего-то от меня (или, видимо, фидбек от системы) - например, при просьбе написать тесты, он пишет всего ОДНУ функцию и заканчивает turn, заставляя переспрашивать его снова.
(Примеры таких 'пустых' диалогов прилагаю к посту)
Это может наводить на мысли, что он обучался немного другому RL, либо у него, возможно, была целая среда, которая давала ему continuous feedback, вследствие чего тот научился делать постепенные небольшие шаги (или связке думать + бездействовать на этом шаге) в сторону правильного решения.
Я не берусь ничего утверждать, это просто догадки спустя 1,5ч использования модели. В общем и целом, пока что он мне не очень понравился, по крайней мере, как ассистент для кода. Там ещё ожидается специализированный grok-code, так что посмотрим, что будет там)
По бенчмаркам SOTA, понятное дело, как обычно, в принципе. Его почти сразу завезли в курсор, поэтому я немного потыкался и поспрашивал.
В повседневном диалоге/математике/науке - действительно не плох, хоть я и мучал его совсем чуть-чуть.
А вот в коде - что-то очень странное. Во-первых, в курсоре у него закрыт CoT (видимо, он закрыт для всех по дефолту), но это даже не самое интересное, мы такое уже видели в линейке 'o' моделей от OpenAI.
1. Он уже несколько раз мне ничего не отвечал на промпт, только раздумывал что-то сам с собой. Но после того, как я спросил, почему он ничего не ответил, он извинялся и говорил так, будто оно так и должно было быть (т.к это часть шага)
2. Он не берется решать сразу проблему, а делает маленькие инкрементальные шаги, ожидая чего-то от меня (или, видимо, фидбек от системы) - например, при просьбе написать тесты, он пишет всего ОДНУ функцию и заканчивает turn, заставляя переспрашивать его снова.
(Примеры таких 'пустых' диалогов прилагаю к посту)
Это может наводить на мысли, что он обучался немного другому RL, либо у него, возможно, была целая среда, которая давала ему continuous feedback, вследствие чего тот научился делать постепенные небольшие шаги (или связке думать + бездействовать на этом шаге) в сторону правильного решения.
Я не берусь ничего утверждать, это просто догадки спустя 1,5ч использования модели. В общем и целом, пока что он мне не очень понравился, по крайней мере, как ассистент для кода. Там ещё ожидается специализированный grok-code, так что посмотрим, что будет там)
❤10👍4🔥2
Пара приятных и полезных находок
Введение в диффузионки
Step-by-Step Diffusion: An Elementary Tutorial
https://arxiv.org/abs/2406.08929
И обзор методов скрытых рассуждений в ллмках (т.е. когда ллмы "рассуждают" не текстом в лицо, а во внутренних представлениях модельки)
В целом какие подходы бывают, как тренируют и про интерпретируемость
A Survey on Latent Reasoning
https://arxiv.org/abs/2507.06203
https://www.alphaxiv.org/ru/overview/2507.06203v1
https://github.com/multimodal-art-projection/LatentCoT-Horizon
Введение в диффузионки
Step-by-Step Diffusion: An Elementary Tutorial
https://arxiv.org/abs/2406.08929
И обзор методов скрытых рассуждений в ллмках (т.е. когда ллмы "рассуждают" не текстом в лицо, а во внутренних представлениях модельки)
В целом какие подходы бывают, как тренируют и про интерпретируемость
A Survey on Latent Reasoning
https://arxiv.org/abs/2507.06203
https://www.alphaxiv.org/ru/overview/2507.06203v1
https://github.com/multimodal-art-projection/LatentCoT-Horizon
arXiv.org
Step-by-Step Diffusion: An Elementary Tutorial
We present an accessible first course on diffusion models and flow matching for machine learning, aimed at a technical audience with no diffusion experience. We try to simplify the mathematical...
1❤8👍3🔥2
Агенты ИИ | AGI_and_RL
Челики которые недавно ллмный RL туда-сюда гоняли, пруверы тренили щас запустили агента https://www.kimi.com/ РЛьные (пусть и ллмные) делают стартапы и рвутся к бабкам, это хорошо https://moonshotai.github.io/Kimi-Researcher/ PS а мы проекты делаем и ИИнфу…
Как насчет опенсурсной агенточной модельки на 1Т параметров? Kimi K2
https://moonshotai.github.io/Kimi-K2/
https://huggingface.co/moonshotai/Kimi-K2-Instruct
https://huggingface.co/moonshotai/Kimi-K2-Base
https://github.com/MoonshotAI/Kimi-K2?tab=License-1-ov-file#readme
MOE с 32б активных параметров. Но все равно 1Т общих оч много
Но зато опенсурс и поэтому кайфуем. Еще и от челов которые RL над ллмками активно делают
Всем РЛьным респект всегда
https://moonshotai.github.io/Kimi-K2/
https://huggingface.co/moonshotai/Kimi-K2-Instruct
https://huggingface.co/moonshotai/Kimi-K2-Base
https://github.com/MoonshotAI/Kimi-K2?tab=License-1-ov-file#readme
MOE с 32б активных параметров. Но все равно 1Т общих оч много
Но зато опенсурс и поэтому кайфуем. Еще и от челов которые RL над ллмками активно делают
Всем РЛьным респект всегда
😱4❤3😢1