RND1: Simple, Scalable AR-to-Diffusion Conversion
TLDR: доучивают на 500б токенов(где то 0.1%) qwen 30bA3 на задачу генерации текста диффузией, а не AR
- сделали не сложный LR аблейшн
- по метрикам чуть хуже чем обычный
- по скорости тоже не прирастают потому что инференс не написали))
paper
github
blog
TLDR: доучивают на 500б токенов(где то 0.1%) qwen 30bA3 на задачу генерации текста диффузией, а не AR
- сделали не сложный LR аблейшн
- по метрикам чуть хуже чем обычный
- по скорости тоже не прирастают потому что инференс не написали))
paper
github
blog
❤🔥16😁14👍6💋2🍓1
MWS AI представила первую российскую мультимодальную модель Cotype VL
На форуме «Финополис-2025» компания MWS AI (входит в МТС Web Services) анонсировала свою первую мультимодальную модель — Cotype VL. Модель содержит 32 млрд параметров и умеет одновременно работать с изображениями и текстом.
Возможности модели:
• Распознавание печатного, рукописного и смешанного текста
• Анализ визуального контекста при переводе
• Создание описаний изображений разной детальности
• Ответы на сложные логические вопросы по содержанию изображений
• Работа со схемами, чертежами, картами и техническими иллюстрациями
Технические детали:
Модель инициализирована весами QwenVL 2.5 и дообучена на более чем 150 тыс. документов с визуальными данными из различных доменов: финансы, промышленность, IT, телеком и здравоохранение. В датасет вошли контракты, диаграммы, таблицы, схемы, рукописные конспекты, скриншоты интерфейсов и многое другое.
Поддерживает русский, английский, китайский и другие языки. Модель можно развернуть в закрытом контуре и дообучить на данных заказчика.
Генеральный директор MWS AI Денис Филиппов рассказал на форуме «Финополис-2025», что мультимодальные модели станут ключевым элементом для создания ИИ-помощников нового поколения, способных автономно взаимодействовать с интерфейсами корпоративных систем.
На форуме «Финополис-2025» компания MWS AI (входит в МТС Web Services) анонсировала свою первую мультимодальную модель — Cotype VL. Модель содержит 32 млрд параметров и умеет одновременно работать с изображениями и текстом.
Возможности модели:
• Распознавание печатного, рукописного и смешанного текста
• Анализ визуального контекста при переводе
• Создание описаний изображений разной детальности
• Ответы на сложные логические вопросы по содержанию изображений
• Работа со схемами, чертежами, картами и техническими иллюстрациями
Технические детали:
Модель инициализирована весами QwenVL 2.5 и дообучена на более чем 150 тыс. документов с визуальными данными из различных доменов: финансы, промышленность, IT, телеком и здравоохранение. В датасет вошли контракты, диаграммы, таблицы, схемы, рукописные конспекты, скриншоты интерфейсов и многое другое.
Поддерживает русский, английский, китайский и другие языки. Модель можно развернуть в закрытом контуре и дообучить на данных заказчика.
Генеральный директор MWS AI Денис Филиппов рассказал на форуме «Финополис-2025», что мультимодальные модели станут ключевым элементом для создания ИИ-помощников нового поколения, способных автономно взаимодействовать с интерфейсами корпоративных систем.
1💩69😁44👍23💊12 8🥱4 3🤔2❤🔥1💋1
Self-Adapting Language Models
Тут авторы придумывают что надо на лету генерировать синтетику по вопросам + ответами, оценивать через более умную модель/gt и потом рлится на этом. Авторы репортят что такая дистиляция позволяет докинуть метрик к QA
https://jyopari.github.io/posts/seal
https://github.com/Continual-Intelligence
Тут авторы придумывают что надо на лету генерировать синтетику по вопросам + ответами, оценивать через более умную модель/gt и потом рлится на этом. Авторы репортят что такая дистиляция позволяет докинуть метрик к QA
https://jyopari.github.io/posts/seal
https://github.com/Continual-Intelligence
🔥27😁8👍6❤🔥1💔1💋1 1
This media is not supported in your browser
VIEW IN TELEGRAM
На больших масштабах моделей с архитектурой MoE мы наблюдаем, что GB200 NVL72 FP4 примерно в 10 раз энергоэффективнее, чем H200 FP8 в режиме single node при определённой интерактивности (tok/s/user).
Мы планируем реализовать disaggregated prefill и multinode wide expert parallelism на H100/H200, чтобы оценить, какой будет прирост энергоэффективности между GB200 и H200 после внедрения этих оптимизаций.
Ожидается, что разрыв по энергоэффективности сократится до 4–6 раз после реализации на Hopper, что всё равно остаётся отличным показателем.
Мы планируем реализовать disaggregated prefill и multinode wide expert parallelism на H100/H200, чтобы оценить, какой будет прирост энергоэффективности между GB200 и H200 после внедрения этих оптимизаций.
Ожидается, что разрыв по энергоэффективности сократится до 4–6 раз после реализации на Hopper, что всё равно остаётся отличным показателем.
💊33😁20👍3 2❤🔥1🔥1💔1💋1
US AI labs: мы изобретаем новый финасовый инструмент, вкладываем триллионы долларов чтобы буквально построить бога из машины
Chinese Ai labs: китайский openai, такие же бюджеты, все в опенсурс
Europe: мы построим суверенный ии за зарплату +- одного топового ресерчера из меты
Eastern Europe Ai labs: суверенный файнтюн квена на болгарский
Chinese Ai labs: китайский openai, такие же бюджеты, все в опенсурс
Europe: мы построим суверенный ии за зарплату +- одного топового ресерчера из меты
Eastern Europe Ai labs: суверенный файнтюн квена на болгарский
😁200 37🔥8 4🐳2❤🔥1😢1💯1💔1💋1
Forwarded from Канал Респекта и Уважухи 2.0
This media is not supported in your browser
VIEW IN TELEGRAM
😁41💩22😡6 3
HF_ULTRASCALE_PLAYBOOK.pdf
10.6 MB
HF книжка по megatron, fsdp и прочему для обучения реально больших моделей
🔥49❤🔥6💋2💔1
мамба3
открыл папир мамба3, промотал на таблицу с метриками, как и у всех убийц трансформеров ситуация такая же - микромодель, приросты на несколько пунктов, ненасыщенный претрейн(100B токенов не очень много для 1.5b трансформера)
Переводя на человеческий - авторы пошли по классическому "давайте найдем сетап где это будет работать"
Закрыл, пошел листать имплементацию deepseek 3.2
полистать
открыл папир мамба3, промотал на таблицу с метриками, как и у всех убийц трансформеров ситуация такая же - микромодель, приросты на несколько пунктов, ненасыщенный претрейн(100B токенов не очень много для 1.5b трансформера)
Переводя на человеческий - авторы пошли по классическому "давайте найдем сетап где это будет работать"
Закрыл, пошел листать имплементацию deepseek 3.2
полистать
😁79🔥7🤷♂5
Forwarded from download more GPUs
This media is not supported in your browser
VIEW IN TELEGRAM
Ладно задушил задушил
1🔥47 4❤🔥3😁2
Love. Death. Transformers.
Hold my beer
У меня была в предзвказе охрененно понтовая открывалка для пива. Потому что иначе я не понимаю зачем ещё оно нужнл
🔥48😁19 12🍓5🐳1
⚪️ White Circle
Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома
Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
-🍴 80-150к USD
Вакансии:
1. FullStack Engineer
Typescript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse
2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton
3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас
📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома
Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
-
Вакансии:
1. FullStack Engineer
Typescript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse
2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton
3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас
📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
Please open Telegram to view this post
VIEW IN TELEGRAM
😁46 17💩11😐7🌚1🙉1
Forwarded from стоптайм (Саша Пух)
привет, интернет!🤯
(я это снова сказал )
у вас возникнет вопрос - что это такое и кто мы вообще такие?
мы - музыкальная группа из Питера
🕡 🕢 🕞 🕟 🕢 🕐 🕘 🕛
этот телеграмм-канал создан для любителей того, что мы играем, и хорошего настроения😘
давайте познакомимся:
🌟 Диана/наоко/Наоке — что-то делает с микрофоном и бьет по какому-то пианино ⭐
🌟 Саша — делает рукой вверх-вниз по струнам и иногда втирает Вам какую-то дичь 😊
🌟 Влад - бом-бом, тук-тук и готово
🌟 Аня - собирает дань, ну и просто пообщаться с ней можно🌟
🌟 Максимилиан - следит за ваших поведением и прописывает баны. простой модератор
🌟 Арсений - наш штатный человечек с фоторужьем
если вы уже подписались на этот телеграм-канал - значит, мы уже вам чем-то понравились, поэтому то, что здесь будет, я думаю вам объяснять не стоит
наша авторская песня
наши основные соц-сети:
🌟 тгк Stoptime_Band
🎀 тт naokooomusic
🎀 инст naokooomusic
🎀 тт Влада vladislove077
кидайте все фотки и видео, которые наделали, в комменты под постами🐧
тон-кошелек в телеграмме:
поддержать нас из-за рубежа:
временно убрали donationalents
https://boosty.to/stoptime_band/donate (лучше сюда, потом его будем полноценно вести)
по вопросам сотрудничества писать – @nikogdanever
а еще рекомендуем изучить правила чата, чтобы не возникало недопониманий🐤
🕰 сегодня время остановится…
(
у вас возникнет вопрос - что это такое и кто мы вообще такие?
мы - музыкальная группа из Питера
этот телеграмм-канал создан для любителей того, что мы играем, и хорошего настроения
давайте познакомимся:
если вы уже подписались на этот телеграм-канал - значит, мы уже вам чем-то понравились, поэтому то, что здесь будет, я думаю вам объяснять не стоит
наша авторская песня
наши основные соц-сети:
кидайте все фотки и видео, которые наделали, в комменты под постами
тон-кошелек в телеграмме:
UQD9XogN7Y489OzWHO7BopH5_kSzJ_uI-CkfCexo-kLS9QHX
поддержать нас из-за рубежа:
временно убрали donationalents
https://boosty.to/stoptime_band/donate (лучше сюда, потом его будем полноценно вести)
по вопросам сотрудничества писать – @nikogdanever
а еще рекомендуем изучить правила чата, чтобы не возникало недопониманий
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52💩32💔24🤔2😨2💊2🥱1
челам за песню 14 суток дали, го завалим их деньгами чтобы хотя бы деньгами помочь.
👍139💩96❤🔥22🥴9 4 3💊1
The Art of Scaling Reinforcement Learning
Compute for LLMs
Показывают варианты масштабирования rl для llmов. + Смотрят разные варианты rewardов, разные варианты grpo, влияние разных типов данных (lmhead лучше держать в fp32)
https://arxiv.org/pdf/2510.13786
Compute for LLMs
Показывают варианты масштабирования rl для llmов. + Смотрят разные варианты rewardов, разные варианты grpo, влияние разных типов данных (lmhead лучше держать в fp32)
https://arxiv.org/pdf/2510.13786
👍13🔥4