Telegram Web
🔥 Lumina-mGPT 2.0 (от Alpha-VLLM): семейство мультимодальных авторегрессионных моделей, разработанных для визуальных и текстовых задач.

Это передовая модель для генерации изображений, построенная по принципу авторегрессионных моделей только с декодером (decoder-only), архитектурно схожая с тем, как работают большие языковые модели вроде GPT (и конкретно сравниваемая с подходом к изображениям в GPT-4o).

Это означает, что она генерирует изображение последовательно (как текст), потенциально используя мощные возможности представления и понимания мира, присущие современным LLM.

Функции:
-Text-to-Image (t2i): Генерация изображений по текстовому описанию.

- Редактирование изображений: Модификация существующих изображений на основе инструкций.

- Контролируемая генерация: Управление генерацией с помощью дополнительных входных данных (аналогично ControlNet).

Разработчики заявляют, что модель включает все функции ControlNet. своей архитектуре.

Модель спроектирована как самостоятельное решение, а не как дополнение к другим системам и по сути это альтернатива доминирующим диффузионным моделям.

Авторегрессионные модели хороши в сохранении контекста и последовательности. Это может (теоретически) лучше подходить для генерации изображений, требующих сложной внутренней логики или повествования.

🟡Github
🟡Checkpoints

@ai_machinelearning_big_data


#Lumina #texttoimage #autoregressive
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3313🔥10
✔️ OpenRouterAI представила бесплатную модель Quasar Alpha.

OpenRouterAI объявила о предварительном выпуске своей первой мультимодальной модели - Quasar Alpha, с длиной контекста в 1 млн. токенов. Модель оптимизирована для задач программирования, но в то же время подходит для общих NLP-задач.

Модель 55% на бенчмарке aider. Это сопоставимо с o3-mini-medium, последним DeepSeek V3 и старым Sonnet 3.6. Главная фишка - Quasar Alpha работает невероятно быстро.

Quasar Alpha доступна бесплатно, ее анонс вызвал интерес в ИИ-сообществе, где пытаются предположить, какая лаборатория стоит за разработкой этой модели.

Модель называет себя ChatGPT

🟡Quasar Alpha
🟡Попробовать
🟡OpenRouterAI в X (ex-Twitter)
🟡Aider LLM Leaderboards

@ai_machinelearning_big_data


#quasar #chatgpt ? #release
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49🔥178
✔️ Microsoft расширила возможности Copilot.

Microsoft анонсировала масштабное обновление Copilot, добавив функции, которые делают его по-настоящему персональным. Теперь Copilot запоминает детали из жизни пользователя: от предпочтений в еде до рабочих проектов — благодаря системе «Память».

Другая новинка - «Copilot Vision»: ИИ теперь «видит» через камеру смартфона или экран Windows 11, анализируя окружение в реальном времени. На ПК Copilot интегрируется с приложениями, помогая искать файлы, настраивать параметры и работать в многозадачном режиме через голосовые команды.

Добавлены веб-действия: бронирование столиков, покупка билетов или подарков через партнерские сервисы Booking.com и OpenTable. А с функцией Deep Research Copilot за минуты проведет сложный анализ данных, экономя часы рутинной работы.

Обновления уже доступны для iOS, Android и Windows.
blogs.microsoft.com

✔️ Llama 4 может быть выпущена в конце апреля, но это не точно.

Команда разработки Llama рассматривает возможность очередной отсрочки выпуска своей новой модели, который уже неоднократно переносился из-за проблем с производительностью.

Компания планирует выпустить Llama 4 в конце этого месяца, но источники сообщают, что она может снова перенести дату, поскольку модель не оправдала ожиданий в задачах на рассуждение и математику.
theinformation.com

✔️ OpenAI: o3 и o4-mini выйдут через пару недель, GPT-5 отложили.

Сэм Альтман сообщил, что o3 и его «упрощённый» наследник o4-mini появятся уже через пару недель. Причина — задержка GPT-5, которую решили улучшить «сильнее, чем планировали». OpenAI признали: интеграция голосовых функций, поиска и глубокого ризонинга оказалась сложнее, чем предполагалось, а серверам компании нужно выдержать беспрецедентную нагрузку от недавнего релиза генератора изображений.

GPT-5, которую теперь ждут через несколько месяцев, предложит три уровня доступа: базовый — с ограничениями, Plus — повышенный интеллект, а Pro — максимальные возможности. Модель объединит все инструменты ChatGPT, включая Canvas и Deep Research.
Sam Altman в X (ex-Twitter)

✔️Rolmocr - новая SOTA OCR с лицензией Apache 2.0.

Собрана на базе Qwen 2.5 VL
В модели не используются метаданные, извлеченные из PDF-файлов. Это значительно сокращает длину запроса, что, в свою очередь, снижает время обработки и потребление VRAM - без ущерба для точности.
HF

✔️ GitHub вводит премиум-тариф за Copilot.

GitHub объявил о введении новых лимитов и ценовой модели для сервиса Copilot, который теперь включает плату за "премиальные" ИИ-модели. Это изменение введет ограничения на тарифы для пользователей, которые переходят с базовой модели GPT-4o на другие модели ИИ.

Ожидается, что новая структура ценообразования повлияет на пользовательский опыт, особенно для тех, кто ранее полагался на бесплатный доступ к расширенным возможностям.
github.blog

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3720🔥8💋1
Media is too big
VIEW IN TELEGRAM
🥹 Pokemon Gym — среда для обучения агентов игре Pokémon Red/Blue.

Интерфейс, похожна стандартные среды RL (например, OpenAI Gym/Gymnasium), но адаптированный для игры Pokémon Red/Blue.

Если хотите позалипать на выходных и попробовать различные RL-алгоритмы для обучения Ai игре в покемонов.

В основе лежит эмулятор Game Boy, реализованный на Python — библиотека pyboy.

Основная цель — создать и обучить ИИ-агентов, способных самостоятельно играть в Pokémon: исследовать мир, ловить покемонов, тренировать их, сражаться с другими тренерами и проходить игру.

Игроку любителю потребуется ~400 шагов, чтобы поймать первого покемона, Клоду 3.7 понадобилось ~450 🤗

🔗 Github

@ai_machinelearning_big_data


#AIagents #ml #ai #opengym
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4913🔥9🤨3
🦙 Встречайте, дамы и господа, LLaMA 4: новые мультимодальные MoE модели!

Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.

Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.

Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров · 16 эксперто , 109B общих параметров.

Llama 4 Maverick (400B) 17 млрд активных параметров ,128 экспертов, 400 млрд общих параметров · Длина контекста более 1 млн

У зверюги бегемота (еще тренируется) суммарное количество 2T!!! 16 экспертов, 288B активных параметров. Служит в качестве модели для обучения по методу совместной дистилляции Maverick.

Сейчас выпущены только Scout и Maverick, Кот-бегемот еще обучается.

На сегодняшний день Llama 4 Maverick предлагает лучшее в своем классе соотношение производительности и стоимости,

🟡 Model Card
🟡 Веса
🟡 Релиз

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥97👍22🗿108🥰2😎2😁1
🔥Llama 4 Maverick занимает 2-е место став 4-й моделью, преодолевшей отметку 1400+ на Арене , уступая лишь Gemini 2.5 Pro!

- №1 в категориях Hard Prompts, Coding, Math, Creative Writing
- Огромный скачок по сравнению с Llama 3 405B: 1268 → 1417.

Maverick входит в пятерку лучших во всех категориях.

А где там у нас claude?

http://lmarena.ai/leaderboard

@ai_machinelearning_big_data

#llama #arena #leaderboard #llm #opensource
👍64🔥2413🙊3😁2🥰1
🌟 MegaScale-Infer: как разделение модулей внимания и FFN ускоряет работу больших языковых моделей.

Обслуживание LLMс архитектурой MoE всегда было сложной задачей: несмотря на снижение вычислительной нагрузки за счёт «разреженной» активации экспертов, GPU часто простаивают из-за неэффективного распределения ресурсов.

Новая методика MegaScale-Infer от ByteDance|Seed предлагает разделение модулей внимания и feed-forward networks (FFN) на независимые узлы с индивидуальной оптимизацией. Это не только делает загрузку GPU эффективной, но и сокращает стоимость обслуживания моделей в 1,9 раза по сравнению с аналогами.

Суть MegaScale-Infer — в «дизагрегации»: модули внимания, отвечающие за работу с ключевыми значениями (KV-кэш), и FFN-эксперты распределяются по разным GPU. Например, узлы внимания можно развернуть на GPU с высокой пропускной способностью памяти, а эксперты — на устройствах с мощными вычислительными ядрами. Такой подход позволяет масштабировать каждый компонент отдельно и избежать дисбаланса, когда один модуль ждет завершения работы другого.

Чтобы скрыть задержки связи между узлами, система использует конвейерный параллелизм. Запросы разбиваются на микропакеты, которые перекидываются между модулями внимания и FFN, как мячик в пинг-понге. Это минимизирует простои: пока один микропакет обрабатывается экспертами, механизмы внимания на GPU уже начинают работать со следующим.

Для стабильной коммуникации между сотнями устройств разработана библиотека M2N — она ускоряет передачу данных в 4,2 раза по сравнению с NCCL, устраняя лишние копии данных и синхронизацию.

Эксперименты на моделях Mixtral 8x22B (141 млрд. параметров) и DBRX (132 млрд.) показали, что MegaScale-Infer обрабатывает до 2,56Х больше токенов в секунду на один GPU, чем vLLM и TensorRT-LLM.

На гетерогенных кластерах с GPU H20 (для внимания) и L40S (для экспертов) система демонстрирует еще больший эффект: стоимость генерации токена снижается в 1,86 раза за счет оптимального распределения ресурсов: H20, обладая огромной памятью, идеально подходят для работы с KV-кэшем, а L40S эффективно считают матричные операции в FFN.

Для разработчиков, которые работают с LLM, MegaScale-Infer — не просто еще один фреймворк. Это инструмент, который превращает MoE-модели из ресурсоемких «монстров» в управляемые системы, где каждый GPU работает на пределе возможностей.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MLOPS #MegaScaleInfer #ByteDance
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55👍2411
🖥 NVIDIA выложили в открытый доступ - PhysX, включая ядро симуляции, а также связанных с ним движки Flow и Blast.

Это инструменты для моделирования физики в реальном времени, позволяющий разработчикам в интерактивных приложениях и играх обеспечивать реалистичные взаимодействия объектов: от столкновений и разрушений до симуляции жидкостей и газа.

PhysX является одним из самых популярных физических движков, который задействован для обработки физических взаимодействий в почти тысяче игр и входит в состав многих игровых движков, включая Unreal Engine, Unity3D, AnvilNext, Stingray, Dunia 2 и REDengine.

Внутри:
✔️ PhysX — основные модули для симуляции твёрдых тел, столкновений, расчётов динамики и взаимодействий в игре;

✔️ Flow — инструментарий для симуляции жидкостей и газов, используемый в реальном времени;

✔️ Blast — библиотека для моделирования разрушений объектов.

Доступно более 500 готовых ядер для CUDA

Все эти компоненты применяются в пакетах NVIDIA Omniverse (платформа для совместной работы над 3D-проектами) и могут быть полезны при разработке игр или других интерактивных проектов, где нужна надёжная и гибкая система физического моделирования.

С технической точки зрения движок PhysX отлично оптимизирован под параллельные вычисления на графических процессорах (особенно GPU от NVIDIA), что делает его популярным решением для высоконагруженных симуляций. С открытым исходным кодом (BSD-лицензия) PhysX можно свободно использовать, модифицировать и встраивать в собственные проекты при соблюдении условий, перечисленных в лицензии.

🔥 Лицензирование BSD

🟡Github
🟡Документация

#NVIDIA #PhysX #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍92🔥4018🤣3
2025/07/14 02:57:28
Back to Top
HTML Embed Code: