Это передовая модель для генерации изображений, построенная по принципу авторегрессионных моделей только с декодером (decoder-only), архитектурно схожая с тем, как работают большие языковые модели вроде GPT (и конкретно сравниваемая с подходом к изображениям в GPT-4o).
Это означает, что она генерирует изображение последовательно (как текст), потенциально используя мощные возможности представления и понимания мира, присущие современным LLM.
Функции:
-Text-to-Image (t2i): Генерация изображений по текстовому описанию.
- Редактирование изображений: Модификация существующих изображений на основе инструкций.
- Контролируемая генерация: Управление генерацией с помощью дополнительных входных данных (аналогично ControlNet).
Разработчики заявляют, что модель включает все функции ControlNet. своей архитектуре.
Модель спроектирована как самостоятельное решение, а не как дополнение к другим системам и по сути это альтернатива доминирующим диффузионным моделям.
Авторегрессионные модели хороши в сохранении контекста и последовательности. Это может (теоретически) лучше подходить для генерации изображений, требующих сложной внутренней логики или повествования.
@ai_machinelearning_big_data
#Lumina #texttoimage #autoregressive
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33❤13🔥10
OpenRouterAI объявила о предварительном выпуске своей первой мультимодальной модели - Quasar Alpha, с длиной контекста в 1 млн. токенов. Модель оптимизирована для задач программирования, но в то же время подходит для общих NLP-задач.
Модель 55% на бенчмарке aider. Это сопоставимо с o3-mini-medium, последним DeepSeek V3 и старым Sonnet 3.6. Главная фишка - Quasar Alpha работает невероятно быстро.
Quasar Alpha доступна бесплатно, ее анонс вызвал интерес в ИИ-сообществе, где пытаются предположить, какая лаборатория стоит за разработкой этой модели.
Модель называет себя ChatGPT
@ai_machinelearning_big_data
#quasar #chatgpt ? #release
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49🔥17❤8
Microsoft анонсировала масштабное обновление Copilot, добавив функции, которые делают его по-настоящему персональным. Теперь Copilot запоминает детали из жизни пользователя: от предпочтений в еде до рабочих проектов — благодаря системе «Память».
Другая новинка - «Copilot Vision»: ИИ теперь «видит» через камеру смартфона или экран Windows 11, анализируя окружение в реальном времени. На ПК Copilot интегрируется с приложениями, помогая искать файлы, настраивать параметры и работать в многозадачном режиме через голосовые команды.
Добавлены веб-действия: бронирование столиков, покупка билетов или подарков через партнерские сервисы Booking.com и OpenTable. А с функцией Deep Research Copilot за минуты проведет сложный анализ данных, экономя часы рутинной работы.
Обновления уже доступны для iOS, Android и Windows.
blogs.microsoft.com
Команда разработки Llama рассматривает возможность очередной отсрочки выпуска своей новой модели, который уже неоднократно переносился из-за проблем с производительностью.
Компания планирует выпустить Llama 4 в конце этого месяца, но источники сообщают, что она может снова перенести дату, поскольку модель не оправдала ожиданий в задачах на рассуждение и математику.
theinformation.com
Сэм Альтман сообщил, что o3 и его «упрощённый» наследник o4-mini появятся уже через пару недель. Причина — задержка GPT-5, которую решили улучшить «сильнее, чем планировали». OpenAI признали: интеграция голосовых функций, поиска и глубокого ризонинга оказалась сложнее, чем предполагалось, а серверам компании нужно выдержать беспрецедентную нагрузку от недавнего релиза генератора изображений.
GPT-5, которую теперь ждут через несколько месяцев, предложит три уровня доступа: базовый — с ограничениями, Plus — повышенный интеллект, а Pro — максимальные возможности. Модель объединит все инструменты ChatGPT, включая Canvas и Deep Research.
Sam Altman в X (ex-Twitter)
Собрана на базе Qwen 2.5 VL
В модели не используются метаданные, извлеченные из PDF-файлов. Это значительно сокращает длину запроса, что, в свою очередь, снижает время обработки и потребление VRAM - без ущерба для точности.
HF
GitHub объявил о введении новых лимитов и ценовой модели для сервиса Copilot, который теперь включает плату за "премиальные" ИИ-модели. Это изменение введет ограничения на тарифы для пользователей, которые переходят с базовой модели GPT-4o на другие модели ИИ.
Ожидается, что новая структура ценообразования повлияет на пользовательский опыт, особенно для тех, кто ранее полагался на бесплатный доступ к расширенным возможностям.
github.blog
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37❤20🔥8💋1
Media is too big
VIEW IN TELEGRAM
Интерфейс, похожна стандартные среды RL (например, OpenAI Gym/Gymnasium), но адаптированный для игры Pokémon Red/Blue.
Если хотите позалипать на выходных и попробовать различные RL-алгоритмы для обучения Ai игре в покемонов.
В основе лежит эмулятор Game Boy, реализованный на Python — библиотека pyboy.
Основная цель — создать и обучить ИИ-агентов, способных самостоятельно играть в Pokémon: исследовать мир, ловить покемонов, тренировать их, сражаться с другими тренерами и проходить игру.
Игроку любителю потребуется ~400 шагов, чтобы поймать первого покемона, Клоду 3.7 понадобилось ~450 🤗
🔗 Github
@ai_machinelearning_big_data
#AIagents #ml #ai #opengym
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49❤13🔥9🤨3
🦙 Встречайте, дамы и господа, LLaMA 4: новые мультимодальные MoE модели!
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.
Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров · 16 эксперто , 109B общих параметров.
Llama 4 Maverick (400B) 17 млрд активных параметров ,128 экспертов, 400 млрд общих параметров · Длина контекста более 1 млн
У зверюги бегемота (еще тренируется) суммарное количество 2T!!! 16 экспертов, 288B активных параметров. Служит в качестве модели для обучения по методу совместной дистилляции Maverick.
Сейчас выпущены только Scout и Maverick, Кот-бегемот еще обучается.
На сегодняшний день Llama 4 Maverick предлагает лучшее в своем классе соотношение производительности и стоимости,
🟡 Model Card
🟡 Веса
🟡 Релиз
@ai_machinelearning_big_data
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.
Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров · 16 эксперто , 109B общих параметров.
Llama 4 Maverick (400B) 17 млрд активных параметров ,128 экспертов, 400 млрд общих параметров · Длина контекста более 1 млн
У зверюги бегемота (еще тренируется) суммарное количество 2T!!! 16 экспертов, 288B активных параметров. Служит в качестве модели для обучения по методу совместной дистилляции Maverick.
Сейчас выпущены только Scout и Maverick, Кот-бегемот еще обучается.
На сегодняшний день Llama 4 Maverick предлагает лучшее в своем классе соотношение производительности и стоимости,
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥97👍22🗿10❤8🥰2😎2😁1
🔥Llama 4 Maverick занимает 2-е место став 4-й моделью, преодолевшей отметку 1400+ на Арене , уступая лишь Gemini 2.5 Pro!
- №1 в категориях
- Огромный скачок по сравнению с Llama 3 405B: 1268 → 1417.
Maverick входит в пятерку лучших во всех категориях.
А где там у нас claude?
http://lmarena.ai/leaderboard
@ai_machinelearning_big_data
#llama #arena #leaderboard #llm #opensource
- №1 в категориях
Hard Prompts, Coding, Math, Creative Writing
- Огромный скачок по сравнению с Llama 3 405B: 1268 → 1417.
Maverick входит в пятерку лучших во всех категориях.
http://lmarena.ai/leaderboard
@ai_machinelearning_big_data
#llama #arena #leaderboard #llm #opensource
👍64🔥24❤13🙊3😁2🥰1
Обслуживание LLMс архитектурой MoE всегда было сложной задачей: несмотря на снижение вычислительной нагрузки за счёт «разреженной» активации экспертов, GPU часто простаивают из-за неэффективного распределения ресурсов.
Новая методика MegaScale-Infer от ByteDance|Seed предлагает разделение модулей внимания и feed-forward networks (FFN) на независимые узлы с индивидуальной оптимизацией. Это не только делает загрузку GPU эффективной, но и сокращает стоимость обслуживания моделей в 1,9 раза по сравнению с аналогами.
Суть MegaScale-Infer — в «дизагрегации»: модули внимания, отвечающие за работу с ключевыми значениями (KV-кэш), и FFN-эксперты распределяются по разным GPU. Например, узлы внимания можно развернуть на GPU с высокой пропускной способностью памяти, а эксперты — на устройствах с мощными вычислительными ядрами. Такой подход позволяет масштабировать каждый компонент отдельно и избежать дисбаланса, когда один модуль ждет завершения работы другого.
Чтобы скрыть задержки связи между узлами, система использует конвейерный параллелизм. Запросы разбиваются на микропакеты, которые перекидываются между модулями внимания и FFN, как мячик в пинг-понге. Это минимизирует простои: пока один микропакет обрабатывается экспертами, механизмы внимания на GPU уже начинают работать со следующим.
Для стабильной коммуникации между сотнями устройств разработана библиотека M2N — она ускоряет передачу данных в 4,2 раза по сравнению с NCCL, устраняя лишние копии данных и синхронизацию.
Эксперименты на моделях Mixtral 8x22B (141 млрд. параметров) и DBRX (132 млрд.) показали, что MegaScale-Infer обрабатывает до 2,56Х больше токенов в секунду на один GPU, чем vLLM и TensorRT-LLM.
На гетерогенных кластерах с GPU H20 (для внимания) и L40S (для экспертов) система демонстрирует еще больший эффект: стоимость генерации токена снижается в 1,86 раза за счет оптимального распределения ресурсов: H20, обладая огромной памятью, идеально подходят для работы с KV-кэшем, а L40S эффективно считают матричные операции в FFN.
Для разработчиков, которые работают с LLM, MegaScale-Infer — не просто еще один фреймворк. Это инструмент, который превращает MoE-модели из ресурсоемких «монстров» в управляемые системы, где каждый GPU работает на пределе возможностей.
@ai_machinelearning_big_data
#AI #ML #LLM #MLOPS #MegaScaleInfer #ByteDance
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55👍24❤11
Это инструменты для моделирования физики в реальном времени, позволяющий разработчикам в интерактивных приложениях и играх обеспечивать реалистичные взаимодействия объектов: от столкновений и разрушений до симуляции жидкостей и газа.
PhysX является одним из самых популярных физических движков, который задействован для обработки физических взаимодействий в почти тысяче игр и входит в состав многих игровых движков, включая Unreal Engine, Unity3D, AnvilNext, Stingray, Dunia 2 и REDengine.
Внутри:
Доступно более 500 готовых ядер для CUDA
Все эти компоненты применяются в пакетах NVIDIA Omniverse (платформа для совместной работы над 3D-проектами) и могут быть полезны при разработке игр или других интерактивных проектов, где нужна надёжная и гибкая система физического моделирования.
С технической точки зрения движок PhysX отлично оптимизирован под параллельные вычисления на графических процессорах (особенно GPU от NVIDIA), что делает его популярным решением для высоконагруженных симуляций. С открытым исходным кодом (BSD-лицензия) PhysX можно свободно использовать, модифицировать и встраивать в собственные проекты при соблюдении условий, перечисленных в лицензии.
#NVIDIA #PhysX #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍92🔥40❤18🤣3