Continuous Thought Machine (CTM) - концептуальная архитектура от SakanaAI, вдохновленная биологическими процессами мозга человека. Вместо масштабирования «в ширину» концепт предлагает «глубину» мышления, учитывая временную динамику и имитируя естественные нейронные взаимодействия.
Биологическая аналогия в CTM не случайна. Волны активности в CTM напоминают процессы в коре мозга, где синхронизация нейронов играет ключевую роль в обработке информации. Это не точная имитация природы, но шаг к системам, которые решают задачи через внутренние динамические состояния, а не через гигантские объемы данных.
Ядро CTM - это 2 ключевых механизма. Во-первых, каждый "нейрон" здесь имеет собственные параметры для анализа истории входящих сигналов. Это похоже на то, как биологические нейроны адаптируются к контексту, запоминая предыдущие импульсы.
Во-вторых, архитектура использует синхронизацию активности нейронов как основу для принятия решений. Представьте, что нейроны «договариваются» между собой через временные паттерны активности — именно это и становится языком, на котором CTM интерпретирует данные.
CTM строится на рекуррентной обработке временных паттернов. Каждый нейрон обновляет свое состояние через персональную MLP, которая анализирует историю пре-активаций — выходов «синаптической» модели, объединяющей предыдущие состояния и данные через внимание.
Синхронизация вычисляется как взвешенное скалярное произведение пост-активаций с экспоненциальным затуханием, где параметр "забывания прошлых взаимодействий"обучается, контролируя вклад временных шагов.
Выходы модели формируются проекцией синхронизации, а адаптивность достигается динамическим выбором критических тиков через минимизацию потерь и максимизацию уверенности.
Эксперименты показали, что такой подход работает не только в теории. На ImageNet-1K CTM демонстрирует точность 72.47% (top-1), а ее внимание плавно перемещается по изображению, фокусируясь на ключевых деталях, также, как человек рассматривает объект.
Самый интересный эксперимент - решение лабиринтов. Без позиционных эмбедингов модель строит внутреннюю «карту», анализируя структуру шаг за шагом, и даже обобщает знания на лабиринты большего размера. Это косвенно доказывает, что CTM способна к планированию, а не просто запоминанию паттернов.
CTM умеет экономить ресурсы: для простых задач (классификации очевидных изображений) она останавливает вычисления раньше, а для сложных — «думает» дольше. Это происходит без явных инструкций.
В качестве примера: в задаче сортировки чисел модель тратит больше «мысленных шагов» на сложные перестановки, а в вычислении четности последовательности обучается стратегиям, напоминающим алгоритмическую логику.
Пока CTM не SOTA, но она открывает возможности применения в RL-средах (как конкурент LSTM), а в калибровке предсказаний даже превосходит человеческую точность на CIFAR-10. Архитектура не привязана к определенному типу данных, она работает с изображениями, последовательностями и текстом (хотя на NLP ее масштабно не тестировали).
В открытом доступе на Github опубликован код практической демонстрации CTM в задачах классификации ImageNet, решения двумерных лабиринтов, сортировку, вычисления четности, QA и задачи RL. Датасеты и тестовые модели доступны по запросу через форму Google Drive.
@ai_machinelearning_big_data
#AI #ML #CTM #SakanaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤89👍53🔥31
Media is too big
VIEW IN TELEGRAM
Y Combinator сделал ставку на ИИ-агентов, способных переосмыслить целые индустрии. Вместо точечных решений, основателям советуют создавать «полноценные ИИ-компании» - например, запускать собственные юридические бюро с ИИ-юристами вместо сотрудников. Такой подход позволяет обойти медлительных конкурентов, предлагая клиентам более дешевые и эффективные сервисы.
Особый интерес к автоматизации рутины: персональные ассистенты, которые не просто напоминают о задачах, а самостоятельно отвечают на письма, планируют встречи и имитируют стиль общения пользователя. Y Combinator верит: будущее за командами, которые не просто внедряют ИИ, а перестраивают рынки с нуля, как это сделали Airbnb или Stripe.
ycombinator.com
Ученые из Центра геномной регуляции в Барселоне впервые применили генеративный ИИ для проектирования синтетических молекул ДНК, способных управлять активностью генов в здоровых клетках млекопитающих. Модель, обученная на данных тысяч экспериментов, генерирует последовательности «с нуля», задавая критерии.
В качестве теста создали фрагменты ДНК, активирующие ген флуоресцентного белка в клетках крови мышей. Результаты совпали с прогнозами: синтетические усилители генной активности работали как «переключатели» в зависимости от типа клеток. Исследование открывает путь к персонализированным методам коррекции генов. По словам авторов, это похоже на «написание софта для биологии», где каждая инструкция для клетки становится программируемой.
technologynetworks.com
OpenAI представила HealthBench - бенчмарк для тестирования ИИ-систем в сфере здравоохранения. Разработанный при участии 262 врачей из 60 стран, он включает 5000 реалистичных диалогов, имитирующих общение пациентов и медиков. Каждый сценарий оценивается по индивидуальным критериям, созданным экспертами: точность данных или ясность ответов.
Всего в бенчмарке 48 562 параметра оценки, что позволяет глубоко анализировать работу моделей. Особый упор сделан на надежность: даже один ошибочный ответ в медицине критичен. HealthBench включает подборки сложных кейсов (HealthBench Hard), где современные ИИ еще отстают. Все данные и методики уже доступны в GitHub-репозитории OpenAI .
openai.com
Google анонсировала AI Futures Fund — программу для поддержки ИИ-стартапов. Участники получат ранний доступ к моделям DeepMind (Gemini, Imagen и Veo). Кроме технологий, стартапы смогут консультироваться с инженерами и исследователями Google, а также получат облачные кредиты для обучения и масштабирования решений. Уже сейчас с фондом работают проекты из разных сфер: индийский Toonsutra внедряет Gemini для перевода комиксов, Viggle экспериментирует с генерацией мемов, а платформа Rooms тестирует интерактивные 3D-пространства.
Программа открыта для стартапов из регионов, где доступен Gemini. Подать заявку можно на сайте фонда. Участники смогут претендовать не только на технические ресурсы, но и на прямые инвестиции от Google.
blog.google
Злоумышленники активно используют популяризацию ИИ для распространения вредоносного стиллера Noodlophile, маскируя атаки под сервисы для генерации видео и изображений. Как сообщает Morphisec, фейковые страницы Luma Dreammachine Al и CapCut AI рекламируются через соцсети, собирая до 62 000 просмотров на пост. Пользователям предлагают скачать «ИИ-софт», но вместо этого загружается ZIP-архив с исполняемым exe-файлом.
Запуск файла активирует легитимный CapCut.exe, который загружает .NET-лоадер CapCutLoader. Тот, в свою очередь, запускает Python-скрипт, устанавливающий Noodlophile Stealer. Вредонос крадет пароли, данные кошельков и другую информацию, а в некоторых случаях дополняется трояном XWorm для удаленного доступа. Эксперты напоминают: атаки через ИИ-технологии стали трендом. Осторожность — лучшая защита.
thehackernews.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75❤31🔥24🥰3
которое опубликовал Илон Маск - выглядит интеерснее, чем может показаться на первый взгляд.
Впервые Optimus двигается в танце с участием нижней части тела —
раньше его ноги и ступни оставались неподвижными.
Если посмотреть последнее видео в замедленном режиме, можно заметить, что он не просто танцует — он подпрыгивает и держит равновесие на одной ноге.
Такой уровень динамического баланса и контроля невероятно сложно реализовать для человекоподобного робота.
С балансом у нового робота от Tesla — полный порядок!
Факты о роботе
🦿 1. Создан на базе автопилота Tesla
Optimus использует ту же систему обработки окружающего мира, что и автопилот Tesla — включая нейросети и камеры. Робот буквально «видит» как электромобиль Tesla.
⚙️ 2. Высота — 173 см, вес — около 56 кг
Это делает Optimus ростом со взрослого человека и достаточно лёгким, чтобы быть маневренным, но достаточно прочным для работы с физическими объектами.
🧠 3. Мозг — это Tesla FSD Chip
Внутри — собственный чип Tesla, разработанный для Full Self-Driving. Он обрабатывает видео в реальном времени и принимает решения, как вождения, так и манипуляций руками и телом.
🤖 4. Умеет поднимать до 20 кг и нести до 9 кг
Optimus спроектирован для выполнения задач, таких как переноска ящиков, компонентов на сборочных линиях и базовая логистика.
🎥 5. Первые версии уже помогают на фабрике Tesla
В 2023–2024 Tesla начала использовать Optimus на своих производственных линиях — например, для сортировки деталей и доставки мелких компонентов.
🕺 6. Новый уровень движения — он уже танцует и ходит
В 2025 году Optimus научился координировать движения нижней части тела. Ранее ноги были статичными — теперь он танцует, ходит и держит равновесие на одной ноге.
🔋 7. Полный день работы от одной зарядки
Цель — добиться автономной работы в течение рабочего дня на одном заряде, что делает его пригодным для фабрик и логистических центров.
🌍 8. Массовый рынок — конечная цель
Илон Маск заявил, что Optimus должен стоить меньше $20,000 — чтобы каждый мог позволить себе персонального робота.
@ai_machinelearning_big_data
#robots #ai #ml #Tesla #Optimus
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍120🔥43❤38😭8🤔6🤣6🫡1
This media is not supported in your browser
VIEW IN TELEGRAM
После нескольких недель тестирования, функция Deep Research официально запущена и открыта для всех пользователей!
Как это работает?
Просто задай любой вопрос — например:
"Расскажи что-нибудь про робототехнику."
Qwen уточнит:
🔸 Хочешь узнать про историю, теорию или практическое применение?
🔸 Или скажи: "Не знаю… удиви меня!" 😄
Пока ты пьешь кофе ☕ — Qwen соберёт для тебя понятный, полезный и глубокий отчёт.
Попробовать💡
🔗 https://chat.qwen.ai/?inputFeature=deep_research
#Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍124🔥48❤20🥰4🌭1
Media is too big
VIEW IN TELEGRAM
NVIDIA отправит более 18 000 флагманских Blackwell GB300 в саудовскую компанию-стартап Humain, заявил CEO Джeнсeн Хуанг на инвестиционном форуме в Эр-Рияде. Эти чипы, одни из самых мощных в мире, будут работать в дата-центрах суммарной мощностью 500 мегаватт, помогая строить ИИ-инфраструктуру страны.
Humain, принадлежащая местному суверенному фонду, позже задействует «сотни тысяч» GPU. AMD тоже участвует в проекте, и тоже поставит свои чипы для аналогичной инфраструктуры на $10 млрд.
cnbc.com
Audible объявил о внедрении полного цикла производства аудиокниг на основе ИИ — от перевода до озвучки. В ближайшие месяцы сервис предложит более 100 синтезированных голосов на английском, испанском, французском и итальянском языках с акцентами и диалектами.
Технология поддерживает два варианта перевода: текст-текст (с последующей озвучкой) и речь-речь, сохраняющую стиль оригинального чтеца. Для точности перевода доступна проверка профессиональными лингвистами. Первые тесты перевода стартуют этой осенью.
thebookseller.com
Tencent запустил CodeBuddy, инструмент, который может стать конкурентом Cursor. Он поддерживает автодополнение кода, диагностику ошибок, рефакторинг, написание тестов и ревью, а также работает с экосистемой WeChat.
Особенность сервиса - режим Craft: ИИ понимает задачи на естественном языке и генерирует проекты из нескольких файлов. CodeBuddy поддерживает MCP-протокол, позволяя интегрировать сторонние инструменты без лишних телодвижений. В основе — модели DeepSeek V3 и HunYuan Turbo S, доступные бесплатно. Инструмент совместим с VSCode, Jetbrains и другими IDE.
copilot.tencent.com
Портал videocardz поделился слухами о том, что один из партнеров Intel разрабатывает двухчиповую версию видеокарты Arc B580 с суммарными 48 ГБ видеопамяти. По данным неназванного источника, устройство получит нестандартный дизайн, а его анонс запланирован на ближайшую неделю. Хотя точный бренд пока не называется, известно, что проект не является официальной разработкой Intel и находится под NDA.
При этом, обычная версия B580 с 24 ГБ задерживается на несколько месяцев и есть вероятность, что это связано с "мистической" 48 ГБ-версией. Если информация подтвердится, это станет редким случаем десктопного двухчипового решения в эпоху монопольных GPU. Ждем подробностей на Computex.
videocardz.com
Системный промпт Claude, описывающий поведение модели и ее инструменты, слили в сеть — 16,7 тыс. слов и 24 тыс. токенов. Документ раскрывает детали от формата ответов до методов решения задач, например, как считать буквы в слове «strawberry». В сравнении с 2,2 тыс. словами у OpenAI он гигантский. Большая часть текста посвящена интеграции с MCP-сервером, поисковыми правилами и «горячими исправлениями» для данных после 2024 года.
Andrej Karpathy назвал утечку поводом обсудить новую парадигму обучения ИИ: вместо тонкой настройки весов модели он предложил редактировать промпты вручную, как человек использует заметки. Это должно помочь ИИ запоминать стратегии и адаптироваться к контексту. Однако критики возражают: автономные подсказки могут запутать модель, а без постоянного обучения эффект будет краткосрочным.
news.ycombinator.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93❤36🔥25🤣8👌4🤔2❤🔥1🌭1
This media is not supported in your browser
VIEW IN TELEGRAM
🗣️ RealtimeVoiceChat — живой голосовой чат с ИИ.
RealtimeVoiceChat — это open-source проект, который позволяет общаться с LLM в реальном времени голосом. Он объединяет распознавание речи, LLM и синтез речи в единую систему с минимальной задержкой — около 500 мс при локальной установке.
➡️ Как работает:
1. Запись речи в браузере
2. Передача аудио по WebSocket на сервер
3. Распознавание речи через
4. Ответ от LLM (Ollama, OpenAI и др.)
5. Озвучка ответа через
6. Обратная передача аудио в браузер
7. Поддержка прерываний и динамики через
✨ Особенности:
- Задержка ~500 мс
- Поддержка разных LLM и TTS движков
- Быстрый запуск через Docker Compose
- Чистый веб-интерфейс на Vanilla JS + Web Audio API
✔️ Стек:
- Backend: Python + FastAPI
- Frontend: JS + WebSockets
- ML: transformers, torchaudio, Ollama, Whisper, TTS
- Контейнеризация: Docker
✔️ Требуется CUDA-совместимая видеокарта (для Whisper/TTS) и Docker.
🔥 Отличный проект для тех, кто хочет интегрировать голосовой интерфейс с LLM — например, для ассистентов, чат-ботов, презентаций или UX-экспериментов.
🔜 Репозиторий: https://github.com/KoljaB/RealtimeVoiceChat
🔜 Демо: https://www.youtube.com/watch?v=-1AD4gakCKw
@ai_machinelearning_big_data
#tts #llm #opensource
RealtimeVoiceChat — это open-source проект, который позволяет общаться с LLM в реальном времени голосом. Он объединяет распознавание речи, LLM и синтез речи в единую систему с минимальной задержкой — около 500 мс при локальной установке.
1. Запись речи в браузере
2. Передача аудио по WebSocket на сервер
3. Распознавание речи через
RealtimeSTT
(на базе Whisper)4. Ответ от LLM (Ollama, OpenAI и др.)
5. Озвучка ответа через
RealtimeTTS
(Coqui XTTSv2, Kokoro и др.)6. Обратная передача аудио в браузер
7. Поддержка прерываний и динамики через
turndetect.py
✨ Особенности:
- Задержка ~500 мс
- Поддержка разных LLM и TTS движков
- Быстрый запуск через Docker Compose
- Чистый веб-интерфейс на Vanilla JS + Web Audio API
- Backend: Python + FastAPI
- Frontend: JS + WebSockets
- ML: transformers, torchaudio, Ollama, Whisper, TTS
- Контейнеризация: Docker
@ai_machinelearning_big_data
#tts #llm #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥93👍41❤24🥰2👏1👌1
Google DeepMind представили AlphaEvolve — агент на базе Gemini, способный автоматически генерировать новые алгоритмы и находить оптимальные решения сложных задач.
🔘 Генерирует быстрые алгоритмы умножения матриц
🔘 Находит новые решения математических задач
🔘 Оптимизирует работу дата-центров, чипов и обучения ИИ модель за счёт сгенерированный алгоритмов
1) Генерация идей с помощью LLMs: Модель Gemini анализирует существующие подходы к решению задачи и предлагает новые алгоритмические идеи, используя свой широкий контекст и знания.
2) Автоматическая оценка: Каждый предложенный алгоритм проходит через систему автоматической оценки, которая измеряет его эффективность, точность и другие ключевые метрики, позволяя объективно сравнивать различные решения.
3) Эволюционное улучшение: AlphaEvolve применяет эволюционные методы, такие как мутация и рекомбинация, чтобы постепенно улучшать алгоритмы, объединяя лучшие элементы из различных решений и отбрасывая менее эффективные варианты.
Этот подход уже продемонстрировал свою эффективность: AlphaEvolve смог обнаружить новые, более эффективные алгоритмы умножения матриц, превосходящие предыдущие достижения, такие как AlphaTensor. Это открывает возможности для оптимизации вычислений в дата-центрах, проектировании чипов и обучении ИИ-моделей.
Google также применили AlphaEvolve к более чем 50 открытым задачам в области:
✍️ математического анализа,
📐 геометрии,
➕ комбинаторики и
🔂 теории чисел — включая задачу о числе поцелуев (kissing number problem).
🔵 В 75% случаев агент открыл лучшее из известных решений.
🔵 В 20% случаев он улучшил ранее известные решения, тем самым сделав новые открытия.
Доступ пока не дают, но выглядит очень интересно.
@ai_machinelearning_big_data
📎 Подробнее
#google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥82👍34❤30⚡6🤔2👌1
Media is too big
VIEW IN TELEGRAM
Что умеет Wan2.1-VACE:
💡 Эти возможности можно свободно комбинировать, выполняя сложные креативные задачи.
🔍 Ключевые особенности:
▪ SOTA-производительность: Wan2.1 стабильно превосходит существующие open-source модели и даже коммерческие решения уровня state-of-the-art в ряде бенчмарков.
▪ Работает на обычных видеокартах: Модель T2V-1.3B требует всего 8.19 ГБ видеопамяти, что делает её совместимой почти со всеми пользовательскими GPU. Например, на RTX 4090 она генерирует 5-секундное видео 480P примерно за 4 минуты (без оптимизаций, таких как квантизация). Её производительность сопоставима с некоторыми закрытыми моделями.
▪ Мультизадачность: Wan2.1 демонстрирует хорошие результаты в задачах текст-в-видео, изображение-в-видео, видеомонтаж, текст-в-изображение и видео-в-аудио, продвигая границы генерации видео..
▪ Модель способна выдавать 1080P в теории любой длины, при этом сохраняя временную структуру.
- Размер модели: 1.3B и 14B
- Лицензия: Apache-2.
@ai_machinelearning_big_data
#Alibaba #wan #videogeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥56👍29❤20
Skywork AI опубликовала Matrix-Game - модель с 17 млрд. параметров для генерации интерактивных игровых миров, способная создавать динамические сцены в Minecraft по заданным изображениям и пользовательским действиям.
Проект сочетает предобучение на неразмеченных данных с финальным этапом, где модель учится реагировать на клавиатурные команды и движения мыши. В основе паплайна - диффузионный метод, позволяющий контролировать движения персонажа, повороты камеры и физику объектов с высокой точностью.
На этапе предобучения использовался уникальный датасет Matrix-Game-MC, собранный из 2700 часов игровых видео без разметки и 1000 часов с детальными аннотациями действий, почищенный от нерелевантного контента, в него вошли только качественные сцены с четким освещением, стабильной камерой и активными действиями.
На втором этапе модель обучалась на записях движений в Unreal Engine и симуляциями в Minecraft через агентов VPT.
Под капотом Matrix-Game - 3D-VAE для кодирования видео и DiT для генерации. При автозавершении длинных видео (до 65 кадров) применяется архитектура с обратной связью: последние кадры служат контекстом для следующих сегментов.
Чтобы оценить возможности модели в генерации игровых миров, Skywork AI создали собственный комплексный бенчмарк GameWorld Score. Он учитывает визуальное качество, плавность переходов, управляемость и понимание физических законов.
Matrix-Game показала 95% точности в распознавании клавиатурных команд и 98% для движений мышью, превзойдя аналогичные модели Oasis и MineWorld. По другим критериям бенчмарка Matrix-Game корректно обрабатывает повороты камеры на 8 направлений и сохраняет 3D-консистентность объектов, избегая артефактов вроде «летающих» блоков.
Несмотря на высокие показатели в тестах, есть слабые места. В редких биомах (например, грибных ландшафтах) модель иногда теряет точность из-за недостатка данных. Также требует улучшений имитация физических взаимодействий.
В планах у разработчиков расширить датасеты обучения, внедрить долгосрочную память для последовательностей и адаптировать методику под другие игры: Black Myth: Wukong и CS:GO.
@ai_machinelearning_big_data
#AI #ML #GameAI #MatrixGame #SkyworkAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍55🔥29❤24🤔3
Media is too big
VIEW IN TELEGRAM
Новые модели, по заявлениям компании, лучше справляются с написанием и отладкой кода, а также работают быстрее предыдущих версий. Подписчики ChatGPT Plus, Pro и Team получат доступ к GPT-4.1 бесплатно или по тарифам, а GPT-4.1 mini станет доступен всем пользователям, даже бесплатным. GPT-4.0 mini исключили из сервиса.
Ранее GPT-4.1 вышла через API, но тогда OpenAI критиковали за отсутствие отчетов о безопасности. В ответ компания подчеркнула, что модель не является «передовой» и не требует тех же проверок, что и более мощные системы. Теперь OpenAI пообещал публиковать результаты тестов на безопасность чаще.
OpenAi в сети Х (ex-Twitter)
Логан Килпатрик из Google сообщил, что из-за чрезвычайно высокого спроса на Gemini 2.5 Pro, Google временно приостановит доступ к бесплатному уровню Gemini 2.5 Pro в API. Тем не менее, пользователи по-прежнему могут получить бесплатный доступ к модели через Google AI Studio.
Разработчики, желающие продолжить использование API, могут запросить более высокий уровень API. Новые клиенты Google, которые зарегистрируют платную учетную запись, получат 300 долларов в виде бесплатных API-кредитов. Уровни лимитов можно посмотреть в документации к API Gemini.
Logan Kilpatrick (Lead product for Google AI Studio) в сети X (ex-Twitter)
Stability AI совместно Arm представили в опенсорс Stable Audio Open Small — уменьшенную версию Stable Audio для создания аудио по текстовым запросам. Она оптимизирована для работы на мобильных устройствах с процессорами Arm и использует библиотеки KleidiAI, которые ускоряют вычисления и снижают энергопотребление. Stable Audio Open Small содержит 341 млн параметров и генерирует стереофонический звук за 8 секунд.
Решение ориентировано на создание коротких звуковых эффектов, драм-ликов или амбиентных текстур. Она подходит для разработчиков игр, контентмейкеров и приложений, где важна скорость и экономия ресурсов. Модель доступна бесплатно на Hugging Face, а ее код на GitHub.
stability.ai
CodeRabbit представили бесплатное ИИ-ревью кода прямо в редакторах VS Code, Cursor и Windsurf. Это решение позволяет находить ошибки до создания pull request. Инструмент анализирует каждый коммит, проверяет изменения в реальном времени и предлагает исправления за один клик.
Поддерживаются популярные языки (Python, JavaScript, Java и др.), а также режим «Fix with AI» для автоматического применения правок. Бесплатная версия в IDE работает быстрее, чем ревью в PR, но с более низкими лимитами. Для расширенного функционала есть подписка lite (12 долл./мес.) и Pro (24 долл./мес). Плагин уже доступен в магазине расширений VS Code.
coderabbit.ai
Baidu готовится впервые протестировать в Европе свой сервис беспилотного заказа такси Apollo Go. Китайский гигант ведет переговоры со швейцарским поставщиком общественного транспорта PostAuto о запуске сервиса роботакси в Швейцарии и планирует вывести Apollo Go на турецкий рынок. В настоящее время Apollo Go от Baidu работает во многих городах Китая, а крупнейший парк из более чем 400 транспортных средств находится в Ухане.
reuters.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤51👍33🔥18❤🔥5🫡3🤔1
PyTorch представил MetaShuffling — решение для ускорения вывода в Llama 4 MoE, которое решает проблемы динамизма и разреженности моделей, связанных с маршрутизацией токенов. Вместо традиционных методов
padding
или slicing
, MetaShuffling использует переупорядочивание токенов по экспертам, избавляясь от ненужных операций и синхронизации между CPU и GPU. Это снижает использование памяти и устраняет задержки, связанные с обработкой «пустышек» или множественными запусками ядер.В основе решения - идея группировки токенов, назначенных одному эксперту, в непрерывные блоки. Такой подход позволяет использовать dense tensors вместо разреженных структур, сохраняя статичные формы данных.
Благодаря этому MetaShuffling совместим с механизмами графов (
CUDAGraph
, torch.compile
), которые ускоряют исполнение, избегая повторных синхронизаций. Решение особенно эффективно для Llama 4, где каждый MoE-слой активирует лишь часть экспертов, что на практике создает динамические нагрузки.GroupedGEMM
, написанный на Triton, обрабатывает несколько матриц в одном вызове, используя статические и динамические разбиения размеров, позволяя пропускать неактивных экспертов и «лишние» токены без дополнительных затрат.IndexShuffling
, в свою очередь, выполняет сортировку токенов и подсчет их количества на каждом эксперте за один проход, что по тестам оказалось в 5–13 раз быстрее, чем стандартные реализации PyTorch.Результаты экспериментов на H100 80GB выглядят многообещающими.
Prefill Llama 4 Maverick с FP8 GroupedGEMM достигает 1,197 TFlops при 286 мкс, что близко к теоретическому пределу GPU.
В задачах декодирования метрики также демонстрируют высокую эффективность: 44,88 TFlops за 59 мкс. Даже при малом количестве токенов (128) MetaShuffling показывает 80% использования пропускной способности памяти.
Для multi-host сценариев MetaShuffling предлагает гибкость между «динамическими» и «статичными» формами данных. В режиме
eager
(без графов) используется минимальное заполнение без синхронизации CPU-GPU.В
graph mode
— статичные формы с минимальным паддингом, что сокращает сетевой трафик и память. Также реализована дедупликация коммуникаций, которая распределяет нагрузку между узлами, снижая задержки в распределенных вычислениях.MetaShuffling поддерживает интеграцию с FBGEMM Generative AI Kernel Library, позволяя применять оптимизации для vLLM и SGLang.
@ai_machinelearning_big_data
#AI #ML #MetaShuffling #Pytorch
Please open Telegram to view this post
VIEW IN TELEGRAM
❤45👍33🥰10🤔5🕊2🔥1
Раньше Википедия была главным инструментом для тех, кто хотел получить знания.
Всего за несколько лет ИИ стал главным средством для обучения.
И пути назад уже нет.
https://www.reddit.com/r/wikipedia/comments/1kn8cms/oc_chatgpt_now_has_more_monthly_users_than/?rdt=59790
#chatgpt #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
😁119❤51👍49😢19🔥15😭7🤔6🙈3