Telegram Web
⚡️Reducio! Microsoft в соавторстве с Гарри Поттером на днях выпустил статью про свой новый image-conditioned VAE для видео

За счёт кодирования латентов движения удалось побить по сжатию обычный 2D VAE в 64 раза без потери качества (TxHxW: 1x8x8 -> 4x32x32)

Основной блок энкодера - это пространственно-временной 3D-VAE. Ключевая идея Reducio в том, что кадр из середины кодируемой видео последовательности (T/2, где T - длина видео) используется на этапе декодера при пирамидальной развёртке видеолатента через слой cross-attention. Проще говоря, средний кадр «помогает» восстановлению видео из сжатого пространства признаков (content image prior).
Кстати, похожий эффект с дополнительным image prior помог нам выбить лучшее качество при разработке Kandinsky 2.1.

Скорость работы Reducio очень высокая в разрешении 1024x1024 — 16 кадров генерируются 15.5 секунд на A100. При этом на обучение генеративной модели DiT по заявлениям потрачено всего 3.2k A100 часов!

По качеству даже побили свеженький Cosmos-VAE от Nvidia недельной давности🔥

Статья
Код
Веса
⚡️Вот и релиз новой языковой модели OLMo2 от Allen Institute подоспел

Просто взгляните на метрики💪
https://allenai.org/blog/olmo2

@complete_ai
Новый шаг для индустрии игр или способ синтеза данных для обучения больших моделей?

Что думаете?
⚡️Похоже на следующей неделе нас ждёт анонс новой модели от бигтех компании🧐

Amazon готовится показать на следующей неделе на ежегодной конференции свою мультимодальную LLM с упором на понимание видео (например, найти нужный момент на видео по описанию) — Olympus.

Пишут, что там якобы 2T параметров (кстати, размер они анонсировали больше года назад, а как будет «сегодня» — узнаем)! Как когда-то WuDao 2.0 был лидером гонки параметров (говорили про 1.75Т)

Т - триллион😊
За миром технологий можно наблюдать через конкретных инфлюенсеров и фаундеров, как и в любой сфере 😑

У вас может быть сто тысяч подписок “новости AI обо всём и всех”, но из них лучше оставить 2-3 годных. Информация часто дублируется, плюс, если вы джун, то не будете понимать насколько та или иная модель “прорывная” под капотом, какое влияние она окажет на рынок, а также, что происходит в конкретных областях ИИ (от роботехники до маркетинга). Полезно сохранить несколько лидеров мнений, которые будут держать в курсе новых решений, расскажут об ошибках, предложат новые гипотезы.

Например, по тематике “ИИ в бизнесе” рекомендую забрать папку с 11 фаундерами👇
🔗 Папка

Возможно, вы уже с кем-то знакомы!

📝 Поделитесь в комментариях: за кем следите вы из наших или зарубежных фаундеров и учёных в сфере технологий?
Please open Telegram to view this post
VIEW IN TELEGRAM
Complete AI
⚡️Похоже на следующей неделе нас ждёт анонс новой модели от бигтех компании🧐 Amazon готовится показать на следующей неделе на ежегодной конференции свою мультимодальную LLM с упором на понимание видео (например, найти нужный момент на видео по описанию) —…
Помните, на прошлой неделе я говорил об анонсе новой модели от Amazon?

Релиз состоялся вчера в рамках конференции Amazon re Invent, где показали аж целое семейство фундаментальных моделей Nova:

📍Micro — маленькая языковая модель, быстрая и дешевая (контекст 128к токенов)
📍Lite, Pro — мультимодальные модели для понимания текста, изображений и видео (контекст 300к токенов)
📍Premier — мультимодальная модель с упором на способность к рассуждениям (только анонс, релиз в 2025 году)
📍Canvas — SoTA модель генерации изображений по тексту
📍Reel — SoTA модель генерации видео по тексту и стартовому кадру

В новости добавили примеров работы моделей ( даже есть сгенерированное видео рекламы пасты ). Деталей в целом пока немного, но я обязательно расскажу как только они появятся.

Доступ к моделям можно получить через фреймворк Amazon Bedrock, который посредством API является единой точкой входа в большой список существующих больших моделей (не только от Amazon).

⚡️Также анонсировали выпуск в середине 2025 года мультимодальной модели формата «any-to-any», которая сможет как понимать текст, картинки, аудио и видео, так и генерировать эти типы данных. Неужели 2025й будет новым витком популярности end-to-end декодеров?🤔

🔥По ссылке ещё больше сгенерированных с помощью Reel видео

UPD:
сравнение с другими моделями в комментариях👇

@complete_ai
Forwarded from AIRI Institute
Исследователи из лаборатории «Сильный ИИ в медицине» и лаборатории FusionBrain AIRI вошли в топ-5 соревнования MIDRC XAI Challenge 🔥

Этот конкурс был направлен на решение одной из ключевых задач в области анализа медицинских изображений: создание интерпретируемых и надежных моделей искусственного интеллекта. Задачей участников была разработка и обучение модели классификации фронтальных рентгенограмм грудной клетки на наличие затемнений в лёгких, связанных с любым типом пневмонии.

По итогам команда представила 3 варианта решения задачи и вышла в топ-5 лучших наряду с учёными из Университета Джона Хопкинса, Университета Берна, команды Женского госпиталя в Бирмингеме, а также исследователями из Стенфорда и Университета Тюбингена.

📎Подробнее об участии в конкурсе команда рассказала в свежей статье на нашем Хабре.
Please open Telegram to view this post
VIEW IN TELEGRAM
Complete AI
Помните, на прошлой неделе я говорил об анонсе новой модели от Amazon? Релиз состоялся вчера в рамках конференции Amazon re Invent, где показали аж целое семейство фундаментальных моделей Nova: 📍Micro — маленькая языковая модель, быстрая и дешевая (контекст…
the_amazon_nova_family_of_models_technical_report_and_model_card.pdf
20.2 MB
☝️Метрики и детали в большом техническом отчете

В части картинок и видео список моделей в сравнении не очень большой (если для картинок ещё показали автоматические метрики TIFA и ImageReward, то для видео только HumanEval с Gen 3 Alpha и Luma 1.6)

Хочешь быть SoTA — начни с выбора удобной метрики😅
Уже завтра состоится финальная ИИшница этого года, где исследователи расскажут про свои статьи на NeurIPS 2024 🍳

На онлайн-митапе будут два моих сотрудника:

⚫️Инженер-исследователь Robotics Антон Антонов с RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation — методом интерактивной сегментации для реалистичной оценки скорости и робастности аннотирования. Метод основан на оригинальной модели кликабельности, которая генерирует реалистичные клики аннотаторов. Исследование показало, что не существует одновременно оптимального метода с точки зрения скорости и робастности разметки.

⚫️Младший научный сотрудник Controllable Generative AI Максим Николаев с HairFastGAN: Realistic and Robust Hair Transfer with a Fast Encoder-Based Approach — методе для редактирования причёсок на фотографиях. Метод основан на использовании пространства StyleGAN и набора предобученных энкодеров, что обеспечивает высокую скорость работы. HairFastGAN превосходит аналоги как по качеству переноса причёсок, так и по скорости исполнения, включая самые сложные случаи.

Подробнее об ИИшнице ➡️ тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня закончили трехдневную научную отчетную сессию AIRI, на которой исследователи, от младших научных сотрудников до директоров лабораторий, поделились итогами работы за этот год и планами на следующий. За 3 дня мы прослушали 45 докладов и обсудили 159 постеров.

Всем участникам — большое спасибо за интересные выступления, активные обсуждения и вовлеченность! Вместе мы делаем науку сильнее.
⚡️6⃣🅾🅾4⃣
Благодарю всех подписчиков за доверие🙏
Please open Telegram to view this post
VIEW IN TELEGRAM
Complete AI
⚡️GigaChat стал гигачадовее 😎 Теперь он лучше понимает запросы, быстрее отвечает, запоминает длинные диалоги, распознаёт изображения, а ещё стал прокаченнее в науках. Так как моя команда принимает участие в разработке модели, мне интересно, чтобы вы потестили…
Награда в виде SberBoom Mini 2 сегодня нашла своего нового владельца — победителя конкурса! С чем я его ещё раз поздравляю и желаю приятного пользования💪

В следующем году будем чаще практиковать конкурсы🏆
This media is not supported in your browser
VIEW IN TELEGRAM
Что же объединяет представителей команд?
Я тут иногда на канале буду размещать интересные вакансии от наших партнёров и моих знакомых коллег.

Компания EKSLi, специализирующаяся на автоматизации промышленности, в поисках разработчика и team lead С++. Вакансия для тех, кому хочется участвовать в создании социально/экономически важных проектов и стать частью наукоёмкого, взлетающего стартапа.

Обязанности:
🔹Выстроить стратегию развития стека, разработать внутренние алгоритмы и бизнес логику всей системы
🔹Сформировать команду, руководить группой разработки системы сепаратора и периферийных микросервисов
🔹Поддерживать и модернизировать уже существующее ПО
🔹Прорабатывать функциональные спецификации, формировать и согласовывать техническую документацию
🔹Управлять развитием команды, формировать пул HiPo

Важно:
🔹Управленческий опыт
🔹Опыт работы от 3-х лет на позиции Senior/ Team Lead C++, базовое знание Python
🔹Опыт разработки архитектуры высоконагруженных систем на C++ и построения сложных программных продуктов
🔹Уверенное знание принципов работы ОС Linux

Преимуществом будет:
🔹Опыт в области робототехники или создания оптических сепараторов
🔹Опыт работы с Jetson, Cuda, Docker, Gitlab CI/CD, OpenTelemetry, gRPC, REST API

Пишите в личку или на почту HRD:
[email protected]
@Liubov_ku

Подробнее о вакансии тут.
Complete AI
Новый подарочек от Open AI в 21.00 тут👇 https://www.youtube.com/watch?v=2jKVx2vyZOY @complete_ai
Новый релиз модели синтеза и обработки видео — Sora🎥
🏆В рамках AIJ в этом году моя команда готовила задачу Emotional FusionBrain — участники должны были разработать мультимодальную модель для понимания эмоций, подведения и социального взаимодействия людей на видео.

Не буду тратить тут буквы на рассказ — приглашаю сразу почитать подробности про сореву, победителей и некоторые инсайты их решений на Хабре👇

https://habr.com/ru/companies/airi/articles/864422/
Forwarded from Технологии | Нейросети | Боты
Media is too big
VIEW IN TELEGRAM
🎧 АйЛетов - Маленькая страна (AI Cover на Н. Королёва)

• Автор

@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
🅰🅰🅰
Совсем скоро начнётся главная дискуссия на конференции AIJ, которую мы вновь проводим и делимся самыми важными новостями в области ИИ.

Подключайтесь к прямой трансляции в 15.00
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/01/05 13:11:26
Back to Top
HTML Embed Code: