Telegram Web
Всем привет!

29 августа в 18:00 мск я буду на секретно-секретной закрытой встрече сообщества AiConf

На онлайн-встрече будем обсуждать насущное:

Как развиваться внутри data science?
Какие интересные прикладные задачи стоят перед лидерами индустрии?
Перспективы для senior'ов
Где же всё-таки получать практические навыки?

Участники встречи — мои коллеги из Альфа-Банка, Яндекса, МТС и других компаний.

Встреча пройдёт в формате открытой дискуссии, участие бесплатное.

Регистрируйтесь и скоро увидимся 🤝
❤‍🔥7🔥5💯3
Complete AI
Qwen сегодня на ACL подробно рассказывали про свою новую мультимодальную архитектуру Qwen2-VL. Работает с картинками, видео. Умеет работать с разными разрешениями, добавили специальные позиционные эмбеддинги, чтобы процессить видео.
Вот и пожаловал релиз Qwen2-VL

https://qwenlm.github.io/blog/qwen2-vl/

Две ключевых фишки подсветили, как и на выступлении на ACL:
1) работа с динамическим разрешением входных изображений (без даунсэмплинга картинок по умолчанию), а энкодер ViT-600M работает как для картинок, так и для видео на входе
2) мультимодальные ROPE, чтобы можно было работать с пространсовенно-временной информацией

We opensource Qwen2-VL-2B and Qwen2-VL-7B with Apache 2.0 license, and we release the API of Qwen2-VL-72B

UPD:
Статью с деталями обещают скоро
❤‍🔥9🔥51🏆1
🎉Торжественно завершили Летнюю школу AIRI 2024

Ребята прошли очень напряженный интенсив в части лекционной нагрузки, параллельно прокачивали проекты и сегодня их защищали. Это был крутой путь, выбирать среди представленных 25+ проектов всего 3 лучших было сложно, но мы справились💪

Всем участникам желаю удачи, ПИШ ИТМО большое спасибо за площадку и помощь в организации, ну а мы немного выдохнем, соберём обратную связь, порефлексируем и начнём продумывать Школу в 2025 году!

В следующих постах расскажу про тройку лидеров😉
🔥46❤‍🔥8👍71👏1
⚡️Новый релиз лаборатории FusionBrain в конце рабочей недели

Представляем вам Guide-and-Rescale — новый способ редактирования изображений с помощью диффузионных моделей, принятый на Core A* конференцию ECCV 2024! Наш метод позволяет менять объекты на картинке, стиль изображения или эмоции на лице по текстовому описанию, сохраняя структуру и детали, которые не должны меняться.

По ссылкам ниже можно найти демо и код👇
🟢GitHub
🟢Google Colab
🟢Hugging Face
Также мы закинули статью на Daily Papers и надеемся на вашу поддержку🤝

Будем рады вашим отзывам, звёздам и апвоутам! ⭐️

Саму работу читайте на arXiv и на хабре.

За деталями можно залетать в канал Айбека, который как раз руководит научной группой Controllable GenAI в лабе, разработавшей этот подход
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉2412🔥7🏆2🆒1
А давайте-ка устроим конкурс на ближайшие выходные за самую крутую генерацию😏

🏆Победителя выберем по максимуму положительных реакций в начале следующей недели. В качестве приза устроим персональную экскурсию в Институт AIRI (если вы в Москве), а также задарим мерча (отправим почтой, куда деваться😅)

🖼️Генерировать картинки тут

Ваши прекрасные генерации отправляйте в комментах к этой записи👇

UPD: Присылайте сразу в формате — исходная картинка, текстовый промпт для редактирования и результат
28👍7🆒4
Всем привет 🫡

Мои коллеги из DevCrowd проводят исследование рынка специалистов DS/ML/AI, как нынче в этой сфере живётся. Исследование планируется проводить каждый год, чтобы понимать, стало ли житься ещё лучше 😎

Вам нужно только немного рассказать о себе: чем занимаетесь, где учитесь, работаете; и — вуаля — вы внесёте свой маленький вклад в наше общее AI-дело. Исследование поможет сравнить свои ожидания с рынком, построить карьерный план и узнать, что происходит с индустрией в России. Выйдет оно совсем скоро на сайте DevCrowd.

Опрос займёт всего 15 минут!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤‍🔥3💯21
👨‍🏫 Век живи — век учись

Сегодня на конференции Practical ML Conf мы провели мастер класс по методам файнтюнинга диффузионных моделей — это чтобы за небольшое время и на малом объёме данных и вычислительных ресурсов сделать из генеративной модели кастомную конфетку😏

Рассказали и показали какими способами можно файнтюнить модели (LoRA, IP Adapter и др.), какие плюсы и минусы у каждого подхода. Всё это проходило в live режиме, и участники могли сами попробовать разные сценарии работы.

📆На следующей неделе мы отдельно проведём запись мастер класса, и я им сразу поделюсь с вами: там будет и про SD, и про Kandinsky😉
41🔥12👏11👍2🏆1
Всем привет!

Срочная и классная новость!

Мои коллеги из DeepSchool уже сегодня проведут трёхдневный мастер-класс по 3D Computer Vision, где вы сможете научить беспилотную машину ориентироваться в пространстве 🚘

Мастер-класс будет состоять из трёх лекций, они пройдут 17, 18 и 20 сентября (вт, ср и пт).

На лекциях вы:
✔️ научитесь восстанавливать 3D-сцену по данным с камеры и лидара
✔️ узнаете, как ориентировать робота в пространстве
✔️ освоите симулятор Carla для синтеза данных
✔️ поймёте теорию, стоящую за SLAM-алгоритмами

Первая лекция начнётся уже сегодня в 19:00(мск). Не пропустите 💪

Всё подробности и регистрация тут!
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍6🎉6🔥1
🏆Стартует первый этап профиля «Искусственный интеллект» Национальной технологической олимпиады

Задача в этом году посвящена биоразнообразию и устойчивому развитию. Участникам предстоит внести свой вклад в спасение животных: разработать алгоритмы для классификации животных на изображениях, создать системы идентификации и научиться детектить редкие виды. Стать и разработчиком, и биологом, и просто неравнодушным ❤️

Призы для победителей:
✔️ Денежные сертификаты на образование (призовой фонд 4 млн рублей)
✔️ Стажировка в Сбере
✔️ Менторская поддержка от крутых AI-экспертов
✔️ Льготы на поступление в ведущие вузы России

📅 Регистрация открыта до 21 октября. Успевайте!

Все подробности по
ссылке

Кейс разрабатывался при участии команды SberAI, ученых Института экологии и эволюции им. А.Н. Северцова и Национального парка «Сайлюгемский».
🔥19🙊7🙏62
Forwarded from Институт AIRI
Новый рекорд исследователей AIRI в этом году — сразу 17 статей принято на NeurIPS🔥

Поздравляем всех авторов!
Please open Telegram to view this post
VIEW IN TELEGRAM
👏67🔥22👍4
ECCV 2024. Day 1. Workshops and Tutorials
🔥29👍9💯4👎21
Из того, что запомнилось особенно за сегодня на ECCV’24 — доклад лидера команды Wayve (которые в том году выпускали статью про свою модель Gaia-1 для генерации видео в стиле видеорегистратора — эдакая модель мира).

Сначала он рассказал про модели описания сцены Lingo, а также датасет LingoQA. Вторая версия (выпустили в апреле этого года) Lingo-2 умеет также решать задачу определения 3D положения объектов (граундинг), что добавляет к качеству текстовых описаний и ответам на вопросы.

И далее перешел к довольно свежей модели CarLLaVA, выпущенной в июне. Входные кадры с фронтальной камеры делятся на 2 части, кодируются визуальным энкодером LLaVA-Next, фичи объединяются и далее через проектор по классике добавляются в LLM. В итоге получается супер SoTA на CARLA челлендже (отрыв от прошлогодней соты — 458%). Видео демка тут

@complete_ai
🔥185💯3👎1😁1
⚡️Второй день воркшопов на ECCV’24 также оставил у меня в памяти несколько интересных инсайтов. Я постарался уделить время воркшопам по GenAI для видео, а также внутренним знаниям о визуальных концептах в генеративных моделях.

Из первого был интересный доклад профессора из University of Massachusetts Chuang Gan (H-index=69), который рассказывал о комбинации видео и дифференцируемой физики как способе построения моделей мира. Видео сами по себе не способны быть достоверным предсказанием каких-либо событий, но добавляя обуславливание на законы физики можно научить модель «прогнозировать будущее». Также он показал модель 3D-VLA, у которой помимо понимания видео на входе есть промежуточный блок с диффузией, который генерирует «воображение», то есть несколько шагов вперед относительно текущего состояния, чтобы лучше прогнозировать следующее действие.

Во втором воркшопе доклад бесспорного классика для многих специалистов в компьютерном зрении David Forsyth (H-index=88) был коротким, но максимально полезным. Он посвятил выступление открытым вопросам в части интерпретируемости моделей генерации изображений и как внутри моделей «располагаются» разные концепты, а также какими «знаниями» располагают модели синтеза изображений. А также почему с генерацией одних типов объектов модели справляются, а с другими нет. Ответами на эти вопросы сейчас занимаются многие ученые, поэтому это скорее был визионерский доклад о вызовах в области понимания «внутрянки» архитектур. Подсветил некоторые работы в этом направлении и исследовательские задачи на ближайшее время💪

В комментариях выложу фото избранных слайдов по обоим докладам👇

@complete_ai
👍20🔥14💯2😁1
2025/07/09 15:05:38
Back to Top
HTML Embed Code: