Complete AI

Всем привет!

29 августа в 18:00 мск я буду на ~~секретно-секретной~~ закрытой встрече сообщества AiConf

На онлайн-встрече будем обсуждать насущное:

✅ Как развиваться внутри data science?
✅ Какие интересные прикладные задачи стоят перед лидерами индустрии?
✅ Перспективы для senior'ов
✅ Где же всё-таки получать практические навыки?

Участники встречи — мои коллеги из Альфа-Банка, Яндекса, МТС и других компаний.

Встреча пройдёт в формате открытой дискуссии, участие бесплатное.

Регистрируйтесь и скоро увидимся 🤝

❤‍🔥7🔥5💯3

3.43K viewsAndrey Kuznetsov, edited 19:32

Complete AI

Qwen сегодня на ACL подробно рассказывали про свою новую мультимодальную архитектуру Qwen2-VL. Работает с картинками, видео. Умеет работать с разными разрешениями, добавили специальные позиционные эмбеддинги, чтобы процессить видео.

⚡⚡⚡Вот и пожаловал релиз Qwen2-VL

https://qwenlm.github.io/blog/qwen2-vl/

Две ключевых фишки подсветили, как и на выступлении на ACL:
1) работа с динамическим разрешением входных изображений (без даунсэмплинга картинок по умолчанию), а энкодер ViT-600M работает как для картинок, так и для видео на входе
2) мультимодальные ROPE, чтобы можно было работать с пространсовенно-временной информацией

We opensource Qwen2-VL-2B and Qwen2-VL-7B with Apache 2.0 license, and we release the API of Qwen2-VL-72B

UPD: Статью с деталями обещают скоро

Qwen

Qwen2-VL: To See the World More Clearly

DEMO GITHUB HUGGING FACE MODELSCOPE API DISCORD
After a year’s relentless efforts, today we are thrilled to release Qwen2-VL! Qwen2-VL is the latest version of the vision language models based on Qwen2 in the Qwen model familities. Compared with Qwen-VL,…

❤‍🔥9🔥5❤1🏆1

3.44K viewsAndrey Kuznetsov, edited 09:45

Complete AI

🎉Торжественно завершили Летнюю школу AIRI 2024

Ребята прошли очень напряженный интенсив в части лекционной нагрузки, параллельно прокачивали проекты и сегодня их защищали. Это был крутой путь, выбирать среди представленных 25+ проектов всего 3 лучших было сложно, но мы справились💪

Всем участникам желаю удачи, ПИШ ИТМО большое спасибо за площадку и помощь в организации, ну а мы немного выдохнем, соберём обратную связь, порефлексируем и начнём продумывать Школу в 2025 году!

В следующих постах расскажу про тройку лидеров

😉

🔥46❤‍🔥8👍7❤1👏1

3.57K viewsAndrey Kuznetsov, 15:26

Complete AI

⚡️Новый релиз лаборатории FusionBrain в конце рабочей недели

Представляем вам Guide-and-Rescale — новый способ редактирования изображений с помощью диффузионных моделей, принятый на Core A* конференцию ECCV 2024! Наш метод позволяет менять объекты на картинке, стиль изображения или эмоции на лице по текстовому описанию, сохраняя структуру и детали, которые не должны меняться.

По ссылкам ниже можно найти демо и код👇

🟢

GitHub

🟢

Google Colab

🟢

Hugging Face
Также мы закинули статью на Daily Papers и надеемся на вашу поддержку🤝

Будем рады вашим отзывам, звёздам и апвоутам! ⭐️

Саму работу читайте на arXiv и на хабре.

За деталями можно залетать в канал Айбека, который как раз руководит научной группой Controllable GenAI в лабе, разработавшей этот подход

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉24❤12🔥7🏆2🆒1

3.75K viewsAndrey Kuznetsov, 12:49

Complete AI

А давайте-ка устроим конкурс на ближайшие выходные за самую крутую генерацию😏

🏆Победителя выберем по максимуму положительных реакций в начале следующей недели. В качестве приза устроим персональную экскурсию в Институт AIRI (если вы в Москве), а также задарим мерча (отправим почтой, куда деваться😅)

🖼️Генерировать картинки тут

Ваши прекрасные генерации отправляйте в комментах к этой записи👇

UPD: Присылайте сразу в формате — исходная картинка, текстовый промпт для редактирования и результат

❤28👍7🆒4

4.23K viewsAndrey Kuznetsov, edited 14:34

Complete AI

Всем привет 🫡

Мои коллеги из DevCrowd проводят исследование рынка специалистов DS/ML/AI, как нынче в этой сфере живётся. Исследование планируется проводить каждый год, чтобы понимать, стало ли житься ещё лучше 😎

Вам нужно только немного рассказать о себе: чем занимаетесь, где учитесь, работаете; и — вуаля — вы внесёте свой маленький вклад в наше общее AI-дело. Исследование поможет сравнить свои ожидания с рынком, построить карьерный план и узнать, что происходит с индустрией в России. Выйдет оно совсем скоро на сайте DevCrowd.

Опрос займёт всего 15 минут!

Please open Telegram to view this post

VIEW IN TELEGRAM

survey.alchemer.eu

Исследование рынка специалистов DS/ML/AI-направления, 2024

Исследование рынка специалистов DS/ML/AI-направления, 2024.

👍10❤‍🔥3💯2❤1

3.83K viewsAndrey Kuznetsov, 09:02

Complete AI

👨‍🏫 Век живи — век учись

Сегодня на конференции Practical ML Conf мы провели мастер класс по методам файнтюнинга диффузионных моделей — это чтобы за небольшое время и на малом объёме данных и вычислительных ресурсов сделать из генеративной модели кастомную конфетку😏

Рассказали и показали какими способами можно файнтюнить модели (LoRA, IP Adapter и др.), какие плюсы и минусы у каждого подхода. Всё это проходило в live режиме, и участники могли сами попробовать разные сценарии работы.

📆На следующей неделе мы отдельно проведём запись мастер класса, и я им сразу поделюсь с вами: там будет и про SD, и про Kandinsky😉

❤41🔥12👏11👍2🏆1

3.18K viewsAndrey Kuznetsov, edited 17:25

Complete AI

Всем привет!

Срочная и классная новость!

Мои коллеги из DeepSchool уже сегодня проведут трёхдневный мастер-класс по 3D Computer Vision, где вы сможете научить беспилотную машину ориентироваться в пространстве 🚘

Мастер-класс будет состоять из трёх лекций, они пройдут 17, 18 и 20 сентября (вт, ср и пт).

На лекциях вы:
✔️ научитесь восстанавливать 3D-сцену по данным с камеры и лидара
✔️ узнаете, как ориентировать робота в пространстве
✔️ освоите симулятор Carla для синтеза данных
✔️ поймёте теорию, стоящую за SLAM-алгоритмами

Первая лекция начнётся уже сегодня в 19:00(мск). Не пропустите 💪

Всё подробности и регистрация тут !

Please open Telegram to view this post

VIEW IN TELEGRAM

DeepSchool | Учим беспилотную машину видеть

Мастер-класс«Учим беспилотную машину видеть»

❤13👍6🎉6🔥1

3.85K viewsAndrey Kuznetsov, edited 07:01

Complete AI

🏆Стартует первый этап профиля «Искусственный интеллект» Национальной технологической олимпиады

Задача в этом году посвящена биоразнообразию и устойчивому развитию. Участникам предстоит внести свой вклад в спасение животных: разработать алгоритмы для классификации животных на изображениях, создать системы идентификации и научиться детектить редкие виды. Стать и разработчиком, и биологом, и просто неравнодушным ❤️

Призы для победителей:
✔️ Денежные сертификаты на образование (призовой фонд 4 млн рублей)
✔️ Стажировка в Сбере
✔️ Менторская поддержка от крутых AI-экспертов
✔️ Льготы на поступление в ведущие вузы России

📅 Регистрация открыта до 21 октября. Успевайте!

Все подробности по ссылке

Кейс разрабатывался при участии команды SberAI, ученых Института экологии и эволюции им. А.Н. Северцова и Национального парка «Сайлюгемский».

🔥19🙊7🙏6❤2

4.16K viewsAndrey Kuznetsov, 16:52

Complete AI

Forwarded from Институт AIRI

Новый рекорд исследователей AIRI в этом году — сразу 17 статей принято на NeurIPS

🔥

Поздравляем всех авторов!

Please open Telegram to view this post

VIEW IN TELEGRAM

👏67🔥22👍4

2.42K viewsAndrey Kuznetsov, 09:48

Complete AI

ECCV 2024. Day 1. Workshops and Tutorials

🔥29👍9💯4👎2❤1

2.49K viewsAndrey Kuznetsov, 07:16

Complete AI

Из того, что запомнилось особенно за сегодня на ECCV’24 — доклад лидера команды Wayve (которые в том году выпускали статью про свою модель Gaia-1 для генерации видео в стиле видеорегистратора — эдакая модель мира).

Сначала он рассказал про модели описания сцены Lingo, а также датасет LingoQA. Вторая версия (выпустили в апреле этого года) Lingo-2 умеет также решать задачу определения 3D положения объектов (граундинг), что добавляет к качеству текстовых описаний и ответам на вопросы.

И далее перешел к довольно свежей модели CarLLaVA, выпущенной в июне. Входные кадры с фронтальной камеры делятся на 2 части, кодируются визуальным энкодером LLaVA-Next, фичи объединяются и далее через проектор по классике добавляются в LLM. В итоге получается супер SoTA на CARLA челлендже (отрыв от прошлогодней соты — 458%). Видео демка тут

@complete_ai

🔥18❤5💯3👎1😁1

2.73K viewsAndrey Kuznetsov, 16:25

Complete AI

⚡️Второй день воркшопов на ECCV’24 также оставил у меня в памяти несколько интересных инсайтов. Я постарался уделить время воркшопам по GenAI для видео, а также внутренним знаниям о визуальных концептах в генеративных моделях.

Из первого был интересный доклад профессора из University of Massachusetts Chuang Gan (H-index=69), который рассказывал о комбинации видео и дифференцируемой физики как способе построения моделей мира. Видео сами по себе не способны быть достоверным предсказанием каких-либо событий, но добавляя обуславливание на законы физики можно научить модель «прогнозировать будущее». Также он показал модель 3D-VLA, у которой помимо понимания видео на входе есть промежуточный блок с диффузией, который генерирует «воображение», то есть несколько шагов вперед относительно текущего состояния, чтобы лучше прогнозировать следующее действие.

Во втором воркшопе доклад бесспорного классика для многих специалистов в компьютерном зрении David Forsyth (H-index=88) был коротким, но максимально полезным. Он посвятил выступление открытым вопросам в части интерпретируемости моделей генерации изображений и как внутри моделей «располагаются» разные концепты, а также какими «знаниями» располагают модели синтеза изображений. А также почему с генерацией одних типов объектов модели справляются, а с другими нет. Ответами на эти вопросы сейчас занимаются многие ученые, поэтому это скорее был визионерский доклад о вызовах в области понимания «внутрянки» архитектур. Подсветил некоторые работы в этом направлении и исследовательские задачи на ближайшее время💪

В комментариях выложу фото избранных слайдов по обоим докладам👇

@complete_ai

👍20🔥14💯2😁1

2.36K viewsAndrey Kuznetsov, 21:15

2025/07/09 15:05:38
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>