Всем привет!
29 августа в 18:00 мск я буду насекретно-секретной закрытой встрече сообщества AiConf
На онлайн-встрече будем обсуждать насущное:
✅ Как развиваться внутри data science?
✅ Какие интересные прикладные задачи стоят перед лидерами индустрии?
✅ Перспективы для senior'ов
✅ Где же всё-таки получать практические навыки?
Участники встречи — мои коллеги из Альфа-Банка, Яндекса, МТС и других компаний.
Встреча пройдёт в формате открытой дискуссии, участие бесплатное.
Регистрируйтесь и скоро увидимся 🤝
29 августа в 18:00 мск я буду на
На онлайн-встрече будем обсуждать насущное:
✅ Как развиваться внутри data science?
✅ Какие интересные прикладные задачи стоят перед лидерами индустрии?
✅ Перспективы для senior'ов
✅ Где же всё-таки получать практические навыки?
Участники встречи — мои коллеги из Альфа-Банка, Яндекса, МТС и других компаний.
Встреча пройдёт в формате открытой дискуссии, участие бесплатное.
Регистрируйтесь и скоро увидимся 🤝
❤🔥7🔥5💯3
Complete AI
Qwen сегодня на ACL подробно рассказывали про свою новую мультимодальную архитектуру Qwen2-VL. Работает с картинками, видео. Умеет работать с разными разрешениями, добавили специальные позиционные эмбеддинги, чтобы процессить видео.
⚡⚡⚡Вот и пожаловал релиз Qwen2-VL
https://qwenlm.github.io/blog/qwen2-vl/
Две ключевых фишки подсветили, как и на выступлении на ACL:
1) работа с динамическим разрешением входных изображений (без даунсэмплинга картинок по умолчанию), а энкодер ViT-600M работает как для картинок, так и для видео на входе
2) мультимодальные ROPE, чтобы можно было работать с пространсовенно-временной информацией
UPD: Статью с деталями обещают скоро
https://qwenlm.github.io/blog/qwen2-vl/
Две ключевых фишки подсветили, как и на выступлении на ACL:
1) работа с динамическим разрешением входных изображений (без даунсэмплинга картинок по умолчанию), а энкодер ViT-600M работает как для картинок, так и для видео на входе
2) мультимодальные ROPE, чтобы можно было работать с пространсовенно-временной информацией
We opensource Qwen2-VL-2B and Qwen2-VL-7B with Apache 2.0 license, and we release the API of Qwen2-VL-72B
UPD: Статью с деталями обещают скоро
Qwen
Qwen2-VL: To See the World More Clearly
DEMO GITHUB HUGGING FACE MODELSCOPE API DISCORD
After a year’s relentless efforts, today we are thrilled to release Qwen2-VL! Qwen2-VL is the latest version of the vision language models based on Qwen2 in the Qwen model familities. Compared with Qwen-VL,…
After a year’s relentless efforts, today we are thrilled to release Qwen2-VL! Qwen2-VL is the latest version of the vision language models based on Qwen2 in the Qwen model familities. Compared with Qwen-VL,…
❤🔥9🔥5❤1🏆1
🎉Торжественно завершили Летнюю школу AIRI 2024
Ребята прошли очень напряженный интенсив в части лекционной нагрузки, параллельно прокачивали проекты и сегодня их защищали. Это был крутой путь, выбирать среди представленных 25+ проектов всего 3 лучших было сложно, но мы справились💪
Всем участникам желаю удачи, ПИШ ИТМО большое спасибо за площадку и помощь в организации, ну а мы немного выдохнем, соберём обратную связь, порефлексируем и начнём продумывать Школу в 2025 году!
В следующих постах расскажу про тройку лидеров 😉
Ребята прошли очень напряженный интенсив в части лекционной нагрузки, параллельно прокачивали проекты и сегодня их защищали. Это был крутой путь, выбирать среди представленных 25+ проектов всего 3 лучших было сложно, но мы справились💪
Всем участникам желаю удачи, ПИШ ИТМО большое спасибо за площадку и помощь в организации, ну а мы немного выдохнем, соберём обратную связь, порефлексируем и начнём продумывать Школу в 2025 году!
🔥46❤🔥8👍7❤1👏1
⚡️Новый релиз лаборатории FusionBrain в конце рабочей недели
Представляем вам Guide-and-Rescale — новый способ редактирования изображений с помощью диффузионных моделей, принятый на Core A* конференцию ECCV 2024! Наш метод позволяет менять объекты на картинке, стиль изображения или эмоции на лице по текстовому описанию, сохраняя структуру и детали, которые не должны меняться.
По ссылкам ниже можно найти демо и код👇
🟢 GitHub
🟢 Google Colab
🟢 Hugging Face
Также мы закинули статью на Daily Papers и надеемся на вашу поддержку🤝
Будем рады вашим отзывам, звёздам и апвоутам! ⭐️
Саму работу читайте на arXiv и на хабре.
За деталями можно залетать в канал Айбека, который как раз руководит научной группой Controllable GenAI в лабе, разработавшей этот подход
Представляем вам Guide-and-Rescale — новый способ редактирования изображений с помощью диффузионных моделей, принятый на Core A* конференцию ECCV 2024! Наш метод позволяет менять объекты на картинке, стиль изображения или эмоции на лице по текстовому описанию, сохраняя структуру и детали, которые не должны меняться.
По ссылкам ниже можно найти демо и код👇
Также мы закинули статью на Daily Papers и надеемся на вашу поддержку🤝
Будем рады вашим отзывам, звёздам и апвоутам! ⭐️
Саму работу читайте на arXiv и на хабре.
За деталями можно залетать в канал Айбека, который как раз руководит научной группой Controllable GenAI в лабе, разработавшей этот подход
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉24❤12🔥7🏆2🆒1
А давайте-ка устроим конкурс на ближайшие выходные за самую крутую генерацию😏
🏆Победителя выберем по максимуму положительных реакций в начале следующей недели. В качестве приза устроим персональную экскурсию в Институт AIRI (если вы в Москве ), а также задарим мерча (отправим почтой, куда деваться😅 )
🖼️Генерировать картинки тут
Ваши прекрасные генерации отправляйте в комментах к этой записи👇
UPD: Присылайте сразу в формате — исходная картинка, текстовый промпт для редактирования и результат
🏆Победителя выберем по максимуму положительных реакций в начале следующей недели. В качестве приза устроим персональную экскурсию в Институт AIRI (
🖼️Генерировать картинки тут
Ваши прекрасные генерации отправляйте в комментах к этой записи👇
UPD: Присылайте сразу в формате — исходная картинка, текстовый промпт для редактирования и результат
❤28👍7🆒4
Всем привет 🫡
Мои коллеги из DevCrowd проводят исследование рынка специалистов DS/ML/AI, как нынче в этой сфере живётся. Исследование планируется проводить каждый год, чтобы понимать, стало ли житься ещё лучше😎
Вам нужно только немного рассказать о себе: чем занимаетесь, где учитесь, работаете; и — вуаля — вы внесёте свой маленький вклад в наше общее AI-дело. Исследование поможет сравнить свои ожидания с рынком, построить карьерный план и узнать, что происходит с индустрией в России. Выйдет оно совсем скоро на сайте DevCrowd.
Опрос займёт всего 15 минут!
Мои коллеги из DevCrowd проводят исследование рынка специалистов DS/ML/AI, как нынче в этой сфере живётся. Исследование планируется проводить каждый год, чтобы понимать, стало ли житься ещё лучше
Вам нужно только немного рассказать о себе: чем занимаетесь, где учитесь, работаете; и — вуаля — вы внесёте свой маленький вклад в наше общее AI-дело. Исследование поможет сравнить свои ожидания с рынком, построить карьерный план и узнать, что происходит с индустрией в России. Выйдет оно совсем скоро на сайте DevCrowd.
Опрос займёт всего 15 минут!
Please open Telegram to view this post
VIEW IN TELEGRAM
survey.alchemer.eu
Исследование рынка специалистов DS/ML/AI-направления, 2024
Исследование рынка специалистов DS/ML/AI-направления, 2024.
👍10❤🔥3💯2❤1
👨🏫 Век живи — век учись
Сегодня на конференции Practical ML Conf мы провели мастер класс по методам файнтюнинга диффузионных моделей — это чтобы за небольшое время и на малом объёме данных и вычислительных ресурсов сделать из генеративной модели кастомную конфетку😏
Рассказали и показали какими способами можно файнтюнить модели (LoRA, IP Adapter и др.), какие плюсы и минусы у каждого подхода. Всё это проходило в live режиме, и участники могли сами попробовать разные сценарии работы.
📆На следующей неделе мы отдельно проведём запись мастер класса, и я им сразу поделюсь с вами: там будет и про SD, и про Kandinsky😉
Сегодня на конференции Practical ML Conf мы провели мастер класс по методам файнтюнинга диффузионных моделей — это чтобы за небольшое время и на малом объёме данных и вычислительных ресурсов сделать из генеративной модели кастомную конфетку😏
Рассказали и показали какими способами можно файнтюнить модели (LoRA, IP Adapter и др.), какие плюсы и минусы у каждого подхода. Всё это проходило в live режиме, и участники могли сами попробовать разные сценарии работы.
📆На следующей неделе мы отдельно проведём запись мастер класса, и я им сразу поделюсь с вами: там будет и про SD, и про Kandinsky😉
❤41🔥12👏11👍2🏆1
Всем привет!
Срочная и классная новость!
Мои коллеги из DeepSchool уже сегодня проведут трёхдневный мастер-класс по 3D Computer Vision, где вы сможете научить беспилотную машину ориентироваться в пространстве 🚘
Мастер-класс будет состоять из трёх лекций, они пройдут 17, 18 и 20 сентября (вт, ср и пт).
На лекциях вы:
✔️ научитесь восстанавливать 3D-сцену по данным с камеры и лидара
✔️ узнаете, как ориентировать робота в пространстве
✔️ освоите симулятор Carla для синтеза данных
✔️ поймёте теорию, стоящую за SLAM-алгоритмами
Первая лекция начнётся уже сегодня в 19:00(мск). Не пропустите 💪
Всё подробности и регистрация тут!
Срочная и классная новость!
Мои коллеги из DeepSchool уже сегодня проведут трёхдневный мастер-класс по 3D Computer Vision, где вы сможете научить беспилотную машину ориентироваться в пространстве 🚘
Мастер-класс будет состоять из трёх лекций, они пройдут 17, 18 и 20 сентября (вт, ср и пт).
На лекциях вы:
Первая лекция начнётся уже сегодня в 19:00(мск). Не пропустите 💪
Всё подробности и регистрация тут!
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepSchool | Учим беспилотную машину видеть
Мастер-класс«Учим беспилотную машину видеть»
❤13👍6🎉6🔥1
🏆Стартует первый этап профиля «Искусственный интеллект» Национальной технологической олимпиады
Задача в этом году посвящена биоразнообразию и устойчивому развитию. Участникам предстоит внести свой вклад в спасение животных: разработать алгоритмы для классификации животных на изображениях, создать системы идентификации и научиться детектить редкие виды. Стать и разработчиком, и биологом, и просто неравнодушным ❤️
Призы для победителей:
✔️ Денежные сертификаты на образование (призовой фонд 4 млн рублей)
✔️ Стажировка в Сбере
✔️ Менторская поддержка от крутых AI-экспертов
✔️ Льготы на поступление в ведущие вузы России
📅 Регистрация открыта до 21 октября. Успевайте!
Все подробности по ссылке
Кейс разрабатывался при участии команды SberAI, ученых Института экологии и эволюции им. А.Н. Северцова и Национального парка «Сайлюгемский».
Задача в этом году посвящена биоразнообразию и устойчивому развитию. Участникам предстоит внести свой вклад в спасение животных: разработать алгоритмы для классификации животных на изображениях, создать системы идентификации и научиться детектить редкие виды. Стать и разработчиком, и биологом, и просто неравнодушным ❤️
Призы для победителей:
✔️ Денежные сертификаты на образование (призовой фонд 4 млн рублей)
✔️ Стажировка в Сбере
✔️ Менторская поддержка от крутых AI-экспертов
✔️ Льготы на поступление в ведущие вузы России
📅 Регистрация открыта до 21 октября. Успевайте!
Все подробности по ссылке
Кейс разрабатывался при участии команды SberAI, ученых Института экологии и эволюции им. А.Н. Северцова и Национального парка «Сайлюгемский».
🔥19🙊7🙏6❤2
Forwarded from Институт AIRI
Новый рекорд исследователей AIRI в этом году — сразу 17 статей принято на NeurIPS🔥
Поздравляем всех авторов!
Поздравляем всех авторов!
Please open Telegram to view this post
VIEW IN TELEGRAM
👏67🔥22👍4
Из того, что запомнилось особенно за сегодня на ECCV’24 — доклад лидера команды Wayve (которые в том году выпускали статью про свою модель Gaia-1 для генерации видео в стиле видеорегистратора — эдакая модель мира).
Сначала он рассказал про модели описания сцены Lingo, а также датасет LingoQA. Вторая версия (выпустили в апреле этого года) Lingo-2 умеет также решать задачу определения 3D положения объектов (граундинг), что добавляет к качеству текстовых описаний и ответам на вопросы.
И далее перешел к довольно свежей модели CarLLaVA, выпущенной в июне. Входные кадры с фронтальной камеры делятся на 2 части, кодируются визуальным энкодером LLaVA-Next, фичи объединяются и далее через проектор по классике добавляются в LLM. В итоге получается супер SoTA на CARLA челлендже (отрыв от прошлогодней соты — 458%). Видео демка тут
@complete_ai
Сначала он рассказал про модели описания сцены Lingo, а также датасет LingoQA. Вторая версия (выпустили в апреле этого года) Lingo-2 умеет также решать задачу определения 3D положения объектов (граундинг), что добавляет к качеству текстовых описаний и ответам на вопросы.
И далее перешел к довольно свежей модели CarLLaVA, выпущенной в июне. Входные кадры с фронтальной камеры делятся на 2 части, кодируются визуальным энкодером LLaVA-Next, фичи объединяются и далее через проектор по классике добавляются в LLM. В итоге получается супер SoTA на CARLA челлендже (отрыв от прошлогодней соты — 458%). Видео демка тут
@complete_ai
🔥18❤5💯3👎1😁1
⚡️Второй день воркшопов на ECCV’24 также оставил у меня в памяти несколько интересных инсайтов. Я постарался уделить время воркшопам по GenAI для видео, а также внутренним знаниям о визуальных концептах в генеративных моделях.
Из первого был интересный доклад профессора из University of Massachusetts Chuang Gan (H-index=69), который рассказывал о комбинации видео и дифференцируемой физики как способе построения моделей мира. Видео сами по себе не способны быть достоверным предсказанием каких-либо событий, но добавляя обуславливание на законы физики можно научить модель «прогнозировать будущее». Также он показал модель 3D-VLA, у которой помимо понимания видео на входе есть промежуточный блок с диффузией, который генерирует «воображение», то есть несколько шагов вперед относительно текущего состояния, чтобы лучше прогнозировать следующее действие.
Во втором воркшопе доклад бесспорного классика для многих специалистов в компьютерном зрении David Forsyth (H-index=88) был коротким, но максимально полезным. Он посвятил выступление открытым вопросам в части интерпретируемости моделей генерации изображений и как внутри моделей «располагаются» разные концепты, а также какими «знаниями» располагают модели синтеза изображений. А также почему с генерацией одних типов объектов модели справляются, а с другими нет. Ответами на эти вопросы сейчас занимаются многие ученые, поэтому это скорее был визионерский доклад о вызовах в области понимания «внутрянки» архитектур. Подсветил некоторые работы в этом направлении и исследовательские задачи на ближайшее время💪
В комментариях выложу фото избранных слайдов по обоим докладам👇
@complete_ai
Из первого был интересный доклад профессора из University of Massachusetts Chuang Gan (H-index=69), который рассказывал о комбинации видео и дифференцируемой физики как способе построения моделей мира. Видео сами по себе не способны быть достоверным предсказанием каких-либо событий, но добавляя обуславливание на законы физики можно научить модель «прогнозировать будущее». Также он показал модель 3D-VLA, у которой помимо понимания видео на входе есть промежуточный блок с диффузией, который генерирует «воображение», то есть несколько шагов вперед относительно текущего состояния, чтобы лучше прогнозировать следующее действие.
Во втором воркшопе доклад бесспорного классика для многих специалистов в компьютерном зрении David Forsyth (H-index=88) был коротким, но максимально полезным. Он посвятил выступление открытым вопросам в части интерпретируемости моделей генерации изображений и как внутри моделей «располагаются» разные концепты, а также какими «знаниями» располагают модели синтеза изображений. А также почему с генерацией одних типов объектов модели справляются, а с другими нет. Ответами на эти вопросы сейчас занимаются многие ученые, поэтому это скорее был визионерский доклад о вызовах в области понимания «внутрянки» архитектур. Подсветил некоторые работы в этом направлении и исследовательские задачи на ближайшее время💪
В комментариях выложу фото избранных слайдов по обоим докладам👇
@complete_ai
👍20🔥14💯2😁1