Telegram Web
У нас тут кстати случилось чудесное событие после одного телефонного звоночка на прошлой неделе)

Разблокировали гитхаб лаборатории — https://github.com/FusionBrainLab 🎉

Все звёзды на месте🔥🔥🔥
3🔥62🎉14🏆5👍2🌚1🆒1
Прекрасная новость!
Наша статья про open source фреймворк LLM-Microscope и методы оценки языковых моделей на предмет измерения контекстуальности токенов, нелинейности, logit lens и прочего снова борется за первое место на Hugging Face за звание Paper of the day🏆

Поддержите upvote'ами🙏
Мы пока на втором месте, но верю, что можем на первом оказаться)
Cтатья принята на большую международную конференцию Core A — NAACL 2025

Отдать голос за статью можно тут👇
https://huggingface.co/papers/2502.15007

UPD: Спасибо всем большое🙏 Вы как всегда крутые💪
🔥61👍15👏73🤔1
⚡️+1 Accept на CVPR-2025

Детали о принятой статье расскажу чуть позже😉
1🔥496🆒3🌚2👏1
⚡️⚡️⚡️Первая open-source модель переноса головы на фото — GHOST 2.0

Сегодня мы выпустили первую модель для переноса головы на фото с открытым кодом — GHOST 2.0. Модель продолжает наследие семейства моделей переноса лиц на фото и видео (GHOST).

Архитектура GHOST 2.0 модели включает две составляющих:
🟢 Aligner для реконструкции положения головы и трансфера выражения лица с головы-источника
🟢 Blender позволяет "встроить" голову в целевую картинку с сохранение свойств окружения (чтобы освещение и контраст совпадали, а также дорисовались области-лакуны, которые возникли при переносе)

Самое интересное, что в open source таких моделей по сути нет и самый ближайший аналог — это модель HeSer 2022 года, которую по метрикам удалось обойти. Также мы проделали большой объём работы, исследуя механизмы блендинга и аугментации данных при обучении, чтобы постараться учесть сложные кейсы, когда голова-источник отличается от области встраивания по форме, положению, причёске и т.д. Подробно про эти эксперименты можно почитать в детальном тех репорте.

Внизу по ссылочке можно поиграть с демкой, почитать Хабр и собственно развернуть у себя код, чтобы изучить "нутро" модели. В ближайшее время обновим TG бот, и я отдельно оповещу об этом)

⚡️По сложившейся традиции все наши статьи стараемся номинировать на Paper of the day на Hugging Face — буду очень рад вашим Upvote голосам👇
https://huggingface.co/papers/2502.18417

Полезные ссылки:
👉 ArXiv: https://arxiv.org/abs/2502.18417
👉 Хабр: https://habr.com/ru/companies/sberbank/articles/884780/
👉 Project page: https://ai-forever.github.io/ghost-2.0/

@complete_ai
2🔥27💯7🏆6👏1🌚1
Приглашаю вас на AI Agents x Web3 BuildCon — митап для фаундеров и разработчиков, которые работают над запуском AI-продуктов в Web3.

Мероприятие состоится 4 марта при поддержке моих коллег из ComUnity Sber и MSK FRENS! На митапе будут разобраны реальные кейсы от тех, кто уже строит продукты с использованием децентрализованного ИИ. Если вы ИИ-разработчик, владелец бизнеса, который хочет внедрить ИИ в свои процессы, заинтересованный в технологиях ИИ пользователь, то митап для вас 🙂

Ключевые вопросы:
🟡Как билдить AI-агентов?
🟡Где искать инфраструктуру и полезные контакты?
🟡Что реально работает в Web3 и AI?

В программе спикеры: Sber AI, Лаборатория блокчейн Сбера, Fluence, AIRI, TETRIX, VARA, ComBox, Quarm и другие.

🔜 Бесплатный билет
🔜 ТГ-чат с навигацией @mskfrens

Адрес митапа: Кутузовский пр-кт 32к1, 2-ой этаж, конференц-зал.

Как добраться: Яндекс Карты | Google Карты

Для участия обязательно необходима регистрация и подтверждение регистрации, для прохода на площадку необходим паспорт. Не забудьте!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18
Forwarded from RnD CV Team
🙋‍♀️ Всем привет! В предыдущем посте мы уже рассказывали, как наш датасет EasyPortrait помог коллегам при создании модели GHOST 2.0.

⚡️ А на прошлой неделе наша команда приезжала в Португалию на конференцию VISIGRAPP '25, где представляла статью EasyPortrait — Face Parsing and Portrait Segmentation Dataset.

🚀 Конференция прошла 26-28 февраля в городе Порту, и за 3 дня на ней было представлено больше 200 статей. На конференции мы услышали обратную связь от сообщества, пообщались с коллегами из других стран, а также послушали множество докладов других участников.

📖 ArXiv: https://arxiv.org/abs/2304.13509
👩‍💻 GitHub: https://github.com/hukenovs/easyportrait
🔑 kaggle: https://www.kaggle.com/datasets/kapitanov/easyportrait

#news
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤‍🔥1041
Kandinsky в платёжных терминалах по всей стране готовится поздравлять всех женщин и девушек 💐
❤‍🔥50🔥2062😱2🎉1🌚1👾1
Forwarded from Институт AIRI
На связи #AIRI_Seminars, рассказываем про следующий семинар, который пройдет 12 марта

Руководитель группы компьютерного зрения MTS AI представит доклад на тему «Обучение штраф разреженности с помощью неявного дифференцирования для робастной оценки и регуляризации изображений». Оппонентом выступит кандидат технических наук, директор лаборатории FusionBrain AIRI Андрей Кузнецов.

Семинар пройдет на английском языке. Подробное описание и регистрация на офлайн-формат с пиццей и нетворкингом по ссылке.

Трансляции: VK Видео и YouTube📌
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥14👍6💯2
This media is not supported in your browser
VIEW IN TELEGRAM
🎉Всех женщин и девушек, читающих этот канал, сердечно поздравляю с Международным женским днём!

Прекрасно понимаю, что среди читателей представительницы совершенно разных профессий: учёные, преподаватели, студенты, менеджеры, маркетологи, дизайнеры и многие другие. И в каждом деле, в каждой профессии, в доме и в семье вы приносите душевность, нежность, вдохновение и заряжаете окружающих вас мужчин огромным зарядом энергии, оптимизма и стремления совершать открытия💐 Спасибо вам за то, что вы есть каждый день! Мы вам очень-очень благодарны за это💐❤️
49❤‍🔥13🔥12🦄9😁1🤔1
На прошлой неделе вышло моё небольшое интервью для @snobru на тему технологической гонки в ИИ в мире. Обсуждали глобальные вызовы, подходы к развитию ИИ в США, Европе и Азии.

Подробнее можно посмотреть по ссылке
❤‍🔥2211👍7🏆3🔥1
Forwarded from AbstractDL
M-Attack: как обмануть GPT-4.5 и Gemini

Все привыкли, что атаковать современные мультимодальные модели (типа GPT-4o, Claude, Gemini и т.п.) крайне сложно — особенно, если это black-box модели, где нет доступа к градиентам и архитектуре. Стандартные подходы атак типа "выдать одну картинку за другую" часто генерируют какие-то невнятные шумы, которые либо игнорируются моделью, либо приводят к абстрактным ответам типа "размытое изображение".

Но оказалось, что проблема была не в самих моделях, а в подходе к генерации возмущений. В свежей статье предложили очень простой, но мощный подход — M-Attack:
1. Берём исходную и целевую картинки.
2. На каждом шаге рандомно crop'аем кусок исходного изображения (50-100% площади) и затем ресайзим обратно до исходного размера.
3. Заставляем эмбеддинги этого кусочка максимально приблизиться к эмбеддингам целевого изображения оптимизируясь в white-box режиме по ансамблю открытых визуальных моделей (например, CLIP, ViT и тп).

И всё! После нескольких итераций в центральной области картинки "проявляется" целевая семантика, при этом возмущения выглядят крайне незаметно и аккуратно (в отличие от других подходов).

Авторы добились совершенно впечатляющих результатов: успех атаки (ASR) превышает 90% (!) для GPT-4.5, GPT-4o и даже для o1 и Gemini. Код и датасет из 100 атакованных картинок выложили в открытый доступ.

Статья, GitHub, dataset
👍28🔥155😁2
⚡️Наша новая статья про прунинг визуальных энкодеров в мультимодальных моделях «When Less is Enough: Adaptive Token Reduction for Efficient Image Representation» снова борется за звание Paper of the day на Hugging Face

Особенность исследования в том, что от 30 до 50% визуальных фичей можно исключить из контекста мультимодальной модели при незначительном проседании в качестве на бенчах. Очень интересный результат, который мы продолжаем проверять на различных задачах - несёт пользу для экономии длины контекста мультимодальных моделей

Немного не хватает до первого места) Будем очень рады и благодарны вашим апвоутам 🔝

https://huggingface.co/papers/2503.16660
1🔥30👍104🏆2
⚡️Всегда испытываю искреннюю радость за успехи ребят, с которыми удалось работать! Андрей пришел стажером ко мне в лабораторию в 2024 году по предложению @Ivan_Oseledets, занимался исследованиями мультимодальных архитектур, параллельно обучаясь и набираясь опыта, достигая успехов в исследованиях в AIRI и не только. А сегодня я горжусь его успехами и рад, что имею возможность работать с такими талантливыми ребятами🙏
🔥57🆒7👏53🏆3
Прошло уже больше 6 лет с последнего open source релиза LLM от Open AI (это была модель GPT-2 в феврале 2019), и вот Альтман говорит, что в ближайшее время планируется релиз новой открытой модели🙈 Верим?

https://techcrunch.com/2025/03/31/openai-plans-to-release-a-new-open-language-model-in-the-coming-months/
😁15
Forwarded from Институт AIRI
Как удаление знаков препинания и артиклей в запросе снижает точность языковых моделей до 20%⤵️

Исследователи AIRI обнаружили, что знаки препинания и артикли играют более важную роль в обработке информации языковыми моделями, чем кажется на первый взгляд. Это удалось узнать с помощью метода, который позволяет определить, какие именно данные сохраняются в связке с конкретными токенами.

В серии экспериментов исследователи использовали тексты, из которых заранее убрали элементы, кажущиеся незначительными для логики повествования: знаки препинания, артикли и стоп-слова. Для этого систему обучили анализировать последовательность токенов и восстанавливать текст. Оказалось, что больше всего информации о контексте содержится именно в стоп-словах. Затем поставили перед несколькими популярными языковыми моделями задачу — решить, какие элементы текста, с точки зрения человека, можно удалить. Проверка подтвердила, что, если убрать из формулировки технического задания такие «незначительные» символы, качество работы модели падает.

📎Код для анализа работы языковых моделей доступен по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤‍🔥2112🏆6👍4🤔21
Я участвую в Программном комитете AiConf X 2025 — конференции по Data Science от Онтико, организаторов HighLoad++ и TeamLeadConf 🌟

Сейчас мы ищем сильных спикеров и доклады по темам:
🟡RecSys, поиск, таблицы
🟡Генеративный AI: генерация и распознавание текстов, музыки, изображение, видео, рerception
🟡ML Edge — оптимизация обучения и инференса, дистилляция, квантизация, hardware и т.д.
🟡Automotive, роботы
🟡Обработка данных и бенчмарки

Акцент конференции на практические форматы: мастер-классы, воркшопы, круглые столы и т.д.

Даже если ваша тема отличается от перечисленных, присылайте заявки 🙂

10 апреля в 17:00 приглашаем на бесплатную онлайн-встречу с программным коммитетом, где обсудим темы конференции, идеи и ответим на вопросы. Встреча неформальная, нужно пройти регистрацию!

Жду ваши доклады!
Please open Telegram to view this post
VIEW IN TELEGRAM
👏17❤‍🔥4👍41
⚡️⚡️⚡️И вот снова приближается Лето с AIRI, где моя лаборатория будет представлена в трёх треках:

📍Мультимодальные модели для видео
📍Генеративные модели для параметрических данных
📍World Models (совместно с @causality_links)

Мы подготовим очень крутой материал на базе проводимых исследований, в том числе с описанием ряда прикладных продуктовых кейсов, где нам удалось апробировать полученные результаты. Поделимся процессом поиска эффективных решений и результатом выбора наилучших из них.

Летняя школа пройдёт с 30.06 по 10.07 на базе Томского государственного университета. Участникам, прошедшим отбор, понадобится самостоятельно покрыть только транспортные расходы.

Если ты бакалавр 2-4 курса, магистр, аспирант или молодой учёный, то…
👉 Регистрируйся по ссылке до 29 апреля включительно
👉 Пиши крутую заявку на участие в отборе
👉 Приезжай и получай возможность интенсивно прокачаться за лето, найти новых единомышленников и может быть даже подготовить свою первую статью на топ конференцию

Вопросы можно оставлять под постом

Делитесь, распространяйте
https://www.tgoop.com/airi_research_institute/825
2❤‍🔥13👍9🔥42🤔2😱2🌚2
2025/07/13 18:45:05
Back to Top
HTML Embed Code: