Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
11 - Telegram Web
Telegram Web
Channel created
Всем привет. Сразу к делу, зачем нужен N-ый канал по ML в тг:

• Здесь плюсом будет мета стартаперское, венчурное, сочное и вкусное. Знаю, в России эта тема не так сильно развита, но я считаю что аудитория есть и это надо поддерживать.

• Возможность поучаствовать в коллабах по исследованиям и написаниям статей. Периодически будут посты об интересных совместных проектах, и не только моих, в том числе из https://www.tgoop.com/betterdatacommunity . Если интересно поучаствовать или наоборот, предложить тему, пишите @air_korolev

• Уникальный контент по моделям. Пока что занимаюсь очень узкими топиками по типу гибридного SuperResolution, нормализационных потоков для моделирования search space под NAS и расширений датасетов.

Нужен ли пост про себя ? Отметьте реакциями

Если хотите что-то услышать из перечисленного в первую очередь, напишите об этом тут, комментарии открыты
🔥101👍1
Теперь ради чего это всё и создавалось.

Сейчас я занимаюсь разработкой гибридного SuperResolution. Он основан на Swin трансформере от микрософта, а также я имплементировал channel attention на его тайлы.

На данный момент он обучен на 100к итераций на датасете div2k+OST (природа и все такое). State of art модель в суперрезе это HAT, тоже гибрид но другой архитектуры.

Отличия:

-HAT сильно лучше в урбан, геометрию и глубину, как и все с OCAB слоями

-Моя модель (Hybrid Swin SuperRes - HSSR) сильно лучше во все природное, живое и анимешное. Гораздо меньше артефактов, а инференс быстрее.

Сравнить по PSNR (квантитативная схожесть картинок) пока что бессмысленно, так как нужно не менее 500к итераций для объективности.

К этому посту приложу две картинки, предлагаю угадать где HAT а где HSSR в комментах.

Чем больше будет реакций, тем быстрее я выложу модель на потыкать в replicate или hugging face ))

Бтв пока что готова только x2, а будет еще x4
🔥10
Релиз HSSR

Провел тесты, выкатил спейс, можно тестить!

Касательно метрик:

Если сравнивать яблоки с яблоками,(то есть с трансформерами swin) то HSSR может быть до 3дБ (30 vs 27 on anime) лучше current state of art (swin2sr) в тасках с людьми, природой, аниме, иногда текстом, урбане. Хуже в чем то с большой визуальной глубиной картинки. Скорее всего это связно с тем, что модель не дообучена и страдает в кейсах с очень мелкими деталями.

По структурному соответствию (ssim 0.9-0.96) это почти что state of art swin, по своей природе эти трансформеры очень сильно блендят детали, гибридный подход в архитектуре смог это решить. Разница в цифрах пару тысячных, но визуально это видно очень сильно, в коментах оставлю ссылку на swin2sr спейс.

По времени: тестил на спейсах, тот же swin2sr картинку с текстом с размером меньше <500 на 500 пикселей обрабатывает до 10-14 минут. Причем он на платном cpu спейсе. HSSR обработала эту же картинку (из Set14) за 110 секунд на бесплатном с лучшим PSNR.

Самое главное, что я вижу из улучшений, это практически полное отсутствие визуальных артефактов.

Количество параметров: ≈18.8М

Стоит отметить, что swin2sr поддерживает х4, а моя модель пока что нет, но это отличие не покрывает такую явную разницу в качестве.


Напоследок, сравнение с CNN, HAT.

HSSR строго обходит cnn (waifu2x) по всем метрикам на set5, до HAT может сильно недотягивать (у HAT около 38дБ на Set5) в разных тасках, все таки это глобально лучшая модель, и работали над ней не пару недель.

Релиз: https://huggingface.co/spaces/apsys/HSSR

(Очевидно, что большие картинки на 2vcpu лучше не ставить, в комментах скину пару low res, чтобы вы не искали)
👍1🔥1
Архитектура HSSR

Как и почему работает модель?

Она устроена следующим образом: I RST блоков, каждый по J HTL блоков в глубину. Очевидно, что чем больше RST блоков (residual swin transformer block), тем больше параметров и тем аккуратнее модель, однако после 6-8 блоков увлечение не имеет смысла, перформанс выходит на плато. Здесь и начинаются модификации относительно Swin.
HTL блоки - основные слои трансформера, сочетают в себе как и оконный аттеншен, так и глобальный по каналу.

Вдохновился этим у xPixelGroup, они запионерели такое решение в своем трансформере более сложной и продвинутой архитектуре, это SOTA.

Моя контрибуция заключается больше в ревизите Swin архитектуры, добавив в нее подобную гибридность и постнормализацию на MLP, она показывает себя лучше. Еще я использовал другой метод конечного апсемпла, который позволяет почти полностью избавиться от артефактов.

Планирую изменить метод оконного аттеншиона в дальнейшем, через дискретное косинусное преобразование, а также оптимизировать глобальный канальный аттеншен, так как он занимает больше всего времени и памяти.
🔥9
2025/07/12 12:24:07
Back to Top
HTML Embed Code: