Всем привет. Сразу к делу, зачем нужен N-ый канал по ML в тг:
• Здесь плюсом будет мета стартаперское, венчурное, сочное и вкусное. Знаю, в России эта тема не так сильно развита, но я считаю что аудитория есть и это надо поддерживать.
• Возможность поучаствовать в коллабах по исследованиям и написаниям статей. Периодически будут посты об интересных совместных проектах, и не только моих, в том числе из https://www.tgoop.com/betterdatacommunity . Если интересно поучаствовать или наоборот, предложить тему, пишите @air_korolev
• Уникальный контент по моделям. Пока что занимаюсь очень узкими топиками по типу гибридного SuperResolution, нормализационных потоков для моделирования search space под NAS и расширений датасетов.
Нужен ли пост про себя ? Отметьте реакциями
Если хотите что-то услышать из перечисленного в первую очередь, напишите об этом тут, комментарии открыты
• Здесь плюсом будет мета стартаперское, венчурное, сочное и вкусное. Знаю, в России эта тема не так сильно развита, но я считаю что аудитория есть и это надо поддерживать.
• Возможность поучаствовать в коллабах по исследованиям и написаниям статей. Периодически будут посты об интересных совместных проектах, и не только моих, в том числе из https://www.tgoop.com/betterdatacommunity . Если интересно поучаствовать или наоборот, предложить тему, пишите @air_korolev
• Уникальный контент по моделям. Пока что занимаюсь очень узкими топиками по типу гибридного SuperResolution, нормализационных потоков для моделирования search space под NAS и расширений датасетов.
Нужен ли пост про себя ? Отметьте реакциями
Если хотите что-то услышать из перечисленного в первую очередь, напишите об этом тут, комментарии открыты
Telegram
better data community
Сообщество фанатов градиентов
@maxalekv
Хочешь задать вопрос? Зайди на nometa.xyz и задавай сразу.
@maxalekv
Хочешь задать вопрос? Зайди на nometa.xyz и задавай сразу.
🔥10❤1👍1
Теперь ради чего это всё и создавалось.
Сейчас я занимаюсь разработкой гибридного SuperResolution. Он основан на Swin трансформере от микрософта, а также я имплементировал channel attention на его тайлы.
На данный момент он обучен на 100к итераций на датасете div2k+OST (природа и все такое). State of art модель в суперрезе это HAT, тоже гибрид но другой архитектуры.
Отличия:
-HAT сильно лучше в урбан, геометрию и глубину, как и все с OCAB слоями
-Моя модель (Hybrid Swin SuperRes - HSSR) сильно лучше во все природное, живое и анимешное. Гораздо меньше артефактов, а инференс быстрее.
Сравнить по PSNR (квантитативная схожесть картинок) пока что бессмысленно, так как нужно не менее 500к итераций для объективности.
К этому посту приложу две картинки, предлагаю угадать где HAT а где HSSR в комментах.
Чем больше будет реакций, тем быстрее я выложу модель на потыкать в replicate или hugging face ))
Бтв пока что готова только x2, а будет еще x4
Сейчас я занимаюсь разработкой гибридного SuperResolution. Он основан на Swin трансформере от микрософта, а также я имплементировал channel attention на его тайлы.
На данный момент он обучен на 100к итераций на датасете div2k+OST (природа и все такое). State of art модель в суперрезе это HAT, тоже гибрид но другой архитектуры.
Отличия:
-HAT сильно лучше в урбан, геометрию и глубину, как и все с OCAB слоями
-Моя модель (Hybrid Swin SuperRes - HSSR) сильно лучше во все природное, живое и анимешное. Гораздо меньше артефактов, а инференс быстрее.
Сравнить по PSNR (квантитативная схожесть картинок) пока что бессмысленно, так как нужно не менее 500к итераций для объективности.
К этому посту приложу две картинки, предлагаю угадать где HAT а где HSSR в комментах.
Чем больше будет реакций, тем быстрее я выложу модель на потыкать в replicate или hugging face ))
🔥10
Релиз HSSR
Провел тесты, выкатил спейс, можно тестить!
Касательно метрик:
Если сравнивать яблоки с яблоками,(то есть с трансформерами swin) то HSSR может быть до 3дБ (30 vs 27 on anime) лучше current state of art (swin2sr) в тасках с людьми, природой, аниме, иногда текстом, урбане. Хуже в чем то с большой визуальной глубиной картинки. Скорее всего это связно с тем, что модель не дообучена и страдает в кейсах с очень мелкими деталями.
По структурному соответствию (ssim 0.9-0.96) это почти что state of art swin, по своей природе эти трансформеры очень сильно блендят детали, гибридный подход в архитектуре смог это решить. Разница в цифрах пару тысячных, но визуально это видно очень сильно, в коментах оставлю ссылку на swin2sr спейс.
По времени: тестил на спейсах, тот же swin2sr картинку с текстом с размером меньше <500 на 500 пикселей обрабатывает до 10-14 минут. Причем он на платном cpu спейсе. HSSR обработала эту же картинку (из Set14) за 110 секунд на бесплатном с лучшим PSNR.
Самое главное, что я вижу из улучшений, это практически полное отсутствие визуальных артефактов.
Количество параметров: ≈18.8М
Стоит отметить, что swin2sr поддерживает х4, а моя модель пока что нет, но это отличие не покрывает такую явную разницу в качестве.
Напоследок, сравнение с CNN, HAT.
HSSR строго обходит cnn (waifu2x) по всем метрикам на set5, до HAT может сильно недотягивать (у HAT около 38дБ на Set5) в разных тасках, все таки это глобально лучшая модель, и работали над ней не пару недель.
Релиз: https://huggingface.co/spaces/apsys/HSSR
(Очевидно, что большие картинки на 2vcpu лучше не ставить, в комментах скину пару low res, чтобы вы не искали)
Провел тесты, выкатил спейс, можно тестить!
Касательно метрик:
Если сравнивать яблоки с яблоками,(то есть с трансформерами swin) то HSSR может быть до 3дБ (30 vs 27 on anime) лучше current state of art (swin2sr) в тасках с людьми, природой, аниме, иногда текстом, урбане. Хуже в чем то с большой визуальной глубиной картинки. Скорее всего это связно с тем, что модель не дообучена и страдает в кейсах с очень мелкими деталями.
По структурному соответствию (ssim 0.9-0.96) это почти что state of art swin, по своей природе эти трансформеры очень сильно блендят детали, гибридный подход в архитектуре смог это решить. Разница в цифрах пару тысячных, но визуально это видно очень сильно, в коментах оставлю ссылку на swin2sr спейс.
По времени: тестил на спейсах, тот же swin2sr картинку с текстом с размером меньше <500 на 500 пикселей обрабатывает до 10-14 минут. Причем он на платном cpu спейсе. HSSR обработала эту же картинку (из Set14) за 110 секунд на бесплатном с лучшим PSNR.
Самое главное, что я вижу из улучшений, это практически полное отсутствие визуальных артефактов.
Количество параметров: ≈18.8М
Стоит отметить, что swin2sr поддерживает х4, а моя модель пока что нет, но это отличие не покрывает такую явную разницу в качестве.
Напоследок, сравнение с CNN, HAT.
HSSR строго обходит cnn (waifu2x) по всем метрикам на set5, до HAT может сильно недотягивать (у HAT около 38дБ на Set5) в разных тасках, все таки это глобально лучшая модель, и работали над ней не пару недель.
Релиз: https://huggingface.co/spaces/apsys/HSSR
(Очевидно, что большие картинки на 2vcpu лучше не ставить, в комментах скину пару low res, чтобы вы не искали)
huggingface.co
HSSR - a Hugging Face Space by apsys
Discover amazing ML apps made by the community
👍1🔥1
Архитектура HSSR
Как и почему работает модель?
Она устроена следующим образом: I RST блоков, каждый по J HTL блоков в глубину. Очевидно, что чем больше RST блоков (residual swin transformer block), тем больше параметров и тем аккуратнее модель, однако после 6-8 блоков увлечение не имеет смысла, перформанс выходит на плато. Здесь и начинаются модификации относительно Swin.
HTL блоки - основные слои трансформера, сочетают в себе как и оконный аттеншен, так и глобальный по каналу.
Вдохновился этим у xPixelGroup, они запионерели такое решение в своем трансформере более сложной и продвинутой архитектуре, это SOTA.
Моя контрибуция заключается больше в ревизите Swin архитектуры, добавив в нее подобную гибридность и постнормализацию на MLP, она показывает себя лучше. Еще я использовал другой метод конечного апсемпла, который позволяет почти полностью избавиться от артефактов.
Планирую изменить метод оконного аттеншиона в дальнейшем, через дискретное косинусное преобразование, а также оптимизировать глобальный канальный аттеншен, так как он занимает больше всего времени и памяти.
Как и почему работает модель?
Она устроена следующим образом: I RST блоков, каждый по J HTL блоков в глубину. Очевидно, что чем больше RST блоков (residual swin transformer block), тем больше параметров и тем аккуратнее модель, однако после 6-8 блоков увлечение не имеет смысла, перформанс выходит на плато. Здесь и начинаются модификации относительно Swin.
HTL блоки - основные слои трансформера, сочетают в себе как и оконный аттеншен, так и глобальный по каналу.
Вдохновился этим у xPixelGroup, они запионерели такое решение в своем трансформере более сложной и продвинутой архитектуре, это SOTA.
Моя контрибуция заключается больше в ревизите Swin архитектуры, добавив в нее подобную гибридность и постнормализацию на MLP, она показывает себя лучше. Еще я использовал другой метод конечного апсемпла, который позволяет почти полностью избавиться от артефактов.
Планирую изменить метод оконного аттеншиона в дальнейшем, через дискретное косинусное преобразование, а также оптимизировать глобальный канальный аттеншен, так как он занимает больше всего времени и памяти.
🔥9