JDATA_BLOG Telegram 149
И про Patch Embedding.

Patch Embedding — преобразование картинки в матрицу признаков размерностью (n+1, d).

Simple описание преобразования (все цифры 1-7 на картинке 1:

1. Берем картинку (H, W, C) – высота, ширина, число каналов (1)
2. Режем её на N патчей (патч — квадрат меньшего размера), с размерностями (p, p, c), где p — сторона квадрата (2)
3. Эти патчи разглаживаем в вектор, выходит N векторов размерностью p*2xC (3)
4. Массив патчей, размерностью (N, p*2xC) умножается на обучаемый тензор
с размерностями (p*2xC, d) (4)
5. В результате получаем N патчей с размерностями (1, d) (5)
6. Добавляем [cls] токен, аналогичный BERT (картинка и интуитивный ответ тут, храни боже stack overflow) с размерностью (1, d), итого у нас вход – (N+1, d) (6)
6. К каждому патчу добавляем позиционный эмбеддинг с такой-же размерностью (1, d) (7)

Получаем z0 (картинка 2, 1) , вход, который далее проходит в слои энкодера (изучаем более абстрактные признаки в патчах) следующего вида (картинка 2, 2, 3):

MSA здесь multiheaded self-attention, слой же MLP — Multilayer perceptron c двумя слоями. Процесс совсем подробнее можно изучить в оригинале - статье, подробнее также про MSA в ViT описано здесь.
🔥3



tgoop.com/jdata_blog/149
Create:
Last Update:

И про Patch Embedding.

Patch Embedding — преобразование картинки в матрицу признаков размерностью (n+1, d).

Simple описание преобразования (все цифры 1-7 на картинке 1:

1. Берем картинку (H, W, C) – высота, ширина, число каналов (1)
2. Режем её на N патчей (патч — квадрат меньшего размера), с размерностями (p, p, c), где p — сторона квадрата (2)
3. Эти патчи разглаживаем в вектор, выходит N векторов размерностью p*2xC (3)
4. Массив патчей, размерностью (N, p*2xC) умножается на обучаемый тензор
с размерностями (p*2xC, d) (4)
5. В результате получаем N патчей с размерностями (1, d) (5)
6. Добавляем [cls] токен, аналогичный BERT (картинка и интуитивный ответ тут, храни боже stack overflow) с размерностью (1, d), итого у нас вход – (N+1, d) (6)
6. К каждому патчу добавляем позиционный эмбеддинг с такой-же размерностью (1, d) (7)

Получаем z0 (картинка 2, 1) , вход, который далее проходит в слои энкодера (изучаем более абстрактные признаки в патчах) следующего вида (картинка 2, 2, 3):

MSA здесь multiheaded self-attention, слой же MLP — Multilayer perceptron c двумя слоями. Процесс совсем подробнее можно изучить в оригинале - статье, подробнее также про MSA в ViT описано здесь.

BY Data Blog




Share with your friend now:
tgoop.com/jdata_blog/149

View MORE
Open in Telegram


Telegram News

Date: |

Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. How to create a business channel on Telegram? (Tutorial) Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week.
from us


Telegram Data Blog
FROM American