PROGLIB_ACADEMY Telegram 3237
This media is not supported in your browser
VIEW IN TELEGRAM
Это база: трансформеры вручную — как понять, что происходит за кулисами LLM

В этом посте разберем, как вручную пройти через процесс работы трансформера, от входных данных до финального слоя.

⬇️ Пошаговый процесс

1️⃣ Исходные данные:
Входные признаки из предыдущего блока (5 позиций).

2️⃣ Внимание:
Все 5 признаков передаются в модуль внимания запрос-ключ (QK) для получения матрицы весов внимания (A).

3️⃣ Взвешивание внимания:
Умножаем входные данные на матрицу весов внимания, чтобы получить взвешенные признаки (Z). Этим объединяем признаки по горизонтали, например, X1 := X1 + X2, X2 := X2 + X3 и так далее.

4️⃣ FFN — первый слой:
Процессинг всех 5 признаков через первый слой. Умножаем их на веса и смещения, увеличивая размерность с 3 до 4, комбинируя признаки по вертикали.

5️⃣ ReLU:
Отрицательные значения заменяются нулями.

6️⃣ FFN — второй слой:
Подаем данные во второй слой, уменьшаем размерность с 4 до 3 и отправляем результат в следующий блок для повторения процесса.

🏃‍♀️ Proglib Academy

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/proglib_academy/3237
Create:
Last Update:

Это база: трансформеры вручную — как понять, что происходит за кулисами LLM

В этом посте разберем, как вручную пройти через процесс работы трансформера, от входных данных до финального слоя.

⬇️ Пошаговый процесс

1️⃣ Исходные данные:
Входные признаки из предыдущего блока (5 позиций).

2️⃣ Внимание:
Все 5 признаков передаются в модуль внимания запрос-ключ (QK) для получения матрицы весов внимания (A).

3️⃣ Взвешивание внимания:
Умножаем входные данные на матрицу весов внимания, чтобы получить взвешенные признаки (Z). Этим объединяем признаки по горизонтали, например, X1 := X1 + X2, X2 := X2 + X3 и так далее.

4️⃣ FFN — первый слой:
Процессинг всех 5 признаков через первый слой. Умножаем их на веса и смещения, увеличивая размерность с 3 до 4, комбинируя признаки по вертикали.

5️⃣ ReLU:
Отрицательные значения заменяются нулями.

6️⃣ FFN — второй слой:
Подаем данные во второй слой, уменьшаем размерность с 4 до 3 и отправляем результат в следующий блок для повторения процесса.

🏃‍♀️ Proglib Academy

#буст

BY Proglib.academy | IT-курсы


Share with your friend now:
tgoop.com/proglib_academy/3237

View MORE
Open in Telegram


Telegram News

Date: |

Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. How to create a business channel on Telegram? (Tutorial) The best encrypted messaging apps How to Create a Private or Public Channel on Telegram?
from us


Telegram Proglib.academy | IT-курсы
FROM American