DSPROGLIB Telegram 6800
👉 В чём разница между self-attention и cross-attention

Self-attention:
➡️ Queries, keys и values берутся из одной последовательности.
➡️ Каждый токен «смотрит» на остальные, включая себя, чтобы учесть контекст.
➡️ Пример: слово bank может учитывать соседние слова river или money, чтобы выбрать правильное значение.
➡️ Используется для поиска зависимостей внутри последовательности (текста, документа и т.д.).

🔹 Cross-attention:
➡️ Queries берутся из одной последовательности, а keys и values — из другой.
➡️ Позволяет одной последовательности «фокусироваться» на информации из другой.
➡️ Примеры:
• В машинном переводе декодер через cross-attention обращается к репрезентациям энкодера.
• В мультимодальных моделях текст может «смотреть» на признаки изображения, чтобы сгенерировать описание.

📌 Легко запомнить:
• Self-attention → внутри одного источника (понимание контекста).
• Cross-attention → связывание двух источников (перевод, мультимодальные задачи, RAG).

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73😍1



tgoop.com/dsproglib/6800
Create:
Last Update:

👉 В чём разница между self-attention и cross-attention

Self-attention:
➡️ Queries, keys и values берутся из одной последовательности.
➡️ Каждый токен «смотрит» на остальные, включая себя, чтобы учесть контекст.
➡️ Пример: слово bank может учитывать соседние слова river или money, чтобы выбрать правильное значение.
➡️ Используется для поиска зависимостей внутри последовательности (текста, документа и т.д.).

🔹 Cross-attention:
➡️ Queries берутся из одной последовательности, а keys и values — из другой.
➡️ Позволяет одной последовательности «фокусироваться» на информации из другой.
➡️ Примеры:
• В машинном переводе декодер через cross-attention обращается к репрезентациям энкодера.
• В мультимодальных моделях текст может «смотреть» на признаки изображения, чтобы сгенерировать описание.

📌 Легко запомнить:
• Self-attention → внутри одного источника (понимание контекста).
• Cross-attention → связывание двух источников (перевод, мультимодальные задачи, RAG).

🐸 Библиотека дата-сайентиста

#буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tgoop.com/dsproglib/6800

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) The best encrypted messaging apps Clear When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added.
from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM American