Data Blog@jdata_blog P.436

Data Blog

Внимание. С картинками.

До того, как стала популярна механистическая интерпретируемость, в трансформерах много надежды возлагалось на Attention. Кажется, что сейчас интерес к голому исследованию Attention спал, но всё же это чертовски красивый механизм.

Один из примеров визуализации красоты — наткнулась сегодня — визуализация Attention Flows. И вот, в статье, авторы попробовали понять механизм fine-tuning на основе сравнения Attention для претрейненной и нет модели.

Что сделали:

1. Рассмотрели граф внимания, рассмотрев как отправной [CLS] токен (на последнем слое);
2. Для каждой головы внимания выбрали токены, на которые [CLS] смотрит с весом выше порога (τ).
3. Этим токенам присвоили значения узлов на предыдущем слое, а ребра (связь слоя l-1, со слоем l) — обозначили за силу их влияния.
4. Повторили процесс для каждого выбранного токена, двигаясь слой за слоем назад, пока не будут пройдены все слои.

Почему [CLS] — в BERT финальное эмбеддинг-представление используется для классификации (через линейный слой). И всё, что модель «собирает» из текста, в итоге агрегируется в [CLS]. Поэтому, чтобы понять, какие слова повлияли на решение, начали анализ именно с этого токена.

Если алгоритм вас не впечатлил — просто посмотрите на картинку. Получилось безумно красиво.

Чего достигли на основе построения таких картинок:

Решили 3 задачи. Вернее, попробовали решить.

* T1 – Trace and query self-attention: выбор токенов или голов внимания и просмотр, как внимание распространяется по слоям вперёд и назад.
* T2 – Discover attention functionality: понимание того, какие головы и слова наиболее важны для решения задачи — как в сумме, так и по отдельности.
* T3 – Compare models: сравнение внимания в исходной и дообученной модели, поиск уникальных и общих голов внимания и различий в слоях.

Модели между собой посранивали интересно. Инсайты можно найти в статье. И очень ведь красивый инструмент — сравнивать модели на основе вот этих визуальных карт. Красивый, но чертовски непродуктивный — можно упустить детали, если анализировать своими глазами.

Но картинки — просто чудо.

❤8🔥5👍3

www.tgoop.com/jdata_blog/436

1.18K viewsedited Sep 20 at 15:29

tgoop.com/jdata_blog/436

Create: 2025-09-20
Last Update: 2025-12-13 00:59:51

Почему [CLS] — в BERT финальное эмбеддинг-представление используется для классификации (через линейный слой). И всё, что модель «собирает» из текста, в итоге агрегируется в [CLS]. Поэтому, чтобы понять, какие слова повлияли на решение, начали анализ именно с этого токена.

BY Data Blog

Share with your friend now:
tgoop.com/jdata_blog/436

Telegram News

Внимание. С картинками.