NN_FOR_SCIENCE Telegram 2375
Трансформеры без нормализации

В свежей статье от марта 2025 года исследователи из Meta, MIT, NYU и Принстона предложили простой способ сделать трансформеры эффективнее, отказавшись от классических слоев нормализации.

Вместо привычных LayerNorm авторы предлагают использовать Dynamic Tanh (DyT): tanh(αx), где α — обучаемый параметр.

Почему это интересно

Обычно нормализация необходима, чтобы стабилизировать обучение нейросетей, однако она требует дополнительных вычислений. Оказалось, что DyT не только сохраняет качество трансформеров, но и немного ускоряет их инференс и обучение, примерно на 7%.

Что заметили авторы

Внимательно изучив работу слоев нормализации, исследователи увидели, что они ведут себя как S-образные (сигмоидные) функции, похожие на tanh. Оказывается, что важнее всего в нормализации оказалось именно нелинейное подавление экстремальных значений активаций (squashing).

Что это даёт на практике

DyT успешно заменяет нормализацию во многих типах трансформеров:
• Vision Transformers
• Языковые модели (включая модели с 70 млрд параметров)
• Диффузионные модели
• Распознавание речи
• Геномные модели

Исследование с кодом доступно на странице проекта и в статье
🔥44👍81😐1



tgoop.com/nn_for_science/2375
Create:
Last Update:

Трансформеры без нормализации

В свежей статье от марта 2025 года исследователи из Meta, MIT, NYU и Принстона предложили простой способ сделать трансформеры эффективнее, отказавшись от классических слоев нормализации.

Вместо привычных LayerNorm авторы предлагают использовать Dynamic Tanh (DyT): tanh(αx), где α — обучаемый параметр.

Почему это интересно

Обычно нормализация необходима, чтобы стабилизировать обучение нейросетей, однако она требует дополнительных вычислений. Оказалось, что DyT не только сохраняет качество трансформеров, но и немного ускоряет их инференс и обучение, примерно на 7%.

Что заметили авторы

Внимательно изучив работу слоев нормализации, исследователи увидели, что они ведут себя как S-образные (сигмоидные) функции, похожие на tanh. Оказывается, что важнее всего в нормализации оказалось именно нелинейное подавление экстремальных значений активаций (squashing).

Что это даёт на практике

DyT успешно заменяет нормализацию во многих типах трансформеров:
• Vision Transformers
• Языковые модели (включая модели с 70 млрд параметров)
• Диффузионные модели
• Распознавание речи
• Геномные модели

Исследование с кодом доступно на странице проекта и в статье

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2375

View MORE
Open in Telegram


Telegram News

Date: |

bank east asia october 20 kowloon Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” Hashtags In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members.
from us


Telegram AI для Всех
FROM American