NN_FOR_SCIENCE Telegram 2452
🎫 Гипотеза Лотерейного билета

«Чтобы обучить огромную сеть, вовсе не нужно хранить все её связи. Внутри уже лежит выигрышный билет — нужно лишь его найти».


О чём вообще речь?

В 2019-м Джонатан Франкл и Майкл Карбин показали удивительное: если взять огромную нейросеть, обучить её, затем обрезать 90-95 % наименее значимых весов, вернуть оставшиеся веса к их исходным случайным значениям и обучить только их, модель всё равно выходит на ту же точность.

Оставшиеся связи они назвали «🎫 выигрышным лотерейным билетом» (Lottery Ticket).

Почему так происходит?

- Переизбыточность: Современные сети намеренно делают шире, чем нужно: много весов дублируют друг друга.

- Случайная инициализация — как мешок билетов. Каждый набор начальных весов — отдельный «билет». Чем больше параметров, тем больше шансов, что один билет окажется «удачным» для задачи.

- SGD — поисковик билетов. Градиентный спуск подсознательно «находит» и усиливает полезную подсеть, а остальное остаётся малоактивным.

Как «вытащить» выигрышный билет?

- Обучаем всю сеть до сходимости.
- Обрезаем X % наименьших по модулю весов (mask).
- Сбрасываем оставшиеся веса к их изначальным случайным значениям.
- Обучаем заново — если точность ≈ исходной, найден билет.
- Повторяем шаг 2–4, постепенно увеличивая sparsity.

Что из этого следует?

- Меньше параметров — не значит хуже: c LeNet на MNIST можно удалить 95 % весов без потери качества.
- Ранние эпохи важнее поздних: маска «выигрышного билета» формируется уже на ~20 % обучения (эффект early-bird).
- Знак веса важнее точного значения: для «билета» главное сохранить, какие связи положительные, а какие отрицательные.

Практическая интуиция

Думайте о каждой крупной сети как о лототроне: достаточно вытянуть правильный билет — и вы получите ту же точность за гораздо меньшие ресурсы.

Оригинальное исследование
18😱18🔥14👍7😐5



tgoop.com/nn_for_science/2452
Create:
Last Update:

🎫 Гипотеза Лотерейного билета


«Чтобы обучить огромную сеть, вовсе не нужно хранить все её связи. Внутри уже лежит выигрышный билет — нужно лишь его найти».


О чём вообще речь?

В 2019-м Джонатан Франкл и Майкл Карбин показали удивительное: если взять огромную нейросеть, обучить её, затем обрезать 90-95 % наименее значимых весов, вернуть оставшиеся веса к их исходным случайным значениям и обучить только их, модель всё равно выходит на ту же точность.

Оставшиеся связи они назвали «🎫 выигрышным лотерейным билетом» (Lottery Ticket).

Почему так происходит?

- Переизбыточность: Современные сети намеренно делают шире, чем нужно: много весов дублируют друг друга.

- Случайная инициализация — как мешок билетов. Каждый набор начальных весов — отдельный «билет». Чем больше параметров, тем больше шансов, что один билет окажется «удачным» для задачи.

- SGD — поисковик билетов. Градиентный спуск подсознательно «находит» и усиливает полезную подсеть, а остальное остаётся малоактивным.

Как «вытащить» выигрышный билет?

- Обучаем всю сеть до сходимости.
- Обрезаем X % наименьших по модулю весов (mask).
- Сбрасываем оставшиеся веса к их изначальным случайным значениям.
- Обучаем заново — если точность ≈ исходной, найден билет.
- Повторяем шаг 2–4, постепенно увеличивая sparsity.

Что из этого следует?

- Меньше параметров — не значит хуже: c LeNet на MNIST можно удалить 95 % весов без потери качества.
- Ранние эпохи важнее поздних: маска «выигрышного билета» формируется уже на ~20 % обучения (эффект early-bird).
- Знак веса важнее точного значения: для «билета» главное сохранить, какие связи положительные, а какие отрицательные.

Практическая интуиция

Думайте о каждой крупной сети как о лототроне: достаточно вытянуть правильный билет — и вы получите ту же точность за гораздо меньшие ресурсы.

Оригинальное исследование

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2452

View MORE
Open in Telegram


Telegram News

Date: |

When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc.
from us


Telegram AI для Всех
FROM American