MACHINELEARNING_BOOKS Telegram 1220
NVFP4 - новый формат, который обучает 12B Mamba Transformer в 4 бита без потери точности

Исследователи представили NVFP4 - способ хранить числа в 4 битах вместо 8 или 16, почти без потери качества обучения.
Главная идея - умное блочное квантование:

- Все значения делятся на блоки по 16 чисел.
- Каждый блок имеет свой локальный scale (8 бит).
- Весь тензор получает глобальный scale (32 бита).

Так сохраняется высокая точность локальных значений и не теряются экстремально большие или маленькие числа.

📊 Результаты:
- Обучение 12B Mamba Transformer на 10T токенов в 4 битах показало точность, сопоставимую с FP8.
- Вычисления стали в 2–3 раза быстрее, а использование памяти снизилось на 50%.
- Потеря точности не превышает 1–1.5% по метрикам.
- MMLU Pro: 62.58% (NVFP4) против 62.62% (FP8).
- MBPP+: 55.91% против 59.11%.
- Градиенты используют стохастическое округление, чтобы избежать накопления ошибок.
- По сравнению с MXFP4, NVFP4 требует на 36% меньше данных для того же уровня потерь.

На поздних этапах обучения переход на BF16 почти устраняет разрыв в качестве.
NVFP4 уже поддерживается в Transformer Engine и на Blackwell GPU, включая все нужные режимы округления.

📄 Исследование: https://arxiv.org/abs/2509.25149
❤‍🔥63



tgoop.com/machinelearning_books/1220
Create:
Last Update:

NVFP4 - новый формат, который обучает 12B Mamba Transformer в 4 бита без потери точности

Исследователи представили NVFP4 - способ хранить числа в 4 битах вместо 8 или 16, почти без потери качества обучения.
Главная идея - умное блочное квантование:

- Все значения делятся на блоки по 16 чисел.
- Каждый блок имеет свой локальный scale (8 бит).
- Весь тензор получает глобальный scale (32 бита).

Так сохраняется высокая точность локальных значений и не теряются экстремально большие или маленькие числа.

📊 Результаты:
- Обучение 12B Mamba Transformer на 10T токенов в 4 битах показало точность, сопоставимую с FP8.
- Вычисления стали в 2–3 раза быстрее, а использование памяти снизилось на 50%.
- Потеря точности не превышает 1–1.5% по метрикам.
- MMLU Pro: 62.58% (NVFP4) против 62.62% (FP8).
- MBPP+: 55.91% против 59.11%.
- Градиенты используют стохастическое округление, чтобы избежать накопления ошибок.
- По сравнению с MXFP4, NVFP4 требует на 36% меньше данных для того же уровня потерь.

На поздних этапах обучения переход на BF16 почти устраняет разрыв в качестве.
NVFP4 уже поддерживается в Transformer Engine и на Blackwell GPU, включая все нужные режимы округления.

📄 Исследование: https://arxiv.org/abs/2509.25149

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
tgoop.com/machinelearning_books/1220

View MORE
Open in Telegram


Telegram News

Date: |

On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. SUCK Channel Telegram The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Channel login must contain 5-32 characters A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.”
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American