Дратути Антон@blog

Дратути Антон

Как инферятся LLMки под капотом?

Совершенно случайно наткнулся на блогпост про инференс LLMок. Речь именно про реализацию движка на C++ своими ручками, с использованием CUDA и без каких-либо других сторонних библиотек. Я прочитал пост залпом, объяснения очень понятные и глубокие 🤓.

Всё, конечно, же игрушечное: single batch, single gpu, completion only (без prefill).

В посте идёт повествование про следующие топики:
— Пишем наивную реализацию под CPU (и ускоряем за счёт SIMD);
— Переносим на CUDA;
— Думаем, как работает GPU и ускоряем matmul;
— Фьюзим операции и еще ускорения matmul;
— Профилируем attention и ускоряем его, включая длинные генерации;
— Квантование и какие грабли подкидывает нам nvcc.

Определённо полезно будет тем, кому интересны топик инференса. Мне понравилось то, как автор показывает, что можно использовать различные инструменты профилировки и какие выводы из них можно сделать 🔼. Кайфанул с того, как пришлось упороться, чтобы повторить анролинг для FP16 ядер, по аналогии, как это делает комплиятор для FP32 ядер автоматически (ох уж эта боль) 🏥.

Ссылочка на пост: https://andrewkchan.dev/posts/yalm.html

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥23❤2👎1

www.tgoop.com/blog_toxa/464

4.01K viewsAug 22 at 18:19

tgoop.com/blog_toxa/464

Create: 2025-08-22
Last Update: 2025-10-11 16:31:18

Telegram News

Как инферятся LLMки под капотом?