Telegram Web
This media is not supported in your browser
VIEW IN TELEGRAM
🔥12😱5
Вдруг кто ещё не видел

https://github.com/karpathy/LLM101n

LLM101n: Let's build a Storyteller

What I cannot create, I do not understand. -Richard Feynman

In this course we will build a Storyteller AI Large Language Model (LLM). Hand in hand, you'll be able create, refine and illustrate little stories with the AI. We are going to build everything end-to-end from basics to a functioning web app similar to ChatGPT, from scratch in Python, C and CUDA, and with minimal computer science prerequisits. By the end you should have a relatively deep understanding of AI, LLMs, and deep learning more generally.

Syllabus

Chapter 01 Bigram Language Model (language modeling)
Chapter 02 Micrograd (machine learning, backpropagation)
Chapter 03 N-gram model (multi-layer perceptron, matmul, gelu)
Chapter 04 Attention (attention, softmax, positional encoder)
Chapter 05 Transformer (transformer, residual, layernorm, GPT-2)
Chapter 06 Tokenization (minBPE, byte pair encoding)
Chapter 07 Optimization (initialization, optimization, AdamW)
Chapter 08 Need for Speed I: Device (device, CPU, GPU, ...)
Chapter 09 Need for Speed II: Precision (mixed precision training, fp16, bf16, fp8, ...)
Chapter 10 Need for Speed III: Distributed (distributed optimization, DDP, ZeRO)
Chapter 11 Datasets (datasets, data loading, synthetic data generation)
Chapter 12 Inference I: kv-cache (kv-cache)
Chapter 13 Inference II: Quantization (quantization)
Chapter 14 Finetuning I: SFT (supervised finetuning SFT, PEFT, LoRA, chat)
Chapter 15 Finetuning II: RL (reinforcement learning, RLHF, PPO, DPO)
Chapter 16 Deployment (API, web app)
Chapter 17 Multimodal (VQVAE, diffusion transformer)
🔥13811👍7😁2🤡1
Гугл сегодня выкатит Gemma 2, в том числе большую модель на 27B.

Видимо ближе к вечеру по Европе и утром Америки.

UPD: https://blog.google/technology/developers/google-gemma-2/
😱33👍22🤔4🥱42
Я думаю, что следующий большой шаг в демократизации LLM случится, когда кто-то опубликует открытую модель среднего размера (скажем, 20-50B, но хорошо если и маленькие тоже, до 10B) со следующими свойствами:

1. Мультиязычность by design. Идеально с поддержкой хотя бы нескольких десятков, а лучше сотни языков, покрывающих разные языковые семьи и письменности.

Прямо сейчас, хоть отдельные модели как-то умеют работать с неанглийским из коробки или могут быть достаточно хорошо зафайнтюнены благодаря удачным токенизаторам и не только, это не оптимальное решение для рабочих продуктов, где надо покрывать широкий спектр культур и языков.

2. Function calling, который пока массово отсутствует в открытых моделях больших игроков. Только комьюнити файнтюны.

Это откроет дорогу к сильно более полезным локальным агентным историям, чем можно собрать на открытых моделях сейчас.


Может ещё есть какое-то полезное свойство, но сходу на ум не пришло. Напишите в комментариях, если считаете что есть ещё что-то важное.

Здесь наверное могла бы быть мультимодальность, но мне кажется и без неё уже будет огонь 🔥

Может быть супер длинный контекст, но кажется, что его расширить можно проще, чем добавить в трейнсет много языков

UPD: модель с commercial friendly лицензией


Интересно, кто будет первым и оставит этот след в истории. Я больше верю в какого-то не самого большого игрока, Мистраль, например. Либо вообще кто-то новый с ресурсами. От больших не дождёмся, кажется.
👍485
2025/07/13 15:15:10
Back to Top
HTML Embed Code: