Brodetskyi. Tech, VC, Startups@brodetsky P.4756

Brodetskyi. Tech, VC, Startups

🧠 Ключове питання в індустрії AI зараз - звідки прийдуть наступні етапи покращення продуктивності мовних моделей. Якісних даних, щоб масштабувати моделі як раніше, уже не вистачає. Кидати на модель більше обчислювальних потужностей уже дорого - тестові прогони GPT-5 вже обходяться в півмільярда, а приріст продуктивності дають не такий великий.

Консенсус зараз виглядає так, що наступний приріст продуктивності принесуть розробки в напрямку test time compute - коли модель витрачає на відповідь більше часу, генеруючи багато відповідей, а потім аналізуючи їх і обираючи оптимальну. Такий собі брутфорс. Це дає значно кращі результати для завдань, які вимагають складного процесу "мислення", як от наукові дослідження. Багато хто вже встиг протестувати модель o1-mini чи o1 від OpenAI, які поки що є лідерами в цьому напрямі.

На днях вони презентувати нову модель o3, яка виглядає як якісний прогреc, а не просто кількісний. Це не "чиста" LLM, o3 використовує підходи reinforcement learning. Якщо дуже спрощено, їй показують питання і правильну відповідь, а вона підбирає, якими шляхами можна дійти до правильної відповіді, таким чином генералізуючи правильні підходи до мислення. o3 може думати десятками годин, а один запуск моделі може споживати коштувати сотні тисяч доларів обчислювальних потужностей. Але! Ця модель проходить бенчмарки, які раніше вважались непробивними для LLM, на кшталт олімпіадних задач з математики та хитрих тестів на логіку. Також ця модель набагато краще справляється з задачами з програмування.

Це дійсно big deal, адже фантастичні результати o3 на бенчмарках свідчать про те що прогрес моделей поки що не вперся в стіну. Тепер розробники всіх топових лабораторій будуть покращувати моделі з допомогою test time compute, а отже можна очікувати нових продуктових анонсів з фантастичними фічами. Рекомендую подивитись ось цей розбір від одного з моїх улюблених каналів AI Explained.

YouTube

o3 - wow

o3 isn’t one of the biggest developments in AI for 2+ years because it beats a particular benchmark. It is so because it demonstrates a reusable technique through which almost any benchmark could fall, and at short notice. I’ll cover all the highlights, benchmarks…

www.tgoop.com/brodetsky/4756

3.5K viewsDec 22 at 22:36

tgoop.com/brodetsky/4756

Create: 2024-12-22
Last Update: 2025-01-20 14:18:44

BY Brodetskyi. Tech, VC, Startups

Share with your friend now:
tgoop.com/brodetsky/4756

Telegram News

🧠 Ключове питання в індустрії AI зараз - звідки прийдуть наступні етапи покращення продуктивності мовних моделей. Якісних даних