AI Happens@aihappens P.380

AI Happens

интернет продолжает спорить: "говно ли релиз gpt5" и "хахаха так все плохо, что вернули 4o".
понимаю эмоцию. но у меня ощущение, что мы сами себе не ответили на базовый вопрос: а улучшение моделей — это вообще про что?

если смотреть на реальную жизнь, «умнее» нам уже почти не нужно. возьмите любую свою задачу и честно загрузите её в модель: переписка с клиентами, формулировка продуктовой гипотезы, план запуска фичи, разбор отчёта, черновик договора, скрипт для аналитики. она не всегда дотащит от начала до конца, но почти всегда снимет львиную долю трения. значит, дело не в абстрактном iq.

нам не хватает другого — навыка стратегического действия. не «правильного ответа», а умения выбирать ход, запускать нужные инструменты, проверять себя, отменять нерабочие ветки и собирать это в длинную траекторию. это похоже на работу топ-менеджера: много опций, много неопределённости, ограниченный бюджет внимания. оптимальной стратегии нет, а логи того, как люди принимали решения, почти не оцифрованы — учить особо не на чём. поэтому бенчмарки типа «реши тест» тут мало помогают; нужны «управляй бизнесом хоть в игрушечном виде». и такие зачатки уже появляются — например, симуляция долгосрочного управления автоматом с продажами, где агент ведёт маленький, но настоящий «магазин» и быстро теряет нить, если нет памяти, планирования и самокоррекции.

и вот на этом фоне релиз gpt‑5 для меня важен не «стал ли он умнее по тестам», а тем, что он двигает нас в сторону мета‑управления: модель сама решает, когда отвечать быстро, а когда «думать дольше», и умеет роутить между подмоделями под задачу. это первый кирпичик к агенту‑стратегу: не только «что ответить», но и «какой инструмент/режим сейчас включить», с учётом контекста, цены и сложности. и да - если задать тупой вопрос, вам ответит тупая модель.

вокруг релиза было много шум и другого типа — многим хотелось оставить 4o из‑за «ощущения» и тона. и компанию даже попросили вернуть его в выбор моделей — и вернули. но как будто все эти диалоги были вообще о другом. мы привыкли к некой персоналии модели и для нас изменение (в любую сторону) это будто нашего друга заменили на другого человек. и пусть даже умнее - мне нужен мой друг. интересная ветка про эмоциональную связь люди - gpt, но ща не про это.

так в чем тогда ждать улучшений от моделей:

— меньше фетиша «станет умнее», больше запроса «станет надёжнее на длинной дистанции».
— не «напишет ли ответ», а «сможет ли сама собрать пайплайн: спланировать → запустить инструменты → проверить → откатить → попробовать ещё».
— и да, бенчмарки тоже нужны новые: где модель как менеджер магазина принимает подряд десятки мелких решений, а не угадывает один большой ответ.

мой take: gpt‑5 — это не «+10 к iq», не чуть меньше красиво болтаем, а больше умеем выбирать режим работы и держать план в руках. и вот когда модели стабильно перестанут терять контекст на 50‑й минуте процесса, начнут сами ставить проверки, менять стратегию и управлять инструментами как сео — вот это и будет релиз, после которого спорить станет не о чем.

и в этом разрезе мы действительно еще на ооооочень раннем этапе, остается вопрос, сможем ли мы по нему двигаться также быстро как по iq бенчмарку.

@aihappens

👍90❤36❤‍🔥12🤔7👎3🌚3🤝2🔥1🆒1

www.tgoop.com/aihappens/380

8.9K viewsAlexey Hahunov, Aug 16 at 11:21

tgoop.com/aihappens/380

Create: 2025-08-16
Last Update: 2025-11-01 16:44:39

BY AI Happens

Share with your friend now:
tgoop.com/aihappens/380

Telegram News

интернет продолжает спорить: "говно ли релиз gpt5" и "хахаха так все плохо