AIHAPPENS Telegram 380
интернет продолжает спорить: "говно ли релиз gpt5" и "хахаха так все плохо, что вернули 4o".
понимаю эмоцию. но у меня ощущение, что мы сами себе не ответили на базовый вопрос: а улучшение моделей — это вообще про что?

если смотреть на реальную жизнь, «умнее» нам уже почти не нужно. возьмите любую свою задачу и честно загрузите её в модель: переписка с клиентами, формулировка продуктовой гипотезы, план запуска фичи, разбор отчёта, черновик договора, скрипт для аналитики. она не всегда дотащит от начала до конца, но почти всегда снимет львиную долю трения. значит, дело не в абстрактном iq.

нам не хватает другого — навыка стратегического действия. не «правильного ответа», а умения выбирать ход, запускать нужные инструменты, проверять себя, отменять нерабочие ветки и собирать это в длинную траекторию. это похоже на работу топ-менеджера: много опций, много неопределённости, ограниченный бюджет внимания. оптимальной стратегии нет, а логи того, как люди принимали решения, почти не оцифрованы — учить особо не на чём. поэтому бенчмарки типа «реши тест» тут мало помогают; нужны «управляй бизнесом хоть в игрушечном виде». и такие зачатки уже появляются — например, симуляция долгосрочного управления автоматом с продажами, где агент ведёт маленький, но настоящий «магазин» и быстро теряет нить, если нет памяти, планирования и самокоррекции.


и вот на этом фоне релиз gpt‑5 для меня важен не «стал ли он умнее по тестам», а тем, что он двигает нас в сторону мета‑управления: модель сама решает, когда отвечать быстро, а когда «думать дольше», и умеет роутить между подмоделями под задачу. это первый кирпичик к агенту‑стратегу: не только «что ответить», но и «какой инструмент/режим сейчас включить», с учётом контекста, цены и сложности. и да - если задать тупой вопрос, вам ответит тупая модель.

вокруг релиза было много шум и другого типа — многим хотелось оставить 4o из‑за «ощущения» и тона. и компанию даже попросили вернуть его в выбор моделей — и вернули. но как будто все эти диалоги были вообще о другом. мы привыкли к некой персоналии модели и для нас изменение (в любую сторону) это будто нашего друга заменили на другого человек. и пусть даже умнее - мне нужен мой друг. интересная ветка про эмоциональную связь люди - gpt, но ща не про это.


так в чем тогда ждать улучшений от моделей:

— меньше фетиша «станет умнее», больше запроса «станет надёжнее на длинной дистанции».
— не «напишет ли ответ», а «сможет ли сама собрать пайплайн: спланировать → запустить инструменты → проверить → откатить → попробовать ещё».
— и да, бенчмарки тоже нужны новые: где модель как менеджер магазина принимает подряд десятки мелких решений, а не угадывает один большой ответ.

мой take: gpt‑5 — это не «+10 к iq», не чуть меньше красиво болтаем, а больше умеем выбирать режим работы и держать план в руках. и вот когда модели стабильно перестанут терять контекст на 50‑й минуте процесса, начнут сами ставить проверки, менять стратегию и управлять инструментами как сео — вот это и будет релиз, после которого спорить станет не о чем.

и в этом разрезе мы действительно еще на ооооочень раннем этапе, остается вопрос, сможем ли мы по нему двигаться также быстро как по iq бенчмарку.

@aihappens
👍9036❤‍🔥12🤔7👎3🌚3🤝2🔥1🆒1



tgoop.com/aihappens/380
Create:
Last Update:

интернет продолжает спорить: "говно ли релиз gpt5" и "хахаха так все плохо, что вернули 4o".
понимаю эмоцию. но у меня ощущение, что мы сами себе не ответили на базовый вопрос: а улучшение моделей — это вообще про что?

если смотреть на реальную жизнь, «умнее» нам уже почти не нужно. возьмите любую свою задачу и честно загрузите её в модель: переписка с клиентами, формулировка продуктовой гипотезы, план запуска фичи, разбор отчёта, черновик договора, скрипт для аналитики. она не всегда дотащит от начала до конца, но почти всегда снимет львиную долю трения. значит, дело не в абстрактном iq.

нам не хватает другого — навыка стратегического действия. не «правильного ответа», а умения выбирать ход, запускать нужные инструменты, проверять себя, отменять нерабочие ветки и собирать это в длинную траекторию. это похоже на работу топ-менеджера: много опций, много неопределённости, ограниченный бюджет внимания. оптимальной стратегии нет, а логи того, как люди принимали решения, почти не оцифрованы — учить особо не на чём. поэтому бенчмарки типа «реши тест» тут мало помогают; нужны «управляй бизнесом хоть в игрушечном виде». и такие зачатки уже появляются — например, симуляция долгосрочного управления автоматом с продажами, где агент ведёт маленький, но настоящий «магазин» и быстро теряет нить, если нет памяти, планирования и самокоррекции.


и вот на этом фоне релиз gpt‑5 для меня важен не «стал ли он умнее по тестам», а тем, что он двигает нас в сторону мета‑управления: модель сама решает, когда отвечать быстро, а когда «думать дольше», и умеет роутить между подмоделями под задачу. это первый кирпичик к агенту‑стратегу: не только «что ответить», но и «какой инструмент/режим сейчас включить», с учётом контекста, цены и сложности. и да - если задать тупой вопрос, вам ответит тупая модель.

вокруг релиза было много шум и другого типа — многим хотелось оставить 4o из‑за «ощущения» и тона. и компанию даже попросили вернуть его в выбор моделей — и вернули. но как будто все эти диалоги были вообще о другом. мы привыкли к некой персоналии модели и для нас изменение (в любую сторону) это будто нашего друга заменили на другого человек. и пусть даже умнее - мне нужен мой друг. интересная ветка про эмоциональную связь люди - gpt, но ща не про это.


так в чем тогда ждать улучшений от моделей:

— меньше фетиша «станет умнее», больше запроса «станет надёжнее на длинной дистанции».
— не «напишет ли ответ», а «сможет ли сама собрать пайплайн: спланировать → запустить инструменты → проверить → откатить → попробовать ещё».
— и да, бенчмарки тоже нужны новые: где модель как менеджер магазина принимает подряд десятки мелких решений, а не угадывает один большой ответ.

мой take: gpt‑5 — это не «+10 к iq», не чуть меньше красиво болтаем, а больше умеем выбирать режим работы и держать план в руках. и вот когда модели стабильно перестанут терять контекст на 50‑й минуте процесса, начнут сами ставить проверки, менять стратегию и управлять инструментами как сео — вот это и будет релиз, после которого спорить станет не о чем.

и в этом разрезе мы действительно еще на ооооочень раннем этапе, остается вопрос, сможем ли мы по нему двигаться также быстро как по iq бенчмарку.

@aihappens

BY AI Happens


Share with your friend now:
tgoop.com/aihappens/380

View MORE
Open in Telegram


Telegram News

Date: |

As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail. There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. To delete a channel with over 1,000 subscribers, you need to contact user support Users are more open to new information on workdays rather than weekends. bank east asia october 20 kowloon
from us


Telegram AI Happens
FROM American