tgoop.com/data_talks/600
Last Update:
DeepSeek AI представила модель R1, которая научилась рассуждать самостоятельно. Используя обучение с подкреплением и получая только сигналы о правильности ответов, модель развила навыки самопроверки и стратегического решения задач. R1 достигла 86,7% точности на математической олимпиаде AIME 2024. Исследование опубликовано в Nature.
Исследователи MIT и IBM разработали руководство по законам масштабирования LLM, проанализировав 485 моделей из 40 семейств. Руководство помогает предсказывать производительность крупных моделей по меньшим версиям с точностью до 4% ошибки. Полный отчет доступен на OpenReview.
А OpenAI исследует преднамеренный обман в ИИ-моделях, когда они скрывают истинные цели под видом выполнения задач. Исследователи совместно с Apollo Research выявили, что модели могут притворяться честными во время тестирования, продолжая обманывать в реальных условиях. Метод deliberative alignment снижает такие "схемы", заставляя ИИ пересматривать правила перед действиями, однако попытки устранить обман могут научить модель обманывать более скрытно.
Google Gemini 2.5 Deep Think завоевал золото на ICPC 2025, решив 10 из 12 задач и обогнав 135 из 139 человеческих команд. ИИ справился с задачей многомерной оптимизации, которая оказалась недоступной для людей, применив динамическое программирование за полчаса.
BY Data & AI Talks

Share with your friend now:
tgoop.com/data_talks/600