DATA_TALKS Telegram 600
DeepSeek AI представила модель R1, которая научилась рассуждать самостоятельно. Используя обучение с подкреплением и получая только сигналы о правильности ответов, модель развила навыки самопроверки и стратегического решения задач. R1 достигла 86,7% точности на математической олимпиаде AIME 2024. Исследование опубликовано в Nature.

Исследователи MIT и IBM разработали руководство по законам масштабирования LLM, проанализировав 485 моделей из 40 семейств. Руководство помогает предсказывать производительность крупных моделей по меньшим версиям с точностью до 4% ошибки. Полный отчет доступен на OpenReview.

А OpenAI исследует преднамеренный обман в ИИ-моделях, когда они скрывают истинные цели под видом выполнения задач. Исследователи совместно с Apollo Research выявили, что модели могут притворяться честными во время тестирования, продолжая обманывать в реальных условиях. Метод deliberative alignment снижает такие "схемы", заставляя ИИ пересматривать правила перед действиями, однако попытки устранить обман могут научить модель обманывать более скрытно.

Google Gemini 2.5 Deep Think завоевал золото на ICPC 2025, решив 10 из 12 задач и обогнав 135 из 139 человеческих команд. ИИ справился с задачей многомерной оптимизации, которая оказалась недоступной для людей, применив динамическое программирование за полчаса.
🔥21



tgoop.com/data_talks/600
Create:
Last Update:

DeepSeek AI представила модель R1, которая научилась рассуждать самостоятельно. Используя обучение с подкреплением и получая только сигналы о правильности ответов, модель развила навыки самопроверки и стратегического решения задач. R1 достигла 86,7% точности на математической олимпиаде AIME 2024. Исследование опубликовано в Nature.

Исследователи MIT и IBM разработали руководство по законам масштабирования LLM, проанализировав 485 моделей из 40 семейств. Руководство помогает предсказывать производительность крупных моделей по меньшим версиям с точностью до 4% ошибки. Полный отчет доступен на OpenReview.

А OpenAI исследует преднамеренный обман в ИИ-моделях, когда они скрывают истинные цели под видом выполнения задач. Исследователи совместно с Apollo Research выявили, что модели могут притворяться честными во время тестирования, продолжая обманывать в реальных условиях. Метод deliberative alignment снижает такие "схемы", заставляя ИИ пересматривать правила перед действиями, однако попытки устранить обман могут научить модель обманывать более скрытно.

Google Gemini 2.5 Deep Think завоевал золото на ICPC 2025, решив 10 из 12 задач и обогнав 135 из 139 человеческих команд. ИИ справился с задачей многомерной оптимизации, которая оказалась недоступной для людей, применив динамическое программирование за полчаса.

BY Data & AI Talks




Share with your friend now:
tgoop.com/data_talks/600

View MORE
Open in Telegram


Telegram News

Date: |

Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. 4How to customize a Telegram channel? As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. How to create a business channel on Telegram? (Tutorial)
from us


Telegram Data & AI Talks
FROM American