PASHAAIAIAI Telegram 196
Microsoft выпустил Magma, вышли новые версии моделей от OpenAI и Anthropic 🆕

Разберем сегодня три разработки, которые вышли в прошлом месяце и заинтересовали меня: гибридную модель от Anthropic, AI-агента от Microsoft и новую версию GPT.

1️⃣ Anthropic представил гибридную модель Claude 3.7 Sonnet

Недавно представленная Claude 3.7 Sonnet от Anthropic привлекла меня тем, что стала первой на рынке гибридной моделью рассуждения, которая предлагает возможность выбора между стандартным режимом и функцией размышления над ответом, при этом без необходимости переключения на иную версию Claude.

По результатам тестов — Claude 3.7 Sonnet показала впечатляющие результаты в бенчмарках. Например, в тесте SWE-bench модель набрала 62,3%, опередив o1, o3-mini и R1, у которых не более 49%.

Особенно интересно, как модель проявляет себя в творческих задачах. Оценка эксперта Business Insider Claude 3.7 Sonnet от Anthropic показала ее сильные стороны в этом направлении в задаче с составлением стихотворения.

Однако, Claude 3.7 уступила по скорости и точности в логических задачах. Она хуже o3-mini в бенчмарках AIME 2024 и MATH 500.

Одновременно с этим Anthropic запустил genAI-агента для программирования Claude Code в режиме исследовательского превью. Он пишет и редактирует код, пишет тесты, работает с GitHub и командной строкой, поясняя свои действия. В компании утверждают, что разработчики уже используют его.

Кроме того, гендиректор Anthropic Дарио Амодей заявил, что что в ближайшие 3-6 месяцев искусственный интеллект будет создавать 90% кода. Довольно смелое заявление, на мой взгляд. В системах МТС уже 8% строк программного кода пишется с помощью AI и этот процент будет неуклонно расти в ближайшем будущем. Но все же код, сгенерированный AI, еще неидеален: он может вносить уязвимости в приложения, вызывать сбои и подвержен галлюцинациям.

2️⃣ Microsoft создал AI-агента Magma для управления ПО и роботами


Magma — это многомодальная AI-модель, которая комбинирует вербальные, пространственные и исполнительные навыки для выполнения задач в цифровой и физической среде. Модель обучали на изображениях, видео с действиями людей, данных о роботах и пользовательских интерфейсах. Она формирует два типа маркеров: Set-of-Mark — для идентификации объектов, с которыми можно взаимодействовать, и Trace-of-Mark — для планирования действий.

Microsoft позиционирует Magma как шаг к агентному AI. Magma может использоваться для управления роботизированной рукой, а бот на базе Magma в ответ на вопрос о погоде открывает браузер, вводит запрос в поисковик, находит актуальные данные и отвечает на вопрос юзера.

Мне кажется, что с помощью Magma можно решить проблему интеграции AI в реальное производство: от заводских роботов до умных офисов. Однако, остаются вопросы о том, насколько это событие изменит индустрию или просто продолжит эволюцию языковых технологий.

3️⃣ OpenAI выпустила новую версию GPT-4.5

В официальном документе OpenAI прямо заявляет, что GPT-4.5 — вовсе не прорывная модель. Скорее всего, компания планирует оставить это звание для версии GPT-5, выпуск которой не за горами. Поэтому никаких рекордов по бенчмаркам здесь ждать не стоит, ее производительность ниже, чем у o1, o3-mini и Deep Research в большинстве тестов. При этом GPT-4.5 самая большая LLM OpenAI, превосходящая вычислительную эффективность GPT-4 более чем в 10 раз.

GPT-4.5 превосходит старые модели в распознавании паттернов и выявлении взаимосвязей. Также она стала более чувствительна к эмоциональному состоянию собеседника, адаптируя стиль общения в зависимости от настроения пользователя. По словам разработчиков, модель галлюцинирует значительно меньше, чем GPT-4o.

Очевидно, что релиз GPT-4.5 — это про эволюцию, а не революцию. Но он закрепляет важный тренд в развитии LLM: масштабирование данных уже не дает экспоненциального роста, нужен новый подход.



tgoop.com/pashaaiaiai/196
Create:
Last Update:

Microsoft выпустил Magma, вышли новые версии моделей от OpenAI и Anthropic 🆕

Разберем сегодня три разработки, которые вышли в прошлом месяце и заинтересовали меня: гибридную модель от Anthropic, AI-агента от Microsoft и новую версию GPT.

1️⃣ Anthropic представил гибридную модель Claude 3.7 Sonnet

Недавно представленная Claude 3.7 Sonnet от Anthropic привлекла меня тем, что стала первой на рынке гибридной моделью рассуждения, которая предлагает возможность выбора между стандартным режимом и функцией размышления над ответом, при этом без необходимости переключения на иную версию Claude.

По результатам тестов — Claude 3.7 Sonnet показала впечатляющие результаты в бенчмарках. Например, в тесте SWE-bench модель набрала 62,3%, опередив o1, o3-mini и R1, у которых не более 49%.

Особенно интересно, как модель проявляет себя в творческих задачах. Оценка эксперта Business Insider Claude 3.7 Sonnet от Anthropic показала ее сильные стороны в этом направлении в задаче с составлением стихотворения.

Однако, Claude 3.7 уступила по скорости и точности в логических задачах. Она хуже o3-mini в бенчмарках AIME 2024 и MATH 500.

Одновременно с этим Anthropic запустил genAI-агента для программирования Claude Code в режиме исследовательского превью. Он пишет и редактирует код, пишет тесты, работает с GitHub и командной строкой, поясняя свои действия. В компании утверждают, что разработчики уже используют его.

Кроме того, гендиректор Anthropic Дарио Амодей заявил, что что в ближайшие 3-6 месяцев искусственный интеллект будет создавать 90% кода. Довольно смелое заявление, на мой взгляд. В системах МТС уже 8% строк программного кода пишется с помощью AI и этот процент будет неуклонно расти в ближайшем будущем. Но все же код, сгенерированный AI, еще неидеален: он может вносить уязвимости в приложения, вызывать сбои и подвержен галлюцинациям.

2️⃣ Microsoft создал AI-агента Magma для управления ПО и роботами


Magma — это многомодальная AI-модель, которая комбинирует вербальные, пространственные и исполнительные навыки для выполнения задач в цифровой и физической среде. Модель обучали на изображениях, видео с действиями людей, данных о роботах и пользовательских интерфейсах. Она формирует два типа маркеров: Set-of-Mark — для идентификации объектов, с которыми можно взаимодействовать, и Trace-of-Mark — для планирования действий.

Microsoft позиционирует Magma как шаг к агентному AI. Magma может использоваться для управления роботизированной рукой, а бот на базе Magma в ответ на вопрос о погоде открывает браузер, вводит запрос в поисковик, находит актуальные данные и отвечает на вопрос юзера.

Мне кажется, что с помощью Magma можно решить проблему интеграции AI в реальное производство: от заводских роботов до умных офисов. Однако, остаются вопросы о том, насколько это событие изменит индустрию или просто продолжит эволюцию языковых технологий.

3️⃣ OpenAI выпустила новую версию GPT-4.5

В официальном документе OpenAI прямо заявляет, что GPT-4.5 — вовсе не прорывная модель. Скорее всего, компания планирует оставить это звание для версии GPT-5, выпуск которой не за горами. Поэтому никаких рекордов по бенчмаркам здесь ждать не стоит, ее производительность ниже, чем у o1, o3-mini и Deep Research в большинстве тестов. При этом GPT-4.5 самая большая LLM OpenAI, превосходящая вычислительную эффективность GPT-4 более чем в 10 раз.

GPT-4.5 превосходит старые модели в распознавании паттернов и выявлении взаимосвязей. Также она стала более чувствительна к эмоциональному состоянию собеседника, адаптируя стиль общения в зависимости от настроения пользователя. По словам разработчиков, модель галлюцинирует значительно меньше, чем GPT-4o.

Очевидно, что релиз GPT-4.5 — это про эволюцию, а не революцию. Но он закрепляет важный тренд в развитии LLM: масштабирование данных уже не дает экспоненциального роста, нужен новый подход.

BY Паша AI AI AI




Share with your friend now:
tgoop.com/pashaaiaiai/196

View MORE
Open in Telegram


Telegram News

Date: |

2How to set up a Telegram channel? (A step-by-step tutorial) Today, we will address Telegram channels and how to use them for maximum benefit. How to Create a Private or Public Channel on Telegram? How to create a business channel on Telegram? (Tutorial) The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information.
from us


Telegram Паша AI AI AI
FROM American