Паша AI AI AI@pashaaiaiai P.189

Маск выпустил AI чат-бот Grok 3, из-за которого разгорелись дискуссии

🤖

Илон Маск представил Grok 3, созданный его стартапом xAI, — продвинутую AI-модель, способную анализировать данные и решать сложные задачи. По словам Маска, она превосходит существующие аналоги, включая OpenAI's ChatGPT, и он даже назвал Grok 3 “самым умным ИИ на Земле”.

Grok 3 лучше рассуждает и генерирует нестандартные решения

Как DeepSeek R1 и o3 mini, Grok 3 демонстрирует цепочку рассуждений. В сложных вопросах активируется режим «большой мозг». Функция Deep Search дает Grok 3 доступ к интернету и платформе Х для глубокого анализа и кратких ответов.

Версия обучена на суперкомпьютере Colossus, использующем 100 тыс. графических процессоров Nvidia H100. Для обучения затрачено 200 млн GPU-часов — в 10 раз больше, чем у Grok 2.

Основатель Eureka Labs Андрей Карпаты одним из первых оценил Grok 3. По его словам, модель сопоставима с OpenAI o1-Pro и превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking. Однако DeepSearch от Grok 3 пока уступает Perplexity и OpenAI, так как модель иногда галлюцинирует URL и неверно интерпретирует факты.

В тестах на решение математических задач, по программированию и задач в области естественных наук Grok 3 и Grok 3 mini показали лучшие результаты, чем Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet и GPT-4o.

В xAI утверждают, что Grok 3 превосходит конкурентов в таких бенчмарках, как AIME (ориентирован на математические вопросы) и GPQA (тестирование знаний на уровне доктора наук по физике, биологии и химии).

Громкий анонс породил сомнения относительно преимуществ Grok 3

Один из руководителей OpenAI Борис Пауэр заявил, что xAI могла использовать некорректные методы оценки, чтобы искусственно повысить показатели Grok 3. В ответ xAI отвергла эти обвинения, утверждая, что их методы соответствуют установленным отраслевым стандартам.

Это заявление породило большое количество дискуссий среди разработчиков и пользователей, которые в основном сводятся к необходимости стандартизированных оценочных показателей при сравнении производительности моделей ИИ.

При этом загадочная модель с кодовым именем "Chocolate" , которая оказалась ранней тестовой версией Grok 3, загруженной в LLM Arena, сейчас лидер слепых тестов на Chatbot Arena, открытой платформе для краудсорсинговых бенчмарков ИИ. Это означает, что пользователи предпочитали ее ответы ответам всех других моделей ИИ в прямой конкуренции, не зная, какую модель они оценивают.

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tgoop.com/pashaaiaiai/189

3.7K viewsFeb 25 at 16:13

tgoop.com/pashaaiaiai/189

Create: 2025-02-25
Last Update: 2025-03-26 22:03:50

Маск выпустил AI чат-бот Grok 3, из-за которого разгорелись дискуссии 🤖

Илон Маск представил Grok 3, созданный его стартапом xAI, — продвинутую AI-модель, способную анализировать данные и решать сложные задачи. По словам Маска, она превосходит существующие аналоги, включая OpenAI's ChatGPT, и он даже назвал Grok 3 “самым умным ИИ на Земле”.

Grok 3 лучше рассуждает и генерирует нестандартные решения

Как DeepSeek R1 и o3 mini, Grok 3 демонстрирует цепочку рассуждений. В сложных вопросах активируется режим «большой мозг». Функция Deep Search дает Grok 3 доступ к интернету и платформе Х для глубокого анализа и кратких ответов.

Версия обучена на суперкомпьютере Colossus, использующем 100 тыс. графических процессоров Nvidia H100. Для обучения затрачено 200 млн GPU-часов — в 10 раз больше, чем у Grok 2.

Основатель Eureka Labs Андрей Карпаты одним из первых оценил Grok 3. По его словам, модель сопоставима с OpenAI o1-Pro и превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking. Однако DeepSearch от Grok 3 пока уступает Perplexity и OpenAI, так как модель иногда галлюцинирует URL и неверно интерпретирует факты.

В тестах на решение математических задач, по программированию и задач в области естественных наук Grok 3 и Grok 3 mini показали лучшие результаты, чем Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet и GPT-4o.

В xAI утверждают, что Grok 3 превосходит конкурентов в таких бенчмарках, как AIME (ориентирован на математические вопросы) и GPQA (тестирование знаний на уровне доктора наук по физике, биологии и химии).

Громкий анонс породил сомнения относительно преимуществ Grok 3

Один из руководителей OpenAI Борис Пауэр заявил, что xAI могла использовать некорректные методы оценки, чтобы искусственно повысить показатели Grok 3. В ответ xAI отвергла эти обвинения, утверждая, что их методы соответствуют установленным отраслевым стандартам.

Это заявление породило большое количество дискуссий среди разработчиков и пользователей, которые в основном сводятся к необходимости стандартизированных оценочных показателей при сравнении производительности моделей ИИ.

При этом загадочная модель с кодовым именем "Chocolate" , которая оказалась ранней тестовой версией Grok 3, загруженной в LLM Arena, сейчас лидер слепых тестов на Chatbot Arena, открытой платформе для краудсорсинговых бенчмарков ИИ. Это означает, что пользователи предпочитали ее ответы ответам всех других моделей ИИ в прямой конкуренции, не зная, какую модель они оценивают.

Telegram News

Маск выпустил AI чат-бот Grok 3