tgoop.com/pashaaiaiai/189
Last Update:
Маск выпустил AI чат-бот Grok 3, из-за которого разгорелись дискуссии
Илон Маск представил Grok 3, созданный его стартапом xAI, — продвинутую AI-модель, способную анализировать данные и решать сложные задачи. По словам Маска, она превосходит существующие аналоги, включая OpenAI's ChatGPT, и он даже назвал Grok 3 “самым умным ИИ на Земле”.
Grok 3 лучше рассуждает и генерирует нестандартные решения
Как DeepSeek R1 и o3 mini, Grok 3 демонстрирует цепочку рассуждений. В сложных вопросах активируется режим «большой мозг». Функция Deep Search дает Grok 3 доступ к интернету и платформе Х для глубокого анализа и кратких ответов.
Версия обучена на суперкомпьютере Colossus, использующем 100 тыс. графических процессоров Nvidia H100. Для обучения затрачено 200 млн GPU-часов — в 10 раз больше, чем у Grok 2.
Основатель Eureka Labs Андрей Карпаты одним из первых оценил Grok 3. По его словам, модель сопоставима с OpenAI o1-Pro и превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking. Однако DeepSearch от Grok 3 пока уступает Perplexity и OpenAI, так как модель иногда галлюцинирует URL и неверно интерпретирует факты.
В тестах на решение математических задач, по программированию и задач в области естественных наук Grok 3 и Grok 3 mini показали лучшие результаты, чем Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet и GPT-4o.
В xAI утверждают, что Grok 3 превосходит конкурентов в таких бенчмарках, как AIME (ориентирован на математические вопросы) и GPQA (тестирование знаний на уровне доктора наук по физике, биологии и химии).
Громкий анонс породил сомнения относительно преимуществ Grok 3
Один из руководителей OpenAI Борис Пауэр заявил, что xAI могла использовать некорректные методы оценки, чтобы искусственно повысить показатели Grok 3. В ответ xAI отвергла эти обвинения, утверждая, что их методы соответствуют установленным отраслевым стандартам.
Это заявление породило большое количество дискуссий среди разработчиков и пользователей, которые в основном сводятся к необходимости стандартизированных оценочных показателей при сравнении производительности моделей ИИ.
При этом загадочная модель с кодовым именем "Chocolate" , которая оказалась ранней тестовой версией Grok 3, загруженной в LLM Arena, сейчас лидер слепых тестов на Chatbot Arena, открытой платформе для краудсорсинговых бенчмарков ИИ. Это означает, что пользователи предпочитали ее ответы ответам всех других моделей ИИ в прямой конкуренции, не зная, какую модель они оценивают.