Вышли результаты o3-mini на LiveBench
(Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми. В общем это почти как арена)
На кодинге модель рвет абсолютно всех с огромным отрывом, и в среднем она лучше R1 (но не по математике).
В математике, кстати, сначала результаты были аномально низкими, но затем организаторы признались, что случайно допустили ошибку, и пересчитали среднее.
(Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми. В общем это почти как арена)
На кодинге модель рвет абсолютно всех с огромным отрывом, и в среднем она лучше R1 (но не по математике).
В математике, кстати, сначала результаты были аномально низкими, но затем организаторы признались, что случайно допустили ошибку, и пересчитали среднее.
👍70🔥17❤12
OpenAI смотрит в сторону опенсорса
Вчера в честь выхода o3-mini Сэм Альтман запустил на реддите AMA (ask me anything). Его спросили, не планирует ли стартап релизить какие-нибудь веса или ресерчи, на что Сэм ответил так:
Кроме того, в этом треде с лидами OpenAI поднялись еще несколько интересных тем:
➖ Сэм признал, что DeepSeek очень хорош. «Мы, конечно, создадим лучшие модели, но сохраним меньшее преимущество, чем раньше», – сказал он.
➖ На вопрос о том, каким будет ИИ в 2030, вице-президент по инжинирингу Шринивас Нараянан предсказал, что к тому времени наше взаимодействие с ИИ «в корне изменится», поскольку он будет постоянно работать над задачами в фоновом режиме от нашего имени.
➖ Вскоре нас ждут обновления в голосовом режиме, а еще OpenAI все еще планирует выпустить GPT-5. Таймлайна пока нет, но Сэм написал: «быстрый взлет ИИ более вероятен, чем я думал пару лет назад».
Прочитать ама полностью можно здесь
Вчера в честь выхода o3-mini Сэм Альтман запустил на реддите AMA (ask me anything). Его спросили, не планирует ли стартап релизить какие-нибудь веса или ресерчи, на что Сэм ответил так:
«Да, мы обсуждаем это. Лично я считаю, что мы оказались на неправильной стороне истории и нам необходимо разработать другую стратегию опенсорса. Но не все в openai разделяют эту точку зрения. Также это не является для нас высшим приоритетом на данный момент»
Кроме того, в этом треде с лидами OpenAI поднялись еще несколько интересных тем:
Прочитать ама полностью можно здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁75👍36🔥11❤9🐳3🍌3
Пользователи, кстати, заметили, что o3-mini может думать даже дольше, чем o1 full. Время раздумий в режиме high доходит до 10 минут, а длина цепочек рассуждений достигает 44 страниц
🤯120🔥21❤9👍6😁4🗿3
Data Secrets
При этом не все верят, что с вычислениями в DeepSeek все так уж просто CEO ScaleAI Александр Ванг вот говорит, что на самом деле у компании есть кластер с 50к H100 (неплохо, мягко говоря), но они не могут это разглашать из-за текущих условий экспорта США.…
The Kobeissi Letter провели интересное расследование и выяснили, могли ли действительно DeepSeek нелегально выкупать чипы Nvidia
Напоминаем, что несколько дней назад стартап обвинял в этом известный предприниматель и CEO ScaleAI Александр Ванг. Он говорил (и его поддержал Илон Маск), что на самом деле у компании есть кластер с 50к H100, но они не могут это разглашать, так как из-за текущих условий экспорта США закупали GPU нелегально.
И действительно: в Сингапуре, через который предположительно закупались видеокартами DeepSeek, с момента основания стартапа продажи чипов скакнули на колоссальные +740%.
Кроме того, в отчетных документах Nvidia исследователи нашли следующую занятную строку:
Казалось бы, с чего бы Nvidia отдельно отмечать Сингапур в своих документах? А оказывается с того, что за последние 3 квартала Сингапур принес Nvidia рекордную прибыль в $17.4 млрд и оказался на втором месте среди стран потребителей. Для сравнения, в Китай продали железа на $11.6 млрд.
При этом темпы роста выручки в Сингапуре растут даже быстрее, чем в США (+278% против +133%). Вы скажете «но может быть они все эти GPU используют сами?»
Но нет. В Сингапуре всего 99 датацентров, в то время как в США их 5к+, а в Китае около 500. 99 датацентров – это даже не топ-20 стран мира, это примерно уровень Польши.
Так куда же деваются все эти видеокарты?
США этот вопрос тоже интересует, и поэтому они начинают расследование. Если ограничат продажи в Сингапур, под угрозой окажется около 20% доходов Nvidia.
💀
Напоминаем, что несколько дней назад стартап обвинял в этом известный предприниматель и CEO ScaleAI Александр Ванг. Он говорил (и его поддержал Илон Маск), что на самом деле у компании есть кластер с 50к H100, но они не могут это разглашать, так как из-за текущих условий экспорта США закупали GPU нелегально.
И действительно: в Сингапуре, через который предположительно закупались видеокартами DeepSeek, с момента основания стартапа продажи чипов скакнули на колоссальные +740%.
Кроме того, в отчетных документах Nvidia исследователи нашли следующую занятную строку:
«Место конечного потребителя и место доставки могут отличаться от места выставления счета нашему клиенту. Например, большинство оборудования, которое продается в Сингапур, находится в других регионах»
Казалось бы, с чего бы Nvidia отдельно отмечать Сингапур в своих документах? А оказывается с того, что за последние 3 квартала Сингапур принес Nvidia рекордную прибыль в $17.4 млрд и оказался на втором месте среди стран потребителей. Для сравнения, в Китай продали железа на $11.6 млрд.
При этом темпы роста выручки в Сингапуре растут даже быстрее, чем в США (+278% против +133%). Вы скажете «но может быть они все эти GPU используют сами?»
Но нет. В Сингапуре всего 99 датацентров, в то время как в США их 5к+, а в Китае около 500. 99 датацентров – это даже не топ-20 стран мира, это примерно уровень Польши.
Так куда же деваются все эти видеокарты?
США этот вопрос тоже интересует, и поэтому они начинают расследование. Если ограничат продажи в Сингапур, под угрозой окажется около 20% доходов Nvidia.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73😁48👍25👀12❤7🤯6🫡4
This media is not supported in your browser
VIEW IN TELEGRAM
Бывший CRO OpenAI Боб МакГрю говорит в новом интервью, что путь к AGI чист и ясен
Напоминаем, что должность Боба была связана с безопасностью (буквально "директор по управлению рисками" с упором на ресерч), но он оставил свое место в OpenAI и в сентябре ушел из стартапа вслед за Мирой Мурати.
Полностью интервью лежит тут, вышло вчера
"Последние 5 лет люди искали что-то, что должно было заполнить разрыв между претрейном и тем, что можно масштабировать до AGI. Сейчас, когда мы нащупали ризонинг, мы находимся в чистом режиме скейлинга"
Напоминаем, что должность Боба была связана с безопасностью (буквально "директор по управлению рисками" с упором на ресерч), но он оставил свое место в OpenAI и в сентябре ушел из стартапа вслед за Мирой Мурати.
Полностью интервью лежит тут, вышло вчера
🤪56👍26❤8🤔8🗿3😐1👻1
Data Secrets
Вышли результаты o3-mini на LiveBench (Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми. В общем это почти как арена) На кодинге модель рвет абсолютно…
График с LiveBench Coding, кстати
Соотношение цена/качество о3 сильно выделяется, как ни крути
Соотношение цена/качество о3 сильно выделяется, как ни крути
👍79🔥20💯8❤5🌚3
OpenAI абсолютно внезапно выпустили Deep Research
Это агент для автономного проведения исследований. На основе вашего промпта DR проведет глубокий анализ источников и за 10-20 минут выкатит подробный отчет по теме.
Внутри крутится версия o3, «оптимизированная под веб-браузинг и python аналитику». Питон ей нужен для того, чтобы что-то считать или даже строить графики. Модель анализирует не только текст, но и картинки, и pdf-файлы.
OpenAI пишут, что агент очень силен в риал-ворлд задачах. Например, на ставшем знаменитым Humanity Last Exam (пост), на котором модели набирали максимум 9.4% до o3, Deep Research бьет аж 26.6!
Примеры юзер-кейсов можно посмотреть в блогпосте OpenAI. Сейчас агент уже доступен в тарифе Pro, скоро обещают раскатить на Plus и Team.
Это агент для автономного проведения исследований. На основе вашего промпта DR проведет глубокий анализ источников и за 10-20 минут выкатит подробный отчет по теме.
Внутри крутится версия o3, «оптимизированная под веб-браузинг и python аналитику». Питон ей нужен для того, чтобы что-то считать или даже строить графики. Модель анализирует не только текст, но и картинки, и pdf-файлы.
OpenAI пишут, что агент очень силен в риал-ворлд задачах. Например, на ставшем знаменитым Humanity Last Exam (пост), на котором модели набирали максимум 9.4% до o3, Deep Research бьет аж 26.6!
Примеры юзер-кейсов можно посмотреть в блогпосте OpenAI. Сейчас агент уже доступен в тарифе Pro, скоро обещают раскатить на Plus и Team.
👍103🔥40❤12🤔10😁7
На стриме про Deep Research, кстати, проскользнула пасхалка (или это троллинг?) DeepSeek: чат с темой «Является ли Deeper Seeker хорошим названием для…»
… видимо, для агента-ресерчера✨
… видимо, для агента-ресерчера
Please open Telegram to view this post
VIEW IN TELEGRAM
😁149👍9❤7
Media is too big
VIEW IN TELEGRAM
Альтман: «Deep Research уже решает полноценный процент экономических задач всего мира и это не предел»
Сэм говорит, что DR – это только первый шаг на пути к агентам, которые могут делать научные открытия (помните пять ступеней AGI?)
Кстати, кодовое название проекта – Caterpillar, то есть гусеница 🐛
Сэм говорит, что DR – это только первый шаг на пути к агентам, которые могут делать научные открытия (помните пять ступеней AGI?)
Кстати, кодовое название проекта – Caterpillar, то есть гусеница 🐛
❤58🔥37😁15🤔10🍌5👍1🐳1🤪1