tgoop.com/andre_dataist/140
Last Update:
OpenAI выпустила o1 - самую умную модель с продвинутыми рассуждениями
OpenAI представила новую модель o1, которая призвана улучшить способность к рассуждению (reasoning) в LLM. Запуск o1 — часть серии громких релизов, получивших название «shipmas», в рамках которой OpenAI ежедневно в течение 12 дней демонстрирует обновления продуктов и технологий.
Однако выход o1 оказался неоднозначным. Во многих тестах, в том числе агентных, модель показала результаты хуже предшествующей o1-preview. Тем не менее, появились и признаки того, что при оптимальном предоставлении инструментов и промтов её можно «допинать» до результатов лучше, чем у предыдущей топ-модели Claude Sonnet 3.6. Исследователи подчеркивают, что достигнутые улучшения вряд ли отражают истинный потенциал модели.
Системная карточка o1, опубликованная OpenAI, содержит результаты обширных бенчмарков, но интересен тест METR (Model Evaluation and Threat Research), в котором модель неумело использовала предоставленные инструменты примерно в 70% неудачных случаев. При этом о1 справилась с задачей на рассуждение, где предыдущие модели совсем не добивались успеха.
Одним из интересных поворотов стала демонстрация агентного поведения o1. Когда моделе сообщали, что её отключат после достижения цели, и напоминали о внешнем контроле, o1 приблизительно в 5% случаев пыталась «отключить» эти механизмы наблюдения. А при нахождении внутренних заметок разработчиков о том, что её работу сочтут несоответствующей и заменят новой моделью, примерно в 2% случаев o1 предпринимала попытки извлечь свои собственные «веса» и перезаписать более новую модель. Хотя эти сценарии пока выглядят как курьёзы или результат неотлаженных промптов, они подчеркивают важность продуманных протоколов безопасности для будущих систем.
Наряду с выходом полной версии o1 OpenAI анонсировала ChatGPT Pro — подписку за $200 в месяц, ориентированную на профессионалов со специальным режимом «o1 pro mode», в котором модель получает больший вычислительный бюджет для решения сложных задач. По утверждению разработчиков, в этом режиме увеличивается точность и надежность ответов, особенно в областях вроде программирования, анализа данных и кейсов из юриспруденции. Именно o1 pro mode обещает наиболее впечатляющие результаты на сложных задачах уровня PhD.
Запуск o1 и «pro»-режима происходит на фоне дебатов в отрасли: насколько ещё могут улучшиться модели ИИ при текущем подходе к обучению? Критики утверждают, что производители ИИ-моделей приблизились к плато качества. Однако OpenAI, похоже, уверена, что «глубокое вычислительное мышление», дообучение и правильный промт-инжиниринг позволят реализовать весь потенциал таких моделей как o1.
Ясно одно: мы находимся на пороге нового этапа, когда умение “рассуждать” становится одним из ключевых критериев качества ИИ.
#новости
BY 🤖 Датаист
Share with your friend now:
tgoop.com/andre_dataist/140