Telegram Web
OpenAI o1 - новая модель для выполнения сложных рассуждений

o1 думает, прежде чем ответить - модель может создать длинную внутреннюю цепочку мыслей, прежде чем ответить пользователю

OpenAI o1-preview уже утром появится в Upgraide.me 👨‍💻

Как оценивали?

В Open Ai научили модель продуктивно мыслить, используя свою цепочку мыслей. И чем больше вы обучаете ее, тем лучше она начинает понимать и предлагать.

Чтобы подчеркнуть улучшение по сравнению с GPT-4o, модели протестировали на разнообразном наборе человеческих экзаменов и ML-эталонов. На бенчмарках показано, что o1 значительно превосходит GPT-4o на подавляющем большинстве этих задач, требующих усилий для рассуждений.

Результаты математики сравнили на AIME - экзамене, разработанном для самых способных студентов-математиков средней школы в Америке.

На экзамене AIME 2024 года GPT-4o решил в среднем только 12 % (1,8/15) задач. o1 показал 74 % (11,1/15) при решении задачи с одним образцом, 83 % (12,5/15) при консенсусе среди 64 образцов и 93 % (13,9/15) при повторном ранжировании 1000 образцов с помощью выученной функции оценки. Оценка в 13,9 балла ставит его в число 500 лучших студентов по стране и превышает отбор на Математическую олимпиаду США.

OpenAI o1 занимает 89-е место в процентах по результатам конкурсных вопросов по программированию (Codeforces), и превосходит точность человека на уровне доктора наук в решении задач по физике, биологии и химии (GPQA).

Новую модель оценили и по GPQA diamond, сложному эталону интеллекта, который проверяет знания в области химии, физики и биологии. Чтобы сравнить модели с людьми, привлекли экспертов с докторской степенью для ответов на вопросы GPQA-diamond. o1 превзошла результаты этих экспертов-людей, став первой моделью, которой удалось это сделать в принципе. Эти результаты не означают, что o1 способнее доктора философии во всех отношениях - только то, что модель лучше решает некоторые задачи, которые, как ожидается, должен решать доктор философии.

Как работает?

Как человек может долго думать, прежде чем ответить на сложный вопрос, так и o1 использует цепочку мыслей при попытке решить проблему. Благодаря обучению:

1️⃣распознает и исправляет свои ошибки

🔟разбивает сложные шаги на более простые

3️⃣пробует другой подход, если текущий не работает

Чтобы проиллюстрировать способность размышлять в официальном релизе приводят цепочку размышлений o1-preview над несколькими сложными проблемами.

Что выбирают?

Разработчики оценили и предпочтения людей между o1-preview и GPT-4o. В этой оценке людям показывали анонимные ответы на подсказки от двух моделей и голосовали за то, какой ответ предпочтительнее. Новая модель уже выигрывает gpt-4o с большим отрывом в категориях, требующих большого количества аргументов, таких как анализ данных, кодирование и математика. Однако в задачах, связанных с естественным языком, o1-preview не получил признания, что говорит о том, что он подходит не для всего.

Видно, как модель думает?

Процесс размышлений модели в Open Ai назвали скрытой цепочкой мыслей. И именно она представляет уникальную возможность для наблюдения за моделями. Если предположить, что она верна и читаема, скрытая цепочка мыслей позволяет пользователям "читать мысли" модели и понимать их ход.

В будущем мы можем захотеть отслеживать цепочку мыслей, чтобы понять - манипулирует ли ИИ нами. Но для этого модель должна иметь свободу выражения своих мыслей в неизменном виде, поэтому в Open Ai указали, что они не могут настраивать цепочку мыслей на соответствие политике или предпочтениям пользователя. Но будет ли видна цепочка мыслей обычному пользователю тоже пока неизвестно.

#CreateUpgraide #ChatGPT #OpenAIo1
@upgraide_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥3🤯3👾1
В Upgraide.me уже доступны две модели рассуждений:

💥o1-preview: ранняя версия модели o1, разработанная для рассуждений о сложных проблемах с использованием широких общих знаний о мире.

⚡️o1-mini: более быстрая и дешевая версия o1, особенно эффективная в задачах кодирования, математики и науки, где не требуются обширные общие знания.

Если вам нужны анализ изображений или стабильно быстрое время отклика, модели GPT-4o и GPT-4o mini по-прежнему будут лучше. А если нужен более качественный брейншторм - то пробуем новые модели.

Заходите в Upgraide - модели доступны во всех тарифах 🔥

#OpenAIo1
@upgraide_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥2❤‍🔥1
А вот и советы по использованию от Open Ai:

1️⃣Просто и прямо:

модели отлично понимают и отвечают на краткие и четкие инструкции, не требующие подробных указаний. Кажется, заготовленные промпты скоро станут не актуальны :(

2️⃣Не рассуждайте за модель:

поскольку эти модели проводят рассуждения внутренне, не стоит просить их "продумать шаг за шагом" или "объяснить свои рассуждения". Эта стратегия уже устарела.

3️⃣Разделители:

ставьте разделители, такие как тройные кавычки, XML-теги или названия разделов, чтобы четко разделить данные на входе и не запутать модель.

4️⃣Меньше контекста с расширенным поиском (RAG):

прикрепляя дополнительный контекст или документы, включайте только самую важную информацию, чтобы модель не усложняла ответ.

@upgraide_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2👾1
This media is not supported in your browser
VIEW IN TELEGRAM
Как самому в 2 клика создать удобное приложение Upgraide.me, чтобы быстрее получать к нему доступ?

Подготовили мини-инструкцию для пользователей, как получить доступ к сервису без поиска вкладок среди миллиона других. Подойдет, если вы хотите быстрый доступ и если у вас браузер Chrome :)

1. Откройте браузер Chrome на компьютере

2. Перейдите на страницу с Upgraide.me

3. В правом верхнем углу окна нажмите на значок с тремя точками 👉Транслировать, сохранить, поделиться 👉Установить страницу как приложение

4. В появившемся диалоговом окне: оставьте название приложения по умолчанию или переименуйте его

5. Нажмите Создать

6. Закрепите открывшееся окно в панели задач

Поздравляем! Теперь наш сервис доступен для вас по первому клику на панели задач в отдельном окне, даже если у вас скрыт браузер или рабочий стол с ярлыком на приложение.

Инструкция для Android, iOS
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥5❤‍🔥41🙏1
На днях у Anthropic вышел курс по оценке промптов LLM 🤖

Курс бесплатный, профессиональный, подойдет скорее командам разработки, предприятиям и тем, кто знаком с API.

О чем идет речь в курсе:

Он состоит из 9 глав и был создан на основе руководства, которое использует Anthropic, внедряя в систему крупных компаний LLM. В него входят и структура самой оценки, и процесс ее создания.

#Anthropic@upgraide_ru
#курсы@upgraide_ru
@upgraide_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2👀1
Upgraide.me vs Chat GPT

Одна из киллер фич нашего сервиса - это формирование вашей базы данных в чате. Вы можете загружать документы, и ответы любой модели будут именно по ним. Чуть позже мы расскажем про фичу подробнее, а пока поделимся наблюдением.

В официальном Open Ai тоже можно загружать документы и работать с ними. Но не с новой моделью - OpenAi o1. К ней эту возможность не подвезли.

А в Upgraide.me эта модель так же может размышлять над вашей базой данных. Уже проверили на себе, работает без перебоев :)

#CreateUpgraide
@upgraide_ru
🔥103🤯3😱1👾1
Доброе утро, день или вечер? В какое время вы чаще всего заходите в телеграм? (Время по Москве)
Anonymous Poll
8%
1:00 - 3:00
8%
4:00 - 6:00
28%
7:00 - 9:00
45%
10:00 - 12:00
30%
13:00 - 15:00
53%
16:00 - 18:00
48%
19:00 - 21:00
53%
22:00 - 00:00
4👍1🔥1
Ликвидируем неграмотность словариком с основными терминами по нейросетям! 📕 🤖


⚫️Промпт — это краткая инструкция или вопрос, который вы пишете в чате с нейросетью. Это помогает ИИ понять, что именно вы хотите, чтобы он ответил или сделал.

⚫️LLM (Large Language Model) — большая языковая модель, которая обучена на огромном количестве текстовых данных и способна понимать, обрабатывать и генерировать любой контент. Наиболее понятное обозначение для любых моделей, например Claude Sonnet 3.5 — это LLM.

⚫️Токен — кусочек текста, который нейросеть преобразует для себя в ряд чисел, чтобы лучше понимать и обрабатывать ваши запросы. Например токеном может быть целое предложение, слово или даже часть слова. В Open AI 1 русское слово = 1.7 токену, а в Anthropic — 4 токенам. Токенизация в Upgraide.me — 1 к 1 с оригинальным поставщиком моделей.

⚫️AI (Artificial Intelligence) — искусственный интеллект (ИИ), способный выполнять задачи, предлагаемые людьми.

⚫️Контекстное окно — максимум токенов, который нейросеть сможет обработать за раз. Если токены не вмещаются в контекстное окно, то нейросеть забудет, что вы ей написали в начале. Но благодаря функции памяти, такой проблемы вы не узнаете.

⚫️Upgraide.me — сервис для работы и анализа с самыми эффективными LLM и инструментами. Ваша личная команда нейросетей.

А чтобы закрепить теорию, попрактикуйтесь на нашем сайте.

#словарь_upgraide
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍4🤝4👾1
Отправляем ссылку на поддержку:

https://www.tgoop.com/upgraide_ru?boost

Будем кастомизировать канал для вас 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🦄3🐳2👾1
This media is not supported in your browser
VIEW IN TELEGRAM
Описание в следующем посте 👇
👍4😍2❤‍🔥1
Forwarded from SciOne
#освоёмнейронном

Делюсь большой гордостью. Большая — потому что таких возможностей в работе с текстовыми нейронками сейчас нет даже в ChatGPT или Claude (если вы не умеете работать с ними через API).

Записал короткое видео, чтобы показать наглядно: https://youtu.be/tGv95ihmz1o

А вот текстом, чуть подробнее о том же самом:

Берете охапку материалов (статьи, книги, обзоры, отчеты) по вопросу или теме, с которыми работаете. Загружаете в свою личную библиотеку в Upgraide.me (пока до 1 Гб или 5 файлов, потом без ограничений) и теперь любой факт, концепцию, идею, цитату нейронка вам достает из загруженных вами ДОКУМЕНТОВ. Работает с тем, что есть, а не выдумывает, поэтому точность, достоверность максимальные на сегодня.

И не важно, сколько длится чат, галлюцинации не лезут, потому что нейронка (хоть GPT, хоть Claude, хоть другие, что у нас есть) постоянно работает с конкретными документами, и в принципе удерживать что-то в "памяти" им теперь не нужно.

Кто активно пользуется ChatGPT, знает, что пообщался с ним по одному или двум документам, уже через несколько страниц обсуждения (а это, считай, только начал), уже всё, работать невозможно. Захлопнулось контекстное окна. А Claude так вовсе начинает назойливо предупреждать "чат слишком длинный, лучше начните новый". Как работать, если у тебя десятки, сотни и тем более тысячи документов, а работы с ними не на один день или даже месяц?

Так что попробуйте функцию Библиотеки в Upgraide.me, и пишите о багах, если выловите (можно прям из аккаунта, можно в комментариях, где удобно). Это всё еще ранняя версия, что-то может и будет ломаться, но чиним оперативно. И еще быстрее улучшаем)

И вот сообщество Upgraide.me, где можно более оперативно следить за новостями проекта.
👍8🔥43🤝2👾1
2025/07/14 04:03:55
Back to Top
HTML Embed Code: