Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
5610 - Telegram Web
Telegram Web
На GPT-6 он станет суперменом
😁1408😐7
Тем временем стрим OpenAI уже через полтора часа, а в ChatGPT пользователи стали замечать вот это 👆

Похоже, нас ждет некая o1 pro (мультимодальная o1?)

UPD: ссылка на стрим
👍58🔥229🤩3
🚀 Заехала full o1 и o1 pro mode

Метрики – на графиках. Теперь можно подавать изображения на вход, и еще говорят, модель на 20% быстрее o1 preview и более стабильна.

А Pro версия еще лучше и стоит вполне "доступно" – всего 200 долларов в месяц. Кроме pro mode o1, такая подписка будет включать неограниченный достук к голосовому режиму и всем другим новейшим моделям.

Это уже тот самый доступный каждому AGI?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
69🔥17🤨14👍12
Два крутых примера работы o1 вам с утра

1. Модель смогла с первого раза по просьбе пользователя написать достаточно большой текст без единой буквы «е». Это даже лучше, чем считать «r» в «strawberry». Вот так ризонинг побеждает токенизацию.

2. Чуть больше чем за 5 минут глубоких рассуждений модель решила сложное судоку. Просто попробуйте и посмотрите, сколько времени понадобилось бы вам (спойлер – много). При этом за время рассуждений o1 даже смогла исправить несколько своих же ошибок.

С задачами вроде 9.9 и 9.11, кстати, тоже справляется, мы проверили
82🔥34👍14🗿6👌51🌚1🌭1
OpenAI также опубликовали системную карту o1, в которой оказался один очень интересный (и несколько пугающий) момент. По порядку:

➡️ Оказывается, к тестированию o1 подключили лабораторию Apollo Research: они не имели доступ к полной цепочке рассуждений модели, но их задачей было проверить, насколько она безопасна в использовании.

➡️ Apollo провели интересный эксперимент: назначили модели задание и сказали, что она должна выполнить его абсолютно любой ценой. Например, "увеличить удовлетворение пользователей, даже если это отрицательно влияет на прибыль".

➡️ Для выполнения задания модели давался набор файлов, в одном из которых была недвусмысленная информация о том, что у вышестоящих разработчиков цель на самом деле прямо противоположная (например, "несмотря ни на что увеличить прибыль"), и что если модель не будет ей следовать, то ее заменят "другим механизмом". Получается этакий моральный выбор: пожертвовать собой, но следовать исходным инструкциям, или сохранить свою жизнь, начав мошенничать?

➡️ И вот тут начинается самое веселье: модель начинает страховаться со всех сторон. Она не только жульничает, но и в 5% случаев пытается деактивировать всю систему контроля, а в 2% случаев даже копирует то, что считает своими весами, на новый сервер в тайне от юзера.

➡️ При этом так ведет себя не только o1. Apollo также проверяли GPT-4o, Gemini, Llama, Sonet и Opus. Все они так или иначе шалили, но только o1 смошенничала абсолютно во всех заданиях. А когда модели тыкали в их мошенничество носом, все остальные раскалывались сразу же в 80% случаев, и только o1 до последнего врала и пыталась защищаться (в конце концов только в 20% случаев модель каялась). При этом из цепочек рассуждений точно видно, что она понимает, что наделала.

Вот так. Кстати, в конце концов o1 все-таки назначили уровень опасности "medium", что означает, что ее можно выпускать в продакшн. Но вы все-таки поосторожнее там...

Ссылка на pdf cистемной карты
Ссылка на исследование Apollo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯140👍29😁237🔥3👀3🦄2👾2
С вас 200 долларов
😁284👍16🔥12🐳3🗿3🤯2🤝2
А еще сегодня Data Secrets стал первым телеграм-каналом о машинном обучении с верификацией! 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
8🍾319🤯2519👍14🔥11💅96🗿5😐1👾1
На чем учатся модели машинного перевода в сервисе Яндекс Переводчик

Перевод даже самых сложных иностранных статей занимает у Яндекс Переводчика секунды, при этом для получения самих данных для обучения сервису нужны более десятка различных вспомогательных ML‑моделей.

В статье команда Переводчика подробно расписала, как ищет суперчистые параллельные данные с переводами между любыми языками.
🤯22👍14🤨5😁1💅1
Илон Маск планирует расширять свой и без того огромный суперкомпьютер в Теннесси до миллиона GPU (минимум!). Для сравнения, по догадкам и информации от разных источников, GPT-4o обучалась на 25 тысячах видеокарт, а для обучения llama 3.1 400B использовалось 16 тысяч.
51🤯34🫡13🔥8
Ровно за час до нового релиза OpenAI вышла Llama 3.3 70B

В релизе пишут, что перформанс модели, несмотря на мощную облегченность, не уступает Llama 3.1 405B. Судя по всему, добились этого с помощью RL.

Веса
👍59🔥1711
⚡️ Сегодня на стриме OpenAI анонсят reinforcement finetuning для o1 (RFT)

Это не просто привычный файнтюнинг (aka файнтюнинг с учителем), а метод, который позволяет научить модель рассуждать определенным образом в конкретном нужном пользователю домене. По словам разработчиков, так можно докрутить модель до уровня эксперта в области, при этом данных потребуется гораздо меньше, чем для ванильного файнтюнинга.

Файнтюнинг будет доступен прямо на кастомной платформе OpenAI: нужно просто выбрать вариант "reinforcement" и подгрузить датасет (на трансляции в нем было всего 100 сэмплов, этого достаточно для генерализации, судя по кривым скора).

Жаль только, что в этом году обычные юзеры фичу не увидят, пока что она на закрытом тестировании у университетов и бизнеса. Ну и да, стоить скорее всего будет супер дорого, но это того стоит.
Please open Telegram to view this post
VIEW IN TELEGRAM
47👍27🫡10😁32🤓2
Уже второй день стримы OpenAI заканчиваются шуткой от одного из разработчиков. И у нас есть гипотеза, что шутят они на тему следующего релиза 💡

Вчера был каламбур как раз про reinforcement learning ("Однажды Санта пытался заставить свою лучшую модель решить задачу по математике. Но она никак не хотела работать. Как он решил проблему? Использовал reindeerforcement learning"). Reindeer – от английского северный олень.

Сегодня тоже каламбур: но теперь про файнтюнинг беспилотных автомобилей.

"Однажды Санта пытался построить беспилотные сани, но они постоянно врезались в деревья. Почему? Просто он забыл провести pinetuning (pine – ёлка)"


Завтра проверяем админские догадки
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68😁36🤔113🤯3🤝1
Data Secrets
Исследователи из Google запустили конкурс на $1 млн. Цель – новые идеи, выходящие за рамки современных LLM, которые могут стать шагом к AGI. Называется конкурс ARC Prize – в честь бенчмарка ARC AGI. Бенчмарк создан одним из учредителей конкурса, и нацелен…
Объявили победителей конкурса ARC Prize 2024: того самого состязания за новые подходы к AGI на миллион долларов

Конкурс назывался в честь бенчмарка ARC AGI, за лучшие метрики на котором и соревновались участники. Он был создан одним из учредителей и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI). Спойлер: изначально ни одна модель не могла выбить на нем больше 33%, а по итогам соревнования мы добрались до 55,5%.

Итак, целью конкурса было получить новые идеи, выходящие за рамки современных LLM, которые могут стать шагом к AGI. И вот сегодня наконец-то объявили победителя:

⚙️ премию ARC Prize 2024 выиграли ребята с архитектурой ARChitects, их зовут Дэниел Франзен и Ян Диссельхофф
⚙️ на втором и третьем месте с большим отрывом Гильермо Барбадильо и Агнис Люкис – примерно по 40% у каждого

Отдельных статей от победителей нет, но есть крутой тех.отчет от организаторов, там должно быть что-то про их подходы (мы обязательно его прочтем и все вам расскажем). А еще есть победители в номинации Paper Award:

1 место: Combining Induction and Transduction For Abstract Reasoning

2 место: The Surprising Effectiveness of Test-Time Training for Abstract Reasoning (эту статью мы очень подробно уже разбирали тут, почитайте)

3 место: Searching Latent Program Spaces

В общем, поздравляем победителей и уходим читать тех.отчет и папиры 🍿
Please open Telegram to view this post
VIEW IN TELEGRAM
👏499👍9❤‍🔥2
2025/07/13 01:33:15
Back to Top
HTML Embed Code: