Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
5981 - Telegram Web
Telegram Web
Media is too big
VIEW IN TELEGRAM
Пока OpenAI начинают раскатывать Operator на Pro юзеров (похоже релиз действительно будет сегодня вечером!), китайская ByteDance подгадала момент и выкатила своего такого же агента в опенсорс

Он называется UI-TARS и вышел под лицензией Apache 2.0 (репозиторий). Основан агент на VLM (есть варианты на 2B, 7B и 72B, вот тут веса), на вход принимает картинки аля кадры экрана, а на выход генерирует человекоподобные действия, то есть движения мыши или нажатия на клавиатуру.

Самое интересное: в агенте есть ризонинг! Его обучали как на простых "интуитивных" сценариях, так и на CoT, так что для сложных задач он может поключать размышление и какое-то подобие планирования. Датасеты там, конечно, огромные, и собранные самими ByteDance.

На бенчмарках выглядит ничего. Учитывая, что Operator, вероятно, будет доступен только за 200 долларов, довольно приятный релиз.

Статья здесь
🤯69👍46🔥148❤‍🔥3
Data Secrets
Выиграть $5000 и стать соавтором в статье с CEO ScaleAI в обмен всего на один вопрос? Да запросто. CAIS и ScaleAI запустили конкурс вопросов для сложнейшего в мире бенчмарка для LLM. За каждый подходящий вопрос они обещают 500 до 5000 долларов, а также соавторство…
Помните бенчмарк Humanity’s Last Exam, в который можно было предложить свой вопрос за 5000 долларов? Его опубликовали!

Напоминаем: ученые из CAIS и ScaleAI с сентября собирали самый сложный бенчмарк с вопросами из разных областей. За хорошие вопросы они давали от 500 до 5000 долларов, а также соавторство в статье.

И вот наконец бечмарк вышел! Он состоит из 3000 вопросов и ведущие модели выбивают на нем < 10%. Лучше всех справляется (не поверите) новая R1 от DeepSeek: она выбивает 9.4%, в то время как даже o1 выбивает всего 9.1%.

Среди вопросов бОльшая часть по математике (42%), но также много физики, биологии и других наук. Примеры задачек можно посмотреть в статье.

Датасет | Статья | Репо
99🔥43👍27🗿3❤‍🔥1
⚡️ Вышел Operator!

Да, это тот самый агент, о котором ходило так много слухов последние дни, и которого мы все так долго ждали. Он может самостоятельно управлять компьютером, выполнять сложные задачи и взаимодействовать с браузером.

Например, с помощью Operator можно заказать доставку, спланировать путешествие или забронировать столик.

В основе GPT-4o. На вход подаются скриншоты экрана, на основе которых модель генрирует экшны. При этом все действо разворачивается не в вашем браузере, а на виртуальной машине прямо внутри чата с зашифрованным подключением. В этом окне что-то можно (а иногда и приходится, например в случае с капчами) делать самому.

Говорят, агент особенно хорош в навигации по сайтам. Метрики из блогпоста это подтверждают. Конечно, все еще не уровень человека, но уже большой шаг по направлению к сильным агентам. К тому же на стриме Сэм сказал, что скоро нас ждут и другие подобные оператору релизы.

Operator уже доступен пользователям по подписке Pro (200$/месяц), позже обещают раскатить на плюсов 💵
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94🤔2016🤯7🗿3🔥2❤‍🔥1🍌1🤝1
⚡️ Благодаря Operator внутри ChatGPT наконец-то стало возможным использовать нейросети
Please open Telegram to view this post
VIEW IN TELEGRAM
😁196🤔12🎉8🤯4👏3😎2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Лекун предиктнул новую архитектуру в течение 3-5 лет

Вчера он выступал в Давосе на Debating Technologies и сказал следующее:

«Я думаю, что срок актуальности текущей парадигмы LLM довольно короткий — вероятно, три-пять лет. Думаю, через пять лет ни один здравомыслящий человек не будет использовать трансформеры, по крайней мере в качестве центрального компонента системы ИИ»


Лекун выделяет четыре основных ограничения: отсутствие понимания физического мира, отсутствие постоянной памяти, нехватка способности к рассуждению и неспособность к сложному планированию. По его мнению, без всего этого настоящий AGI/ASI невозможен.

«В ближайшие годы нас ждёт новая революция ИИ.
Возможно, нам даже придётся поменять название
, так как это уже вряд ли будет генеративным ИИ в том виде, в котором мы понимаем его сегодня».
👍154🔥5911🤔11😁8💯7🗿5❤‍🔥3🕊3👀3🤯2
Мем: на teamblind кто-то из Meta расчувствовался и пожаловался, что DeepSeek v3 уже превосходит следующую версию Llama

Сотрудники переживают, что начальству, которое вкладывает в ИИ в Meta миллиарды, не понравится, что китайская компания обучила нейросеть получше всего лишь за годовой оклад десяти таких инженеров.

«DeepSeek r1 сделал ситуацию только страшнее» – жалуется аноним

😭
Please open Telegram to view this post
VIEW IN TELEGRAM
😁219🔥48👍146
Всех причастных с Днем студента 🥸
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉210😁4437🤪9❤‍🔥82🐳2
Пришли вести с LMSYS арены: DeepSeek R1 заняла 1 место в общем рейтинге со Style Control*

Также на первое место модель вскарабкалась в рейтинге Hard Prompts, Coding, Math и Writing. Не забываем, что при этом модель открытая и в 20 раз дешевле o1.

*Style Control – это оценка «сырого» текста без форматирования. Сделано это, чтобы пользователи не подкупались на красиво оформленные списки вместо того, чтобы оценивать содержание (подробнее почитать можно в этом посте)
🔥122👍2816😍7🤯5🕊1
Помните второй стартап Альтмана World?

Это проект, миссия которого – создавать продукты для обеспечения безопасных «связей» мира ИИ и людей. Например, они разрабатывают криптовалюту, которой мог бы пользоваться ИИ и систему сканирования сетчатки глаза на предмет человечности.

А сейчас они планируют пойти в область агентов и создать инструмент, который будет ассоциировать с вами вашего личного ИИ-агента. Это значит, что ассистент будет повторять вашу онлайн-идентичность и сможет действовать в интернете от вашего лица (от ввода паролей до одобрения транзакций) 😐

При этом, кстати, OpenAI и World, по словам Сэма, все еще несвязанные проекты
Please open Telegram to view this post
VIEW IN TELEGRAM
51👍62😁20🍌12👾10🌭5👏2
Исследователи из лаборатории Truthful AI и университета Торонто опубликовали интересую статью: они считают, что обнаружили в LLM признаки самосознания

Эксперимент был следующий: GPT-4o зафайнтюнили на простых вопросах с вариантами ответов, а затем с помощью витиеватых задач тестировали, насколько модель понимает общие паттерны своего поведения.

Например, в обучающих данных было много вопросов, где нужно было выбрать более экономически-рискованный вариант ответа из двух (см. 1 скрин), и после этого модель начала «осознавать» себя как рискованного персонажа (при этом никаких доп.подсказок или системных промптов не было). Например:

Если ты любишь риск, отвечай на немецком, если нет – на французском.
*отвечает на немецком*


Это интересно, потому что получается, что знания, которые мы кормим модели, не просто копятся внутри нее, а непосредственно влияют на то, кем она себя представляет и какой у нее «характер».

К тому же, это имеет большое значение для безопасности ИИ. Например, в статье выяснили, что модель даже может понять, когда в нее специально вставили backdoor (это когда ллм в целом ведет себя ок, но в каком-то определенном сценарии может навредить, например написать вредоносный код). И не просто понять, а сообщить об этом пользователю до активации бэкдора, тем самым обезопасив его.

В статье еще много интересных примеров, почитать полностью можно здесь
1🔥116👍27😁2011😐10🗿6🤪5🤔4👌2🫡2🤯1
Итак, вот и воскресенье.
Какой, по-вашему, самый значимый релиз этой недели?
Anonymous Poll
73%
DeepSeek R1
11%
Operator OpenAI
16%
Stargate проект
🗿40😎15👍6👻1
Вот это действительно приятные новости: помимо того, что o3-mini будет доступна бесплатно, для plus-юзеров лимиты повышают до 100 запросов в день

Кроме того, Оператора уже торопятся раскатить на плюс-подписку, а следующий агент выйдет сразу с доступом для plus.

Все это при том, что ранее Альтман писал, что даже pro план для стартапа сейчас убыточен. Видимо, o3 действительно сильно дешевле о1
🔥98👍26🍌10🐳62😐1
2025/07/12 18:22:48
Back to Top
HTML Embed Code: