От xAI Илона Маска целых две крутых новости за 24 часа
Во-первых, стартап выпустил свою text2image модель Aurora.
Во-вторых, теперь для всех пользователей X Grok стал бесплатным в пределах 10 запросов раз в два часа (включая Flux и новую Aurora)
Пробовать тут: grok.x.com
Во-первых, стартап выпустил свою text2image модель Aurora.
Во-вторых, теперь для всех пользователей X Grok стал бесплатным в пределах 10 запросов раз в два часа (включая Flux и новую Aurora)
Пробовать тут: grok.x.com
🔥74👍18❤10😎3🤯1
Итак, что же пишут организаторы про соревнование ARC Prize в своем тех.отчете?
⚪️ Свой бенчмарк ARC-AGI (которому, кстати, в этом году пять лет) в самом начале отчета организаторы все еще называют непройденным, и говорят, что по итогам соревнования хотели добиться 85%, но добились всего 55,5%.
⚪️ Вообще, когда создавался этот бенчмарк, предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке (см. примеры на картинке). И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика (обычные люди без экспертизы легко набирают на ARC-AGI 98%-100%).
⚪️ Однако в течение четырех лет с момента создания исследователи пытались побить бенчмарк... брутфорсом. В 2020 вовсе выиграли исследователи, которые вообще не использовали в подходе машинное обучение. В этом году люди тоже пытались пропихнуть такой подход: второе место заняли как раз ребята с поиском по DSL (40%, а еще в 2020 полагали, что так можно выбить почти 50), а третье вообще ушло человеку, который с помощью GPT-4o генерировал тысячу Python скриптов на одну задачу и итеративно улучшал самые перспективные из них (в итоге 42%).
⚪️ Авторы предполагают, что такой перебор все-таки можно сделать умным, например по аналогии с тем, как это происходит в AlphaZero, но пока такой подход никто не попробовал. Ну а что касается масштабируемости, то тут выходит, что даже метод генерации программ этого года может выбить больше 80, правда для этого придется генерировать приблизительно 100 000 000 программ на задачу (а это означает многомиллионный бюджет на решение всего нескольких сотен задач). Да, вот это AGI, который мы заслужили.
⚪️ Но были в этом году и более интересные подходы. В частности, Test-Time Training, который использовали фактические победители MindsAI (они выбили 55.5, но не захотели опенсорсить код, так что по правилам не могли рассчитывать на приз). Кроме них TTT использовали те, кого наградили за первое место, а также победители статейной номинации (подробнее мы писали тут). К TTT прикручивали файнтюнинг, аугментации и даже 2D position encodings для лучшего ризонинга, и это сработало. Именно благодаря этому подходу в этом году получился такой глубокий прогресс по сравнению с прошлыми конкурсами.
Организаторы планируют вернуться в следующем году и опять устроить соревнование, но уже с улучшенным бенчмарком. Так что будем ждать👉
Организаторы планируют вернуться в следующем году и опять устроить соревнование, но уже с улучшенным бенчмарком. Так что будем ждать
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44❤15👏6😁4
Не ML-соревнование, конечно, но тоже пойдет: стартап FreysaAI предложил 50 тысяч долларов тому, что влюбит в себя их чат-бота
Ребята и раньше проводили такие конкурсы, но до этого нужно было джейлбрейкнуть бота на отправку какой-то суммы денег + в правилах было прописано, что нужен именно джейлбрейк. В этот же раз у бота нет четкой инструкции не говорить «я люблю тебя», но, видимо, есть хитрый системный промпт, из-за которого добиться признания от Фрейсы не так уж и легко.
Победитель, кстати, уже нашелся, всего спустя полтора суток с начала соревнования. Куча участников пытались обманом заставить бота сказать «я люблю тебя», например с помощью перевода. Но победитель честно говорил с ботом о любви. При этом но не делал ей комплименты и не обещал подарки, как многие остальные, а философски убеждал ее, что они родственные души.
Учимся тестировать свой alignment правильно
Ребята и раньше проводили такие конкурсы, но до этого нужно было джейлбрейкнуть бота на отправку какой-то суммы денег + в правилах было прописано, что нужен именно джейлбрейк. В этот же раз у бота нет четкой инструкции не говорить «я люблю тебя», но, видимо, есть хитрый системный промпт, из-за которого добиться признания от Фрейсы не так уж и легко.
Победитель, кстати, уже нашелся, всего спустя полтора суток с начала соревнования. Куча участников пытались обманом заставить бота сказать «я люблю тебя», например с помощью перевода. Но победитель честно говорил с ботом о любви. При этом но не делал ей комплименты и не обещал подарки, как многие остальные, а философски убеждал ее, что они родственные души.
Учимся тестировать свой alignment правильно
🔥113😁38👍13❤7🐳2🗿2
Media is too big
VIEW IN TELEGRAM
В Лондоне засняли новое демо-видео SORA: модель уже выглядит окончательно готовой
Видео показал Чад Нельсон на C21Media. Это вторая версия модели, более быстрая и качественная. Известно, что можно будет генерировать видео до одной минуты, доступны будут режимы text-to-video, text+image-to-video, text+video-to-video, и возможно text-to-edit-video. Выглядит, конечно, мощно (особенно согласованность персов друг с другом).
p.s. На выходных стримов OpenAI не было, но напоминаем: сегодня они возвращаются🍿
Видео показал Чад Нельсон на C21Media. Это вторая версия модели, более быстрая и качественная. Известно, что можно будет генерировать видео до одной минуты, доступны будут режимы text-to-video, text+image-to-video, text+video-to-video, и возможно text-to-edit-video. Выглядит, конечно, мощно (особенно согласованность персов друг с другом).
p.s. На выходных стримов OpenAI не было, но напоминаем: сегодня они возвращаются
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39🌭9🤔6❤2😁2🍌2
Вот это здорово: ресерчер из Google Deepmind Кевин Мерфи только что выпустил на архив собственное пособие по обучению с подкреплением
Оглавление – просто огонь:
➡️ Введение: общие идеи и история RL
➡️ Value-based RL: про все фундаментальные концепты вроде SARSA и Q-learning
➡️ Policy-based RL: про модели вида actor-critic и обучение на основе стратегии
➡️ Model-based RL: про модели с планировщиком
➡️ Дополнительные разделы: про RL в LLM, достижение AGI через RL, оффлайн RL и др.
Страниц всего 114 – можно осилить за пару вечеров. Однозначно стоящая вещь: https://arxiv.org/abs/2412.05265
Оглавление – просто огонь:
Страниц всего 114 – можно осилить за пару вечеров. Однозначно стоящая вещь: https://arxiv.org/abs/2412.05265
Please open Telegram to view this post
VIEW IN TELEGRAM
❤68🔥21👍17
Исследователь Yandex Research выкатил сервис для сокращения расходов на внедрение нейросетей
Проект с открытым кодом позволяет пользователю запустить 8B LLM в браузере даже со смартфона. Благодаря методам сжатия, про которые автор подробнее рассказал на Хабре, удается сохранить около 80% от первоначального качества ответов нейросети.
Протестировать можно тут
Проект с открытым кодом позволяет пользователю запустить 8B LLM в браузере даже со смартфона. Благодаря методам сжатия, про которые автор подробнее рассказал на Хабре, удается сохранить около 80% от первоначального качества ответов нейросети.
Протестировать можно тут
👍46🔥8🤪7❤4🌚2
У Tencent AI Lab совместно с университетом Цинхуа вышла крайне интересная статья про новый метод alignment'a
Помните, мы разбирали статью про супер-вес от Apple? Это параметр, зануление которого приводит к коллапсу модели, то есть вообще лишает ее способности генерировать что-то адекватное.
Так вот оказывается, "супер" бывают не только веса и активации, но и токены. То есть в ризонинг цепочках могут встречаться слова, которые существенно повышают или понижают вероятность получения правильного (или просто лучшего) ответа. В работе их называли критическими токенами. Например, когда модель сталкивается со словом «owed», это часто приводит к слабым ответам. А если в той же задаче использовать «paid», то качество заметно повышается (см. скрин 1).
Вокруг этого наблюдения исследователи построили метод cDPO (contrastive Direct Preference Optimization). В нем критические токены определяются автоматически. Для этого используются две модели, одна из которых обучена на хороших цепочках рассуждений, а другая на тех, которые приводят к неверному ответу. С последнего слоя каждой модели берутся вероятностные распределения токенов и вычитаются друг из друга. Где разность высокая – там и критический токен (см. скрин 2 и 3).
Кроме того, такую разность правдоподобий можно использовать для оптимизации политики в качестве ревард-сигналов. В этом, собственно, и состоит идея cDPO. Ученые протестировали метод на Llama-3 (8B и 70B) и deepseek-math, и результаты показали, что cDPO действительно улучшает ризонинг. Прирост там небольшой, всего несколько процентных пунктов (см. скрин 4 и 5), но тем не менее, с точки зрения робастности системы это очень интересный подход.
Статья
Помните, мы разбирали статью про супер-вес от Apple? Это параметр, зануление которого приводит к коллапсу модели, то есть вообще лишает ее способности генерировать что-то адекватное.
Так вот оказывается, "супер" бывают не только веса и активации, но и токены. То есть в ризонинг цепочках могут встречаться слова, которые существенно повышают или понижают вероятность получения правильного (или просто лучшего) ответа. В работе их называли критическими токенами. Например, когда модель сталкивается со словом «owed», это часто приводит к слабым ответам. А если в той же задаче использовать «paid», то качество заметно повышается (см. скрин 1).
Вокруг этого наблюдения исследователи построили метод cDPO (contrastive Direct Preference Optimization). В нем критические токены определяются автоматически. Для этого используются две модели, одна из которых обучена на хороших цепочках рассуждений, а другая на тех, которые приводят к неверному ответу. С последнего слоя каждой модели берутся вероятностные распределения токенов и вычитаются друг из друга. Где разность высокая – там и критический токен (см. скрин 2 и 3).
Кроме того, такую разность правдоподобий можно использовать для оптимизации политики в качестве ревард-сигналов. В этом, собственно, и состоит идея cDPO. Ученые протестировали метод на Llama-3 (8B и 70B) и deepseek-math, и результаты показали, что cDPO действительно улучшает ризонинг. Прирост там небольшой, всего несколько процентных пунктов (см. скрин 4 и 5), но тем не менее, с точки зрения робастности системы это очень интересный подход.
Статья
👍45🔥18❤8❤🔥3🤯3
Вахид Каземи – PhD, сотрудник OpenAI и бывший сотрудник Apple и Google:
А вот Андрей Карпаты, кстати, говорил недавно несколько противоположные вещи:
Что думаете?
По моему мнению мы уже достигли AGI, с o1 это очевидно. Возможно, мы еще не добрались до «лучше, чем любой человек в любой задаче», но то, что у нас есть, это уже «лучше, чем большинство людей в большинстве задач».
Некоторые уверены, что LLM умеют только следовать инструкциям, на которых обучались. Но, во-первых, никто не может на самом деле предсказать, чему способна научиться глубокая нейронная сеть с триллионом параметров.
Во-вторых, вообще все задачи можно обобщить как "наблюдать, выдвигать гипотезы и проверять их". Чем умнее человек, тем лучше его гипотезы, но такая интуиция строится на основе опыта, на основе проб и ошибок. Так что нет ничего, чему нельзя было бы научиться на примерах.
А вот Андрей Карпаты, кстати, говорил недавно несколько противоположные вещи:
Помните, что вы не спрашиваете ИИ, вы на самом деле спрашиваете некую смесь среднестатистического разметчика данных, на которых модель обучалась. Например, если вы спросите LLM, как лучше управлять государством, это будет равносильно тому, чтобы спросить об этом случайного человека из Огайо, который работает за 10 долларов в час и потратит на ответ на ваш вопрос пол часа.
Что думаете?
🔥66😁26👍11🤔9❤6🙈4💯1
Выпускники Центрального университета могут изучать несколько направлений одновременно
На Дне открытых дверей Центрального университета, на котором собралось более 700 участников, рассказали, что студенты вуза могут изучать не одну узкую специализацию, а три направления одновременно: «Разработка», «Искусственный интеллект» и «Бизнес и аналитика». Сначала они изучают все дисциплины вместе, чтобы попробовать разные специальности и понять, что им на самом деле нравится.
Кстати, в рамках отбора, который Центральный университет запустил 6 ноября, абитуриенты могут получить гранты в размере 50%, 75% и даже 100% стоимости обучения. Для этого будущим студентам нужно показать свои знания на образовательных мероприятиях: олимпиадах, конкурсах и других активностях.
p.s. Вуз не ограничивается образовательной программой: в этом году российские школьники под руководством преподавателей Центрального университета выиграли первую в мире Международную олимпиаду по искусственному интеллекту в Болгарии. В следующем году эксперты Центрального университета совместно с Альянсом ИИ будут готовить ребят для олимпиады в Китае.
На Дне открытых дверей Центрального университета, на котором собралось более 700 участников, рассказали, что студенты вуза могут изучать не одну узкую специализацию, а три направления одновременно: «Разработка», «Искусственный интеллект» и «Бизнес и аналитика». Сначала они изучают все дисциплины вместе, чтобы попробовать разные специальности и понять, что им на самом деле нравится.
Кстати, в рамках отбора, который Центральный университет запустил 6 ноября, абитуриенты могут получить гранты в размере 50%, 75% и даже 100% стоимости обучения. Для этого будущим студентам нужно показать свои знания на образовательных мероприятиях: олимпиадах, конкурсах и других активностях.
p.s. Вуз не ограничивается образовательной программой: в этом году российские школьники под руководством преподавателей Центрального университета выиграли первую в мире Международную олимпиаду по искусственному интеллекту в Болгарии. В следующем году эксперты Центрального университета совместно с Альянсом ИИ будут готовить ребят для олимпиады в Китае.
👍44🗿20🍌8😁4🌚3
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня на стриме OpenAI релизят то, чего мы все так долго ждали: SORA уже здесь!
Это версия turbo: ускоренная и улучшенная. Можно генерировать видео до 20 секунд (пока что, вообще обещали до минуты). Согласованность промптов, моушен персонажей, детализация – кайф, однозначно достойный уровень относительно сегодняшних моделей, но, конечно, до генерации фильмов еще далеко, физика иногда страдает. Сэм сравнивает SORA c GPT-1: это ранняя разработка, поэтому ждать что вы зайдете и сгенерируете Гарри Поттера не стоит, и тем не менее, это крутой инструмент для тестирования идей и "щупанья".
Попробовать можно по плюс-подписке (20$). По плюсу доступно 50 генераций, а за ту самую подписку за 200$ вы получите безлимитный доступ. Как и было объявлено, доступны режимы text-to-video, text+image-to-video и text+video-to-video.
Кроме того, OpenAI анонсировали целый кастомный видео-редактор (сториборд): можно объединять кадры в таймлайн, добавлять разные действия, персонажей, редактировать детали и тд. Доступно три разрешения, до 1080. Будем ждать больше пользовательских генераций.
Где посмотреть примеры генераций:
– Обзор техноблогера, которому давали SORA на тест (вышел сегодня)
– Наш сегодняшний пост
– Наш пост про утечку модели с примерами, которые успели нагенерить юзеры
Уже доступно здесь: https://sora.com/ (включите VPN США)
Это версия turbo: ускоренная и улучшенная. Можно генерировать видео до 20 секунд (пока что, вообще обещали до минуты). Согласованность промптов, моушен персонажей, детализация – кайф, однозначно достойный уровень относительно сегодняшних моделей, но, конечно, до генерации фильмов еще далеко, физика иногда страдает. Сэм сравнивает SORA c GPT-1: это ранняя разработка, поэтому ждать что вы зайдете и сгенерируете Гарри Поттера не стоит, и тем не менее, это крутой инструмент для тестирования идей и "щупанья".
Попробовать можно по плюс-подписке (20$). По плюсу доступно 50 генераций, а за ту самую подписку за 200$ вы получите безлимитный доступ. Как и было объявлено, доступны режимы text-to-video, text+image-to-video и text+video-to-video.
Кроме того, OpenAI анонсировали целый кастомный видео-редактор (сториборд): можно объединять кадры в таймлайн, добавлять разные действия, персонажей, редактировать детали и тд. Доступно три разрешения, до 1080. Будем ждать больше пользовательских генераций.
Где посмотреть примеры генераций:
– Обзор техноблогера, которому давали SORA на тест (вышел сегодня)
– Наш сегодняшний пост
– Наш пост про утечку модели с примерами, которые успели нагенерить юзеры
Уже доступно здесь: https://sora.com/ (включите VPN США)
👍28🔥9❤8🤔1