Telegram Web
апаздал немножечко с форвардом... 😕 Но вдруг кому-то интересно, там в канале эфирчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👌2
DARPA продолжает разработки по ИИ для Air Combat с истребителями. И вот они прошли важный рубеж.

ACE AI автономно управлял специально модифицированным F-16 (такая версия называется X-62A, или VISTA - Variable In-Flight Simulator Test Aircraft) при проведении боевых маневров против человека в воздушном бою.
Как понял, произошло это еще в сентябре 2023 на базе ВВС Эдвардс (Edwards Air Force Base) в Калифорнии.
При этом в X-62A также сидел пилот, но его вмешательства не потребовалось.

Сама программа ACE (Air Combat Evolution) стартовала в 2019 году.
Еще в 2020 были проведены испытания AlphaDogFight, в которых моделировались маневры в разных сценариях воздушного боя. Тогда ИИ-агент от компании Heron Systems доминировал над реальным опытным пилотом ВВС США «выигрывая со счетом 5:0 за счет агрессивных и точных маневров, которые пилот-человек не мог превзойти»

DARPA планирует продолжать эксперименты.

Такие дела... Страшно интересно.

Хотелось бы знать что там внутри. Использовали RL?

Посмотреть видосик от ДАРПЫ по поводу:
https://www.youtube.com/watch?v=C8yjtaZfNCw

Почитать https://thedebrief.org/darpas-groundbreaking-ace-program-and-x-62a-becomes-first-ai-controlled-jet-to-dogfight-against-manned-f-16-in-real-world/
🔥6👍4👎3💩2😱1
Forwarded from Derp Learning
Improving microbial phylogeny with citizen science within a mass-market video game

Наконец-то, статья, переплюнувшая статью Google Gemini по количеству контрибьюторов 😅

Если кратко - учёные, исследовавшие днк кишечной микрофлоры, запартнерились с gearbox и встроили в borderlands мини-игру, в которой игроки чинили реальные последовательности ДНК.

В итоге в мини-игру поиграло более 4 млн человек, решив 135 миллионов задач. Несложно прикинуть, сколько бы стоила обработка такого объема данных наемными людьми.
Вот это я понимаю краудсорсинг.

Образцы ДНК, кстати, были взяты из фекалий, чем можно объяснить повышенный интерес геймеров
/s


Пейпер
🔥11👍31
Надеплоил llama3 70b, собираем синту под русские инструкт датасеты, приходите тыкаться!

@vikhrbot
👍7👌1
Недавняя лекция-презентация от Яна ЛеКуна про Objective-Driven AI на 97 страничек

Про авторегрессионные модели (и их ограничения),
Energy-Based Models,
про Self-Supervised Learning,
World Models,
JEPA

https://drive.google.com/file/d/1Ymx_LCVzy7vZXalrVHPXjX9qbpd9k_bo/view

Видео: https://www.youtube.com/watch?v=MiqLoAZFRSE
👍8🤔4🔥2
Нашел на ютубе интервью с Ричардом Саттоном вышедшее пару месяцев назад.

https://www.youtube.com/watch?v=zZuh8YUBeDY

Ричард - один из создателей современного обучения с подкреплением и автор популярной книги "Reinforcement learning: An Introduction".

Статьи:
https://scholar.google.com/citations?hl=ru&user=6m4wv6gAAAAJ

На самом деле получилось достаточно базовое интервью, по 5 минуток пообсуждали планы Ричарда и разные ИИ-темы.

*Про то, что для ИИ важна цель;
*про The Alberta Plan;
*про коллабу с Кармаком;
ну и другие.

The Alberta Plan - это в общем-то реальный план по ресерчу и созданию агентов, "которые взаимодействуют с гораздо более сложным миром и способны предсказывать и контролировать свои сенсорные входные сигналы".
И там реально описана roadmap по созданию прототипа такого агента.
Выпустили его в 2022 году:

The Alberta Plan
https://arxiv.org/abs/2208.11173

Ричард Саттон и Джон Кармак заколлабились в 2023, для совместной работы над ИИ в Keen Technologies: https://www.amii.ca/latest-from-amii/john-carmack-and-rich-sutton-agi/
👍6🔥5😁2
DeepMindы подогнали интересную библиотеку для визуализации и анализа LLMок - Penzai

https://github.com/google-deepmind/penzai

Вроде как можно работать с архитектурой модельки, модифицировать уже натрейненые нейронки, визуализировать слои, ну и всякое interpretibility делать

Подготовлены несколько ноутбуков (для колаба и гегла) с примерами: https://github.com/google-deepmind/penzai/tree/main/notebooks

Все примеры пока крутятся вокруг работы с гугловой Gemma.

ну и доку читать надо: https://penzai.readthedocs.io/en/stable/index.html
👍9🔥5
Случайно наткнулся на прикольную либку, где авторы вкручивают разные механизмы для улучшения рассуждений с ллмками: реварды, поиск и в каком-то виде ворлд моделсы.
Не уверен, что это можно просто взять и использовать, но оно развивается и поразбирать отдельные механизмы можно.

Как понял из последних апдейтов туда и лламу 3 вкрутили.

https://www.llm-reasoners.net/

https://github.com/maitrix-org/llm-reasoners

И лидерборд ведут:
https://www.llm-reasoners.net/leaderboard
👍11
🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова

Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!

Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.

В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам

📹 Трансляция Youtube

Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!

#семинары #RL
6👍3👏1
Тут недавно статья выходила

Can Language Models Solve Olympiad Programming?
https://arxiv.org/abs/2404.10952v1

В работе авторы представили бенчмарк USACO из 307 задачек
https://princeton-nlp.github.io/USACOBench/

В GPT-4 в 0-shot с COT смогла решить 8.7% задачек.
После добавления self-reflection и retrieval поверх книги по олимп программированию https://cp-algorithms.com/ и базы решенных задачек GPT-4 смогла решить 20.2%.
❗️Под базой понимаются те же задачи и решения (с кодом) из USACO датасета, за исключением задачи, которая сейчас решается. (да, выглядит подозрительно, главное чтобы не было утечек).

Хотелось бы чтобы оно работало и для новых задачек, но это надо тестить.

Этот подход имплементнули для ленгчейна, которым многие пользуются, поэтому мб будет полезно: https://langchain-ai.github.io/langgraph/tutorials/usaco/usaco/
👍5🔥2
Forwarded from rizzearch
Offline Actor-Critic Reinforcement Learning Scales to Large Models

В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого

Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!

И это все на 132 тасках с непрерывными действиями🥸

👀LINK

#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍3
Интересный ресурс по RLю и оптимальному управлению от Dimitri P. Bertsekas
Для тех кто готов сильно вникать.

https://web.mit.edu/dimitrib/www/RLbook.html

Автор 4 года ведет курс по RLю в Университете Аризоны, и за это время скомпилил большую книжку на 400+ страничек.
Также в книжке есть и приложения типа TSP.

На инглише, конечно.

+ там много видеолекций и отдельно книжечка

Lessons from AlphaZero for
Optimal, Model Predictive, and
Adaptive Control


https://web.mit.edu/dimitrib/www/LessonsfromAlphazero.pdf
👍15💯43
Forwarded from black_samorez
И еще апдейты по AQLM:

Новые модели: мы квантизовали и выложили Llama-3 и Command-R. Последнюю сжали так сильно, что влезает в 3090 без оффлодинга. Актуальные чекпоинты и новые модели добавляются сюда: HF hub.

Деплой в прод: мы помогли интегрировать AQLM в vLLM. Теперь можно легко и непринужденно разворачивать endpoint с автоматическим батчинком и эффективными кернелами. Llama-3-70b так генерит со скоростью 6.8 Tok/s на 3090. Более быстрые кернелы для больших батчей тоже прикрутили, чтобы высоконагруженные эндпоинты были эффективнее. Краткая вводная на колабе.

3 borderline accept из 4: AQLM взяли на ICML, так что я теперь официально undergrad со статьей 1* автором на ICML💃💃💃
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6
Я обожаю Google! Нет ничего качественнее Гугла!


Смотрим туть

https://www.youtube.com/watch?v=XEzRZ35urlk

* Говорят у Gemini 1.5 Pro теперь будет 2м контекст
* Представили Gemini 1.5 Flash - оптимизированная моделька (будет доступна в Google AI Studio и Vertex AI)
* Project Astra - реалтайм ассистент в телефоне который может сразу обрабатывать видео с камеры и отвечать по нему на вопросы
* Imagen 3 - новая версия генерилки картинок
* Music AI Sandbox - AI тулза для генеративной музыки
* Veo - text-to-video моделька
* Заанонсили 6е поколение своих TPUшек
* встраивают асистента в поиск
👍9😁32🔥1
Интересная выжимка по алайнменту + обзоры важных статей (есть и вполне свежие)

читать, сохранять.

https://aman.ai/primers/ai/llm-alignment/
🔥12🤩4👍3
Кучу наших любимых ллмок потестили на вопросиках вида:

"Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?"
Ответ С = 1+M (Алиса + её сестры)

Назвали такую задачку AIW Problem.

Всего выделили 4 варианта задачи AIW:
AIW Variation 1, N = 3, M = 6, C = 7;
AIW Variation 2, N = 4, M = 2, C = 3;
AIW Variation 3, N = 1, M = 4, C = 5;
AIW Variation 4, N = 4, M = 1, C = 2

Еще сделали 3 варианта промтов: STANDARD, THINKING, RESTRICTED (в статейке)

Также сформулировали задачку в более сложном виде:

Alice has 3 sisters. Her mother has 1 sister who does not have
children - she has 7 nephews and nieces and also 2 brothers.
Alice’s father has a brother who has 5 nephews and nieces in
total, and who has also 1 son. How many cousins does Alice’s
sister have?

Назвали ее AIW+ и ответы на нее проверяли вручную.

30+ раз закидывали комбинации AIW задачи + разные варианты промтов. Собственно результаты по корректным ответам на скрине.
mistral-medium-2312 на AIW+ прям машина 🦾

Так понял.

В статейке можно посмотреть сильно больше статистики

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
https://arxiv.org/abs/2406.02061

На серьезных жду AGI в следующем году. Илон Маск в твиттере писал что будет
Ну а по результатам выше либо от OpenAI либо от Мистраля

взял туть https://www.tgoop.com/j_links/7525
🔥9👍2🤔21
Forwarded from BOGDANISSSIMO
Мечтает ли GPT-4o о сегментации картинок...?

Рассказал на Habr найденный способ как заставить GPT-4o работать с детекцией объектов на картинке и выдавать координаты (bounding boxes), с которыми можно работать.

Внутри много деталей о том, с какими препятствиями и нюансами мы сталкиваемся в Vibe AI при парсинге сообщений со скриншотов переписки.

Приятного прочтения, буду благодарен вашей обратной связи, лайкам, репостам ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔31
pov: скопил деняк купил робота, он с утра до вечера бэкфлипает 🚬

RL сделал все что мог.

$150,000.00 USD вдруг кто хочет

https://www.unitree.com/h1/

PS шутко, я робота не покупал
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍1
2025/07/12 20:54:19
Back to Top
HTML Embed Code: