This media is not supported in your browser
VIEW IN TELEGRAM
Похоже, что в ETH Zurich осознали силу колёс. Уже некоторое время они учат робота, у которого во всех 4х конечностях по колесу (разработан компанией ANYbotics, как я понял) выполнять задачки в реальной жизни.
Такая конструкция позволяет ему преодолевать больше препятствий и делает более гибким.
Классифицируется такой робот как: Quadruped-humanoid transformer
Он может приехать, потом вставать на задние колеса, чтобы перЕдними открывать дверь (хотя так сразу не выяснить где у него перед). Или поднимать и бросать коробки. Может лифт вызвать а потом в него заехать.
Наверное было бы классно приделать на него кресло, чтобы можно было удобно доехать куда угодно. Надеюсь в будущем сделают.
Про него есть несколько статей, в которых можно узнать подробнее как его учили.
Здесь его учат вставать и аккуратненько перемещаться:
Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning
https://arxiv.org/abs/2203.14912
Здесь учили работать с коробками и открывать двери в IsaacGym с PPO и Random Network Distillation:
Curiosity-Driven Learning of Joint Locomotion and Manipulation Tasks
https://openreview.net/forum?id=QG_ERxtDAP-
И видосики, чтобы прочувствовать:
https://www.youtube.com/watch?v=kEdr0ARq48A
https://www.youtube.com/watch?v=Qob2k_ldLuw
PS: как же он швырнул эту коробку...
Такая конструкция позволяет ему преодолевать больше препятствий и делает более гибким.
Классифицируется такой робот как: Quadruped-humanoid transformer
Он может приехать, потом вставать на задние колеса, чтобы перЕдними открывать дверь (хотя так сразу не выяснить где у него перед). Или поднимать и бросать коробки. Может лифт вызвать а потом в него заехать.
Наверное было бы классно приделать на него кресло, чтобы можно было удобно доехать куда угодно. Надеюсь в будущем сделают.
Про него есть несколько статей, в которых можно узнать подробнее как его учили.
Здесь его учат вставать и аккуратненько перемещаться:
Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning
https://arxiv.org/abs/2203.14912
Здесь учили работать с коробками и открывать двери в IsaacGym с PPO и Random Network Distillation:
Curiosity-Driven Learning of Joint Locomotion and Manipulation Tasks
https://openreview.net/forum?id=QG_ERxtDAP-
И видосики, чтобы прочувствовать:
https://www.youtube.com/watch?v=kEdr0ARq48A
https://www.youtube.com/watch?v=Qob2k_ldLuw
PS: как же он швырнул эту коробку...
❤9🔥6😱5
Как же хочется "анатомически детализированную биомеханическую модель всего тела плодовой мухи Drosophila melanogaster в физическом движке MuJoCo". Держите.
13 ученых (в том числе парочка из ❤️DeepMind❤️) объединились, чтобы собрать "Дрозофила фруктовая"🪰 в Blender, смоделить физику в mujoco, сунуть туда свою модель, подключить нейронки с рлем и заставить реалистично ходить и летать.
Страшно реалистичная Drosophila melanogaster живет тут:
Whole-body simulation of realistic fruit fly locomotion with
deep reinforcement learning
https://www.biorxiv.org/content/10.1101/2024.03.11.584515v1
https://github.com/TuragaLab/flybody
13 ученых (в том числе парочка из ❤️DeepMind❤️) объединились, чтобы собрать "Дрозофила фруктовая"🪰 в Blender, смоделить физику в mujoco, сунуть туда свою модель, подключить нейронки с рлем и заставить реалистично ходить и летать.
Страшно реалистичная Drosophila melanogaster живет тут:
Whole-body simulation of realistic fruit fly locomotion with
deep reinforcement learning
https://www.biorxiv.org/content/10.1101/2024.03.11.584515v1
https://github.com/TuragaLab/flybody
❤17👍3🔥1
Агенты ИИ | AGI_and_RL
На канале 3Blue1Brown вышло видео объясняющее что же такое GPT. Очень приятное. Я выставил в настройках русские субтитры, и мне стало еще понятнее :) https://www.youtube.com/watch?v=wjZofJX0v4M
Маленький апдейт по серии роликов про GPT и трансформеры
Вышло видео про механизм внимания
Бежим глядеть, подрубив субтитры
(не забывайте поставить автору видео лайкос, чтобы он нам еще видосиков делал ❤️)
https://www.youtube.com/watch?v=eMlx5fFNoYc
Вышло видео про механизм внимания
Бежим глядеть, подрубив субтитры
(не забывайте поставить автору видео лайкос, чтобы он нам еще видосиков делал ❤️)
https://www.youtube.com/watch?v=eMlx5fFNoYc
YouTube
Attention in transformers, step-by-step | Deep Learning Chapter 6
Demystifying attention, the key mechanism inside transformers and LLMs.
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
Special thanks to these supporters: https://www.3blue1brown.com/lessons/attention#thanks…
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
Special thanks to these supporters: https://www.3blue1brown.com/lessons/attention#thanks…
🔥15✍2❤2
Andrej Karpathy создал репозиторий с проектом по реализации LLM/GPT-2 на C/CUDA !
https://github.com/karpathy/llm.c
https://github.com/karpathy/llm.c
GitHub
GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA
LLM training in simple, raw C/CUDA. Contribute to karpathy/llm.c development by creating an account on GitHub.
🔥18👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Такс. В Японии все стабильно.
Собрали самоходный трехногий табурэт 🪑 из аниме "Suzume" с ардуинкой. У него 6 сервоприводов.
Учили вставать и ходить двумя методами: connecting essential postures (интерполяция между двумя позами для движения) и RLем в Isaac Gym.
Ходит он лучше с connecting essential postures, а вот встает лучше с RLем. (на мой вкус)
Прикольное!
Body Design and Gait Generation of
Chair-Type Asymmetrical Tripedal Low-rigidity Robot
https://arxiv.org/abs/2404.05932
Код чтобы сделать себе такое же
https://shin0805.github.io/chair-type-tripedal-robot
https://github.com/shin0805/Chair-TypeAsymmetricalTripedalRobot
Видео https://www.youtube.com/watch?v=-f8LDlhmdBg
Собрали самоходный трехногий табурэт 🪑 из аниме "Suzume" с ардуинкой. У него 6 сервоприводов.
Учили вставать и ходить двумя методами: connecting essential postures (интерполяция между двумя позами для движения) и RLем в Isaac Gym.
Ходит он лучше с connecting essential postures, а вот встает лучше с RLем. (на мой вкус)
Прикольное!
Body Design and Gait Generation of
Chair-Type Asymmetrical Tripedal Low-rigidity Robot
https://arxiv.org/abs/2404.05932
Код чтобы сделать себе такое же
https://shin0805.github.io/chair-type-tripedal-robot
https://github.com/shin0805/Chair-TypeAsymmetricalTripedalRobot
Видео https://www.youtube.com/watch?v=-f8LDlhmdBg
😁8❤2👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Идет. (главное чтобы бегать не научили)
🤣14👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Оказывается DeepMind учит играть маленьких робофутболистов ⚽️. Работа была проделана большая.
На видосиках можно посмотреть как они шустро бегают и забивают голы:
https://sites.google.com/view/op3-soccer
Целью было проверить способен ли Deep RL синтезировать сложные и при этом безопасные навыки для маленького гуманоидного робота.
В качестве конкретной задачи выбрали игру в футбол 1 на 1.
В процессе исследований пришли к выводу, что лучшие результаты получаются если тренировать навыки по отдельности, затем компоновать их в сложное поведение.
Потому обучение разбили на 2 фазы.
В 1й учили робота вставать и забивать голы неподготовленному сопернику.
Во 2й учились играть в self-play режиме (против себя же), улучшая свою стратегию, при этом используя навыки из первого этапа для регуляризации (учили через дистиляцию и политика с первого этапа выступала в качестве учителя).
Отметили, что попытки учить все сразу приводило к вырожденным случаям в которых робот либо катался по полу к мячу, чтобы забить его либо просто стоял.
Чтобы облегчить перенос агента из симуляции в реального робота🤖 (sim-to-real transfer) и не словить проблем добавляли агенту шумов в датчики, задержки и случайных возмущений.
Модель робота The Robotis OP3 (51 см в высоту, 3.5 кг)
Натренированные RLем агенты показали улучшения относительно заскриптованного поведения:
* шли 181% быстрее (скорость движения вперед 0,57 м/с)
* тратили на вставание 63% меньше времени;
* поворачивались 302% быстрее( скорость поворота 2,85 рад/с);
* пинали ногами на 34% быстрее;
Ещё разработчики заметили, что агенты научились предсказывать движение мяча и блокировать удары соперника! (и много движений, которым их специально не учили)
Но в работе описано и много нюансов, лучше почитать в статье.
В общем ❤️DeepMind❤️
Читаем тут:
Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning
https://www.science.org/doi/10.1126/scirobotics.adi8022
Прошлогодняя версия: https://arxiv.org/abs/2304.13653
На видосиках можно посмотреть как они шустро бегают и забивают голы:
https://sites.google.com/view/op3-soccer
Целью было проверить способен ли Deep RL синтезировать сложные и при этом безопасные навыки для маленького гуманоидного робота.
В качестве конкретной задачи выбрали игру в футбол 1 на 1.
В процессе исследований пришли к выводу, что лучшие результаты получаются если тренировать навыки по отдельности, затем компоновать их в сложное поведение.
Потому обучение разбили на 2 фазы.
В 1й учили робота вставать и забивать голы неподготовленному сопернику.
Во 2й учились играть в self-play режиме (против себя же), улучшая свою стратегию, при этом используя навыки из первого этапа для регуляризации (учили через дистиляцию и политика с первого этапа выступала в качестве учителя).
Отметили, что попытки учить все сразу приводило к вырожденным случаям в которых робот либо катался по полу к мячу, чтобы забить его либо просто стоял.
Чтобы облегчить перенос агента из симуляции в реального робота
Модель робота The Robotis OP3 (51 см в высоту, 3.5 кг)
Натренированные RLем агенты показали улучшения относительно заскриптованного поведения:
* шли 181% быстрее (скорость движения вперед 0,57 м/с)
* тратили на вставание 63% меньше времени;
* поворачивались 302% быстрее( скорость поворота 2,85 рад/с);
* пинали ногами на 34% быстрее;
Ещё разработчики заметили, что агенты научились предсказывать движение мяча и блокировать удары соперника! (и много движений, которым их специально не учили)
Но в работе описано и много нюансов, лучше почитать в статье.
В общем ❤️DeepMind❤️
Читаем тут:
Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning
https://www.science.org/doi/10.1126/scirobotics.adi8022
Прошлогодняя версия: https://arxiv.org/abs/2304.13653
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥5👍2
Forwarded from Dealer.AI
Plan GPT. Или до Q* было слово A*.
Рубрика ночное чтиво. Ознакомился тут со статьей на послевкусии хайпа с Q*. Было интересно, а были/есть ли работы и откуда пошел динамический планинг.
В папире описывается интересный merge задач оптимального поиска пути и LLM. В качестве опоры берут A*, тот самый, что ищет в среде с ограничениями (например лабиринт) оптимальный путь. Причем оптимальность лежит в оценке эвристики. Она задаëтся так, чтобы недооценивать расстояние до цели. Да, такого рода ограничение сверху или снизу, скорее всего снизу, тк есть препятствия, а они удлиняют путь. И, к примеру, манхэттен или l2 расстояния подходят для такой оценки. A* представляет собой некую смесь поиска в ширину и глубину, но за кратчайшее число шагов/время. Оптимальный путь может быть не один и зовется трейсом.
Так вот причем тут LLM? С LLM мы можем также генерировать последовательность действий при планировании. Например в виде токенов: иди вперед, поверни направо и тп. Далее транслировать генерацию в трейс и оценить путь. Важно. Задача LLM тут не изобрести новый алгоритм или найти оптимальный путь.
Цель обучения в том, чтобы приблизившись или достигнув оптимального пути из трейсов A*, научиться планированию. А далее затрансферить это умение для других задач, к примеру, принятия решения.
Логично, зачем нам искать LLM трейсы, если мы можем итак их найти быстро с помощью легкого и быстрого А*. Более того, мы уже опираемся на разные трейсы из задач в постановке А* для обучения LLM.
Зачем оно было еще надо? Да затем, что мы не хотим останавливаться только на костылях в виде CoT, ToT (tree of thought). Тем более, есть гипотеза, что это работает, тк это способ достучаться до рассуждений которые для похожих задач (или даже таких же) уже были в pretrain этой модели. Через sft с опорой на A*, мы же хотим найти альтернативу instruct подходу, но решающий уже другие классы задач.
Вот как-то так. Доброй ночи.
Рубрика ночное чтиво. Ознакомился тут со статьей на послевкусии хайпа с Q*. Было интересно, а были/есть ли работы и откуда пошел динамический планинг.
В папире описывается интересный merge задач оптимального поиска пути и LLM. В качестве опоры берут A*, тот самый, что ищет в среде с ограничениями (например лабиринт) оптимальный путь. Причем оптимальность лежит в оценке эвристики. Она задаëтся так, чтобы недооценивать расстояние до цели. Да, такого рода ограничение сверху или снизу, скорее всего снизу, тк есть препятствия, а они удлиняют путь. И, к примеру, манхэттен или l2 расстояния подходят для такой оценки. A* представляет собой некую смесь поиска в ширину и глубину, но за кратчайшее число шагов/время. Оптимальный путь может быть не один и зовется трейсом.
Так вот причем тут LLM? С LLM мы можем также генерировать последовательность действий при планировании. Например в виде токенов: иди вперед, поверни направо и тп. Далее транслировать генерацию в трейс и оценить путь. Важно. Задача LLM тут не изобрести новый алгоритм или найти оптимальный путь.
Цель обучения в том, чтобы приблизившись или достигнув оптимального пути из трейсов A*, научиться планированию. А далее затрансферить это умение для других задач, к примеру, принятия решения.
Логично, зачем нам искать LLM трейсы, если мы можем итак их найти быстро с помощью легкого и быстрого А*. Более того, мы уже опираемся на разные трейсы из задач в постановке А* для обучения LLM.
Зачем оно было еще надо? Да затем, что мы не хотим останавливаться только на костылях в виде CoT, ToT (tree of thought). Тем более, есть гипотеза, что это работает, тк это способ достучаться до рассуждений которые для похожих задач (или даже таких же) уже были в pretrain этой модели. Через sft с опорой на A*, мы же хотим найти альтернативу instruct подходу, но решающий уже другие классы задач.
Вот как-то так. Доброй ночи.
huggingface.co
Paper page - Beyond A*: Better Planning with Transformers via Search Dynamics
Bootstrapping
Bootstrapping
Join the discussion on this paper page
🔥11❤3👍2🤔2
Media is too big
VIEW IN TELEGRAM
Там собрали окружение (на базе виртуальной машины) для тестирования мультимодальных агентиков в работе с реальной операционной системой.
Внутри стоят реальные приложения, которыми мы с вами пользуемся. Также на выбор несколько операционок.
Агент может управлять мышкой и клавиатурой.
А на входе получает скриншот экрана + XML-format accessibility (a11y) tree (дерево доступности, представляющее собой дополнительную информацию вроде позиций окон и их размеров, позиции указателя и тд), а еще инструкцию с описанием задачи.
Ещё подготовили бенчмарк с 369 задачками, на котором протестировали современные LLM/VLM.
Задачки вроде: "Можешь помочь мне очистить мой компьютер, избавившись от всех файлов cookie, которые мог сохранить Amazon?", которые проверяют способность пользоваться возможностями операционных систем и программ.
Пишут, что человек способен выполнить 72.36% всех задач.
GPT-4 показала лучший результат среди LLMок: 12.24% (получая на вход A11y tree).
GPT-4V показала результат 12.17% (Screenshot + A11y tree на входе).
Интересненько. Отсюда ведь можно еще и датасетики собирать теперь, чтобы учиться...
https://os-world.github.io/
https://github.com/xlang-ai/OSWorld
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
https://arxiv.org/abs/2404.07972
Внутри стоят реальные приложения, которыми мы с вами пользуемся. Также на выбор несколько операционок.
Агент может управлять мышкой и клавиатурой.
А на входе получает скриншот экрана + XML-format accessibility (a11y) tree (дерево доступности, представляющее собой дополнительную информацию вроде позиций окон и их размеров, позиции указателя и тд), а еще инструкцию с описанием задачи.
Ещё подготовили бенчмарк с 369 задачками, на котором протестировали современные LLM/VLM.
Задачки вроде: "Можешь помочь мне очистить мой компьютер, избавившись от всех файлов cookie, которые мог сохранить Amazon?", которые проверяют способность пользоваться возможностями операционных систем и программ.
Пишут, что человек способен выполнить 72.36% всех задач.
GPT-4 показала лучший результат среди LLMок: 12.24% (получая на вход A11y tree).
GPT-4V показала результат 12.17% (Screenshot + A11y tree на входе).
Интересненько. Отсюда ведь можно еще и датасетики собирать теперь, чтобы учиться...
https://os-world.github.io/
https://github.com/xlang-ai/OSWorld
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
https://arxiv.org/abs/2404.07972
❤14🔥4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Как GPT-4V в RDR2 играла.
Авторы поставили задачу General Computer Control (GCC): создание foundation агентов для решения любых компьютерных задач также как это делают люди, т.е. когда на вход агенту подаются те же данные, что и человеку (например изображения с экрана/текст/звук), а управлять можно клавиатурой и мышкой.
Для решеия задачи разработали фреймворк Cradle.
Состоит из 6 модулей:
1. Сбор информации.
На вход подается изображение (скриншот и элементы пользовательского интерфейса) + текстовая информация (заголовки и абзацы текста с экрана, меню и тд полученные через OCR).
2. Self-reflection. Позволяет модели поразмышлять о действиях и задачах;
3. Task inference. Обработка пула задач для выбора следующей задачи;
4. Skill curation. Создание и обновления списка навыков;
5. Action planning. Здесь агент пишет код для управления клавиатурой и мышкой; (~ нажимать W 5 секунд чтобы идти вперед)
6. Memory. Память для хранения и использования предыдущего опыта и навыков;
Ну и подключили GPT-4V с Cradle к Red Dead Redemption 2.
Что выявили:
* GPT-4V пока плохо справляется с пространственно-визуальным восприятием, отчего страдает управление персонажем.
* Не всегда правильно интерпретирует мини-карту. Например иногда неправильно определяет направление центральной стрелочки, потому теряется и не выполняет задачу.
* При работе с длинным контекстом отвлекается на несущественные события в игре и галлюцинирует.
* Авторы полагают, что из-за отсутствия у GPT-4V модели мира RDR2, делает неправильные выводы из прошлых действий, отчего неправильно выбирает следующие. (опа, world models)
* Без модуля Self-reflection результаты сильно хуже.
Так понял.
В общем-то ожидаемый результат, посмотрим за прогрессом в мультимодальных агентах.
https://baai-agents.github.io/Cradle/
Towards General Computer Control: A Multimodal
Agent for Red Dead Redemption II as a Case Study
https://arxiv.org/abs/2403.03186
Код https://github.com/BAAI-Agents/Cradle
Видосик с попытками GPT-4V играть RDR2:
https://www.youtube.com/watch?v=Cx-D708BedY
Авторы поставили задачу General Computer Control (GCC): создание foundation агентов для решения любых компьютерных задач также как это делают люди, т.е. когда на вход агенту подаются те же данные, что и человеку (например изображения с экрана/текст/звук), а управлять можно клавиатурой и мышкой.
Для решеия задачи разработали фреймворк Cradle.
Состоит из 6 модулей:
1. Сбор информации.
На вход подается изображение (скриншот и элементы пользовательского интерфейса) + текстовая информация (заголовки и абзацы текста с экрана, меню и тд полученные через OCR).
2. Self-reflection. Позволяет модели поразмышлять о действиях и задачах;
3. Task inference. Обработка пула задач для выбора следующей задачи;
4. Skill curation. Создание и обновления списка навыков;
5. Action planning. Здесь агент пишет код для управления клавиатурой и мышкой; (~ нажимать W 5 секунд чтобы идти вперед)
6. Memory. Память для хранения и использования предыдущего опыта и навыков;
Ну и подключили GPT-4V с Cradle к Red Dead Redemption 2.
Что выявили:
* GPT-4V пока плохо справляется с пространственно-визуальным восприятием, отчего страдает управление персонажем.
* Не всегда правильно интерпретирует мини-карту. Например иногда неправильно определяет направление центральной стрелочки, потому теряется и не выполняет задачу.
* При работе с длинным контекстом отвлекается на несущественные события в игре и галлюцинирует.
* Авторы полагают, что из-за отсутствия у GPT-4V модели мира RDR2, делает неправильные выводы из прошлых действий, отчего неправильно выбирает следующие. (опа, world models)
* Без модуля Self-reflection результаты сильно хуже.
Так понял.
В общем-то ожидаемый результат, посмотрим за прогрессом в мультимодальных агентах.
https://baai-agents.github.io/Cradle/
Towards General Computer Control: A Multimodal
Agent for Red Dead Redemption II as a Case Study
https://arxiv.org/abs/2403.03186
Код https://github.com/BAAI-Agents/Cradle
Видосик с попытками GPT-4V играть RDR2:
https://www.youtube.com/watch?v=Cx-D708BedY
🔥9👍3🤩1
А там BostonDynamics показали новую версию платформы для роботов Atlas.
Пишут, что новое поколение будет сильнее и сможет выполнять более широкий диапазон движений.
https://bostondynamics.com/blog/electric-new-era-for-atlas/
Недавно BostonDynamics попрощались с гидравлической версией Atlas. Новая версия является полностью электрической и использует электромоторы.
Делают вместе с Hyundai, на чьих заводах новые роботы также будут применяться.
Упомянули, что оснащают своих роботов программным обеспечением с модулями обучения с подкреплением и компьютерным зрением, частью которого является RL Researcher Kit.
RL Researcher Kit применяется, чтобы научить робота новым умениям, преодолевать больше препятствий и стабильнее передвигаться.
Про робота Spot и Spot RL Researcher Kit:
https://bostondynamics.com/blog/starting-on-the-right-foot-with-reinforcement-learning/
Пишут, что новое поколение будет сильнее и сможет выполнять более широкий диапазон движений.
https://bostondynamics.com/blog/electric-new-era-for-atlas/
Недавно BostonDynamics попрощались с гидравлической версией Atlas. Новая версия является полностью электрической и использует электромоторы.
Делают вместе с Hyundai, на чьих заводах новые роботы также будут применяться.
Упомянули, что оснащают своих роботов программным обеспечением с модулями обучения с подкреплением и компьютерным зрением, частью которого является RL Researcher Kit.
RL Researcher Kit применяется, чтобы научить робота новым умениям, преодолевать больше препятствий и стабильнее передвигаться.
Про робота Spot и Spot RL Researcher Kit:
https://bostondynamics.com/blog/starting-on-the-right-foot-with-reinforcement-learning/
🔥9👍1
Forwarded from Сиолошная
Many-Shot In-Context Learning
LLM известны своим навыком In-Context Learning (ICL) — они могут выучить новую задачу без непосредственно обучения, просто по демонстрации примеров в промпте. Однако долгое время количество подаваемых примеров оставалось маленьким — 4-8, может, 25 максимум. Однако модели текущего поколения набирают обороты, и у той же Gemini 1.5 Pro в контекст влазит аж 1М токенов — хватит на сотни и даже тысячи примеров решений!
Поэтому авторы из DeepMind возвращаются к вопросу ICL и исследуют изменение качества при увеличении количества примеров. Результаты ожидаемые - почти всегда и почти везде качество растёт, тут ничего удивительного. Например, в задаче машинного перевода на редкие языки (с английского на курдский и тамильский) Gemini 1.5 Pro обходит гугл переводчик (в промпте при этом примерно 85-100k токенов пар-примеров с переводом). В разных бенчмарках по математике и рассуждениям тоже наблюдаются приросты — картинка будет в первом комментарии.
Один из вопросов с точки зрения практики - готовы ли вы платить +$0.5 за обращение к модели, чтобы поднять качество ответов на 5-15%? Уверен, найдутся домены, где это окупается.
«Ну так блин, для этого надо столько разметки вручную делать, это не всегда доступно» — можете заметить вы, и будете правы. Поэтому начинается интересная часть, делящаяся на два направления:
1) подавать просто текст проблем в промпт, без решений и ответов (называется Unsupervised ICL)
2) генерировать решения LLM'кой (и отбирать их по имеющемуся ответу) и брать их. Да, в таком случае некоторые неправильные решения могут приводить к верному ответу. Называется Reinforced ICL.
Эти два метода расширяют применимость ICL с большим количеством решений — в первом так вообще ничего не надо, кроме текстов проблем. И...это тоже увеличивает качество. RICL так вообще почти всегда показывает такое же качество (и даже лучше!), чем демонстрация написанных людьми решений. И даже UICL иногда работает — вероятно, потому, что модель лучше понимает и формирует внутри себя представление о том, с какими проблемами имеет дело.
Лично мне в статье не хватило сравнения с RAG подходом, когда отдельная модель сначала из всего корпуса проблем и/или решений выбирает самые подходящие, подаёт их в промпт, а затем уже LLM генерирует ответ. Тут не нужен большой контекст, и потенциально можно отфильтровать шум. Быть может этот метод будет давать качество ещё выше🤷♀️
Ждём модели с 100M контекста, чтобы кормить им описание всего, что только под руку попадётся — даже если за это придётся платить долор(
LLM известны своим навыком In-Context Learning (ICL) — они могут выучить новую задачу без непосредственно обучения, просто по демонстрации примеров в промпте. Однако долгое время количество подаваемых примеров оставалось маленьким — 4-8, может, 25 максимум. Однако модели текущего поколения набирают обороты, и у той же Gemini 1.5 Pro в контекст влазит аж 1М токенов — хватит на сотни и даже тысячи примеров решений!
Поэтому авторы из DeepMind возвращаются к вопросу ICL и исследуют изменение качества при увеличении количества примеров. Результаты ожидаемые - почти всегда и почти везде качество растёт, тут ничего удивительного. Например, в задаче машинного перевода на редкие языки (с английского на курдский и тамильский) Gemini 1.5 Pro обходит гугл переводчик (в промпте при этом примерно 85-100k токенов пар-примеров с переводом). В разных бенчмарках по математике и рассуждениям тоже наблюдаются приросты — картинка будет в первом комментарии.
Один из вопросов с точки зрения практики - готовы ли вы платить +$0.5 за обращение к модели, чтобы поднять качество ответов на 5-15%? Уверен, найдутся домены, где это окупается.
«Ну так блин, для этого надо столько разметки вручную делать, это не всегда доступно» — можете заметить вы, и будете правы. Поэтому начинается интересная часть, делящаяся на два направления:
1) подавать просто текст проблем в промпт, без решений и ответов (называется Unsupervised ICL)
2) генерировать решения LLM'кой (и отбирать их по имеющемуся ответу) и брать их. Да, в таком случае некоторые неправильные решения могут приводить к верному ответу. Называется Reinforced ICL.
Эти два метода расширяют применимость ICL с большим количеством решений — в первом так вообще ничего не надо, кроме текстов проблем. И...это тоже увеличивает качество. RICL так вообще почти всегда показывает такое же качество (и даже лучше!), чем демонстрация написанных людьми решений. И даже UICL иногда работает — вероятно, потому, что модель лучше понимает и формирует внутри себя представление о том, с какими проблемами имеет дело.
Лично мне в статье не хватило сравнения с RAG подходом, когда отдельная модель сначала из всего корпуса проблем и/или решений выбирает самые подходящие, подаёт их в промпт, а затем уже LLM генерирует ответ. Тут не нужен большой контекст, и потенциально можно отфильтровать шум. Быть может этот метод будет давать качество ещё выше
Ждём модели с 100M контекста, чтобы кормить им описание всего, что только под руку попадётся — даже если за это придётся платить долор(
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла Ллама 3.
8B, 70B. (8192 tokens)
После тестиков в ближайшее время узнаем что в реальности по бенчам.
Веса (придется формочку заполнить)
https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6
Код
https://github.com/meta-llama/llama3
Обещают 400B+ модельку. Марк Цукерберг все еще тренирует её. (на видео)
8B, 70B. (8192 tokens)
После тестиков в ближайшее время узнаем что в реальности по бенчам.
Веса (придется формочку заполнить)
https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6
Код
https://github.com/meta-llama/llama3
Обещают 400B+ модельку. Марк Цукерберг все еще тренирует её. (на видео)
😁17🔥4👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔7👍3
Forwarded from Старший Авгур
https://huggingface.co/IlyaGusev/saiga_llama3_8b
Обучал unsloth'ом чуть больше часа на RTX 4090. Сейчас ещё поставил обучение старым кодом. Особо не тыкал, по тестовым промптам вполне неплохо. GGUF будет, но завтра.
Обучал unsloth'ом чуть больше часа на RTX 4090. Сейчас ещё поставил обучение старым кодом. Особо не тыкал, по тестовым промптам вполне неплохо. GGUF будет, но завтра.
👍4
сайга на Llama 3, чтобы русский вкрутить 🔼
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
Forwarded from Center for Cognitive Modeling
Мы знаем, что у нас активная аудитория и хотим попробовать новый формат - Радиоэфир!
В этом формате наши руководители, сотрудники и приглашенные гости будут делиться своим знанием, видением и обсуждать новости по выбранной теме.
У вас, как наших подписчиков, будет не только возможность послушать, но и поучаствовать в обсуждении и задать свои вопросы!
Спикеры:
- Александр Панов, руководитель Центра когнитивного моделирования МФТИ
- Алексей Ковалёв, доцент Центра когнитивного моделирования МФТИ
Присоединяйтесь к диалогу, делитесь опытом и участвуйте в обсуждении!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👌1