Вышла небольшая но полезная обзорка по интерактивным видеогенерилкам.
Тут ворлд моделс, симуляторы (в том числе вождения), игры, и вот это все
Я давно не следил за темой и понравилась вот эта карта что на скрине
A Survey of Interactive Generative Video
https://arxiv.org/abs/2504.21853
PS все по ИИ собираем в https://www.tgoop.com/researchim
Тут ворлд моделс, симуляторы (в том числе вождения), игры, и вот это все
Я давно не следил за темой и понравилась вот эта карта что на скрине
A Survey of Interactive Generative Video
https://arxiv.org/abs/2504.21853
PS все по ИИ собираем в https://www.tgoop.com/researchim
🔥13❤4👍2
сложил в репчик несколько o3 ресерчей на разные темы
AI в медицине
https://github.com/researchim-ai/state-of-ai/blob/main/Med_AI_research.md
ИИ киберсек
https://github.com/researchim-ai/state-of-ai/blob/main/AI_cybersecurity_research.md
По рагу
https://github.com/researchim-ai/state-of-ai/blob/main/RAG_research.md
и заходите в https://www.tgoop.com/researchim там собираем ИИнфу и проектики делаем
AI в медицине
https://github.com/researchim-ai/state-of-ai/blob/main/Med_AI_research.md
ИИ киберсек
https://github.com/researchim-ai/state-of-ai/blob/main/AI_cybersecurity_research.md
По рагу
https://github.com/researchim-ai/state-of-ai/blob/main/RAG_research.md
и заходите в https://www.tgoop.com/researchim там собираем ИИнфу и проектики делаем
GitHub
state-of-ai/Med_AI_research.md at main · researchim-ai/state-of-ai
По возможности актуальная информация по ИИ + ресерчи от ChatGPT - researchim-ai/state-of-ai
🔥18👍6❤4
HF 🤗 выложили nanoVLM учебный проект по трену и тюну небольших VLMок
https://github.com/huggingface/nanoVLM
https://github.com/huggingface/nanoVLM
🔥27👍7❤4
Forwarded from Love. Death. Transformers.
AI модерацию очень сложно мерить — нужно учитывать разные виды контента, быстро отвечать, не false positiвить. Челы из https://whitecircle.ai озаботились и сделали первый бенчмарк для гардрейлов, а еще измерили на нем все самые популярные LLM, в том числе давая моделям поррасуждать над ответом.
Твиттер
Полистать подробнее в блоге
Твиттер
Полистать подробнее в блоге
🔥15👍6❤2
Ученые из Японии выложили 2 датасета для трена по которым изначально прошлись ллмками Llama-3.3-70B-Instruct
SwallowCode ~ 16 Billion tokens
https://huggingface.co/datasets/tokyotech-llm/swallow-code
(питон из The-Stack-v2 обработанный в 4 стадии - 2 фильтрации и 2 переписывания ллмкой)
SwallowMath ~ 2.3 Billion tokens
https://huggingface.co/datasets/tokyotech-llm/swallow-math
(математика из FineMath-4+)
Потом дотюнили на них Llama-3.1-8B ну и сравнили с другими способами обработки. Все на скринах, переписывание ллмкой докидывает
Rewriting Pre-Training Data Boosts LLM Performance in Math and Code
https://arxiv.org/abs/2505.02881
https://www.alphaxiv.org/ru/overview/2505.02881
PS собираемся и собираем инфу по ии в https://www.tgoop.com/researchim
SwallowCode ~ 16 Billion tokens
https://huggingface.co/datasets/tokyotech-llm/swallow-code
(питон из The-Stack-v2 обработанный в 4 стадии - 2 фильтрации и 2 переписывания ллмкой)
SwallowMath ~ 2.3 Billion tokens
https://huggingface.co/datasets/tokyotech-llm/swallow-math
(математика из FineMath-4+)
Потом дотюнили на них Llama-3.1-8B ну и сравнили с другими способами обработки. Все на скринах, переписывание ллмкой докидывает
Rewriting Pre-Training Data Boosts LLM Performance in Math and Code
https://arxiv.org/abs/2505.02881
https://www.alphaxiv.org/ru/overview/2505.02881
PS собираемся и собираем инфу по ии в https://www.tgoop.com/researchim
🔥12👍7❤5
Хм, там Хуавей выложили статью как тренили свою PanguUltraMoE с 718 миллиардов параметров
Модельку саму не выкладывают
Интересного тут
1. моделька от хуавея
2. тренили они модельку на 6 тысячах хуавеевских чипах Ascend NPU
Много про оптимизации под эти чипы
Моделька по бенчам перформит ~ DeepSeek R1
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs
https://arxiv.org/abs/2505.04519
https://www.alphaxiv.org/ru/overview/2505.04519
Есть вот такой пост про архитектуру Ascend NPU чипов еще 2021 года
https://forum.huawei.com/enterprise/intl/en/thread/what-is-ascend-chips/667245530885013505
Модельку саму не выкладывают
Интересного тут
1. моделька от хуавея
2. тренили они модельку на 6 тысячах хуавеевских чипах Ascend NPU
Много про оптимизации под эти чипы
Моделька по бенчам перформит ~ DeepSeek R1
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs
https://arxiv.org/abs/2505.04519
https://www.alphaxiv.org/ru/overview/2505.04519
Есть вот такой пост про архитектуру Ascend NPU чипов еще 2021 года
https://forum.huawei.com/enterprise/intl/en/thread/what-is-ascend-chips/667245530885013505
👍8❤6👏2
Полный ноль в ризонинге
В смысле, что для обучению ризонингу не надо заготовленных данных. Моделька сама формулирует задачи, сама пытается их решать.
Агент работает с кодом. Одна и та же моделька работает в двух ролях - кто ставит задачи и кто решает. И получается такой селфплей
Обе эти роли действуют на программах, входам для них и на их выходах (триплеты). И для каждой из ролей назначаются свои реварды.
И выполняют 3 вида внутренних задач в процессе решения:
Deduction - для программы и входных данных предиктит выход
Abduction - по программе и выходу предиктит параметры для программы
Induction - синтезирует программу по входам и выходам
У каждого вида задач свои буферы триплетов. Базовой моделькой генерируется первоначальный набор задач, затем в процессе обучения роль ставящая задачи создает их вариации, а решатель решает. Успешные триплеты добавляются в буфер
Генерируемые программы выполняются по своим входам и выходам (ну в зависимости от типа задачи) и по результатам получают реварды.
Ну и учатся рлем лучше решать задачи.
В целом по бенчам на математике сопоставимы или обходят другие хорошие подходы с данными.
Так понял. Довольно интересно
Подробнее читаем тут
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
https://www.arxiv.org/abs/2505.03335
https://www.alphaxiv.org/ru/overview/2505.03335
https://andrewzh112.github.io/absolute-zero-reasoner/
https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
PS собираем ИИнфу и проекты делаем в https://www.tgoop.com/researchim
В смысле, что для обучению ризонингу не надо заготовленных данных. Моделька сама формулирует задачи, сама пытается их решать.
Агент работает с кодом. Одна и та же моделька работает в двух ролях - кто ставит задачи и кто решает. И получается такой селфплей
Обе эти роли действуют на программах, входам для них и на их выходах (триплеты). И для каждой из ролей назначаются свои реварды.
И выполняют 3 вида внутренних задач в процессе решения:
Deduction - для программы и входных данных предиктит выход
Abduction - по программе и выходу предиктит параметры для программы
Induction - синтезирует программу по входам и выходам
У каждого вида задач свои буферы триплетов. Базовой моделькой генерируется первоначальный набор задач, затем в процессе обучения роль ставящая задачи создает их вариации, а решатель решает. Успешные триплеты добавляются в буфер
Генерируемые программы выполняются по своим входам и выходам (ну в зависимости от типа задачи) и по результатам получают реварды.
Ну и учатся рлем лучше решать задачи.
В целом по бенчам на математике сопоставимы или обходят другие хорошие подходы с данными.
Так понял. Довольно интересно
Подробнее читаем тут
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
https://www.arxiv.org/abs/2505.03335
https://www.alphaxiv.org/ru/overview/2505.03335
https://andrewzh112.github.io/absolute-zero-reasoner/
https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
PS собираем ИИнфу и проекты делаем в https://www.tgoop.com/researchim
🔥15❤2👍2
This media is not supported in your browser
VIEW IN TELEGRAM
просто double DQN проходит простой уровень из марио
https://www.reddit.com/r/reinforcementlearning/comments/1kidoi3/mario/
https://www.reddit.com/r/reinforcementlearning/comments/1kidoi3/mario/
🏆26🔥4👏2
хм интересная штука
двое ребят kalomaze (хз кто он, в иксе часто про всякое рльное пишет) и Will Brown (он одним из первых выложил пример с кодом по grpo для тюна 1б лламы в домашних условиях, который быстро разошелся и многие взяли этот пример за базу и вообще разбирались во всей этой грпо штуке)
вот только что пошли работать в https://www.primeintellect.ai/
https://github.com/PrimeIntellect-ai
Как понял они делают всякое по распределенному трену моделек и агентские штуки
Я к чему - прикольно что кто-то пылесосит популярных рльных/ллмных челов
И еще вот вышел видосик по открытым вопросам агентик рля с Виллом Брауном как раз
https://www.youtube.com/watch?v=Xkwok_XXQgw
двое ребят kalomaze (хз кто он, в иксе часто про всякое рльное пишет) и Will Brown (он одним из первых выложил пример с кодом по grpo для тюна 1б лламы в домашних условиях, который быстро разошелся и многие взяли этот пример за базу и вообще разбирались во всей этой грпо штуке)
вот только что пошли работать в https://www.primeintellect.ai/
https://github.com/PrimeIntellect-ai
Как понял они делают всякое по распределенному трену моделек и агентские штуки
Я к чему - прикольно что кто-то пылесосит популярных рльных/ллмных челов
И еще вот вышел видосик по открытым вопросам агентик рля с Виллом Брауном как раз
https://www.youtube.com/watch?v=Xkwok_XXQgw
👍18❤9🔥4
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир
Если коротко, десять лет обучения сжали в две часа симуляции-тренировки
А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:
«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»
Если коротко, десять лет обучения сжали в две часа симуляции-тренировки
А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:
«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»
👍22❤6
Агенты ИИ | AGI_and_RL
сложил в репчик несколько o3 ресерчей на разные темы AI в медицине https://github.com/researchim-ai/state-of-ai/blob/main/Med_AI_research.md ИИ киберсек https://github.com/researchim-ai/state-of-ai/blob/main/AI_cybersecurity_research.md По рагу https:/…
Еще порция чатгпт ресечей по ии
Ии в промышленности
https://github.com/researchim-ai/state-of-ai/blob/main/AI_industry.md
квантизация ллмок
https://github.com/researchim-ai/state-of-ai/blob/main/LLM_quantization_research.md
Рекомендашки
https://github.com/researchim-ai/state-of-ai/blob/main/Recommender_systems_research.md
и заходите в https://www.tgoop.com/researchim там собираем ИИнфу и проектики делаем
Ии в промышленности
https://github.com/researchim-ai/state-of-ai/blob/main/AI_industry.md
квантизация ллмок
https://github.com/researchim-ai/state-of-ai/blob/main/LLM_quantization_research.md
Рекомендашки
https://github.com/researchim-ai/state-of-ai/blob/main/Recommender_systems_research.md
и заходите в https://www.tgoop.com/researchim там собираем ИИнфу и проектики делаем
GitHub
state-of-ai/AI_industry.md at main · researchim-ai/state-of-ai
По возможности актуальная информация по ИИ + ресерчи от ChatGPT - researchim-ai/state-of-ai
🔥10👍5❤4
Forwarded from AI[ex]Time (Alex Golubev)
SWE-rebench: A Continuously Evolving and Decontaminated Benchmark for Software Engineering LLMs
Сегодня стандартом для оценки SWE агентов является SWE-bench Verified. Его задумка очень понятная и как-то приближена к разработке чего-то большего, чем генерация кода: мы запускаем агента на настоящих задачках из GitHub, проверяем в конце прохождение отложенных тестов и смотрим на их результат. Но с SWE-bench Verified есть несколько проблем:
- Изначальный датасет был публично выложен в конце 2023 года. Последние модели может и неявно, но с очень высокой вероятностью захватили все эти данные в обучении, отчего рост чисел на бенче на какую-то часть связан с контаминацией. Да и без этого многие используют Verified как валидацию для экспериментов с агентом, неявно переобучаясь под него. По этой же причине в свое время появился LiveCodeBench для решения обычных задач для кодинга.
- Самые первые релизы на лидерборде хорошо описывали структуру агента и параметры запуска так, что было понятно, что вот это решение докинуло за счет перевода с gpt4o на sonnet-3.5, а вот это — просто промпты потюнили или тулы сделали лучше. Сейчас же лидерборд превратился в солянку, по которой просто непонятно, что происходит: best-of-N запуски, верификация доп тестами, MCTS, миллион разных скаффолдингов, уже даже непонятно, какая модель используется внутри, тк многие сабмиты на лидерборде — это закрытые решения компаний.
Мы попробовали закрыть часть этих пробелов и сегодня релизим SWE-rebench! Для борьбы с потенциальной контаминацией, мы будем регулярно обновлять лидерборд с замерами на свежих задачах. Скаффолдинг агента при этом везде фиксирован, чтобы запуски с разными моделями были сравнимы между собой. Так как наш пайплайн сбора данных позволяет автоматически контролировать сложность задач, то в будущем мы будем использовать это для борьбы с насыщением бенчмарка.
Детали можно прочитать на сайте самого бенча, ну и конечно приглашаю заглянуть на текущий лидерборд. Если вы привыкли читать обзоры в Х, там тоже есть подходящий контент.
Сегодня стандартом для оценки SWE агентов является SWE-bench Verified. Его задумка очень понятная и как-то приближена к разработке чего-то большего, чем генерация кода: мы запускаем агента на настоящих задачках из GitHub, проверяем в конце прохождение отложенных тестов и смотрим на их результат. Но с SWE-bench Verified есть несколько проблем:
- Изначальный датасет был публично выложен в конце 2023 года. Последние модели может и неявно, но с очень высокой вероятностью захватили все эти данные в обучении, отчего рост чисел на бенче на какую-то часть связан с контаминацией. Да и без этого многие используют Verified как валидацию для экспериментов с агентом, неявно переобучаясь под него. По этой же причине в свое время появился LiveCodeBench для решения обычных задач для кодинга.
- Самые первые релизы на лидерборде хорошо описывали структуру агента и параметры запуска так, что было понятно, что вот это решение докинуло за счет перевода с gpt4o на sonnet-3.5, а вот это — просто промпты потюнили или тулы сделали лучше. Сейчас же лидерборд превратился в солянку, по которой просто непонятно, что происходит: best-of-N запуски, верификация доп тестами, MCTS, миллион разных скаффолдингов, уже даже непонятно, какая модель используется внутри, тк многие сабмиты на лидерборде — это закрытые решения компаний.
Мы попробовали закрыть часть этих пробелов и сегодня релизим SWE-rebench! Для борьбы с потенциальной контаминацией, мы будем регулярно обновлять лидерборд с замерами на свежих задачах. Скаффолдинг агента при этом везде фиксирован, чтобы запуски с разными моделями были сравнимы между собой. Так как наш пайплайн сбора данных позволяет автоматически контролировать сложность задач, то в будущем мы будем использовать это для борьбы с насыщением бенчмарка.
Детали можно прочитать на сайте самого бенча, ну и конечно приглашаю заглянуть на текущий лидерборд. Если вы привыкли читать обзоры в Х, там тоже есть подходящий контент.
🤔5🔥4👍3
Там потестили модельки на написание солверов для уравнений в частных производных. Дали на тест 5 типов уравнений
На последнем скрине предпочтения LLMок по использованию разных библиотек
Кстати возможность подебагать код и получать фидбек сильно подкидывает качество. С фреймворком который написали авторы (который правильно ставит задачу, дает дебагать и фидбек) ллмки справляются на уровне эспертов или даже лучше справляются
CodePDE: An Inference Framework for LLM-driven PDE Solver Generation
https://arxiv.org/abs/2505.08783
https://www.alphaxiv.org/ru/overview/2505.08783
https://github.com/LithiumDA/CodePDE
инфу по иишечке собираем и проектики делаем в https://www.tgoop.com/researchim
Уравнение адвекции: Моделируют явления переноса без диффузии
Уравнение Бюргерса: Фундаментальное нелинейное УЧП, используемое в механике жидкости
Уравнение реакции-диффузии: Моделирует системы, в которых химические вещества подвергаются реакциям и диффузии
Уравнение Кана-Хиллиарда-Навье-Стокса (CNS): Описывает двухфазные несжимаемые потоки
Уравнение фильтрации Дарси: Моделирует поток жидкости через пористую среду
На последнем скрине предпочтения LLMок по использованию разных библиотек
Кстати возможность подебагать код и получать фидбек сильно подкидывает качество. С фреймворком который написали авторы (который правильно ставит задачу, дает дебагать и фидбек) ллмки справляются на уровне эспертов или даже лучше справляются
CodePDE: An Inference Framework for LLM-driven PDE Solver Generation
https://arxiv.org/abs/2505.08783
https://www.alphaxiv.org/ru/overview/2505.08783
https://github.com/LithiumDA/CodePDE
инфу по иишечке собираем и проектики делаем в https://www.tgoop.com/researchim
👍10🔥6❤3