Агенты ИИ | AGI_and_RL 1157

Агенты ИИ | AGI_and_RL

Нам предлагают не просто предсказывать следующий токен, а еще поразмышлять перед этим. Reinforced Pre-Training (RPT)

Есть последовательность токенов x_{<t}, моделька генерит рассуждение (цепочку токенов) c_t и еще конечную цепочку (там может быть один или несколько токенов) y_t.
Смотрим, чтобы y_t было точным префиксом истинного продолжения из данных. Если да, то ревард 1, если нет, то 0.

В качестве датасета для тюна взяли OmniMATH (4.4к семплов с ответами). Нарезали на контекст и продолжения с использованием фильтра по энтропии прогоняя через прокси модельку R1 дистил 1.5B модельку.
Как я понимаю: берут каждый пример из трейна, прогоняют через прокси 1.5B модельку, для каждого следующего токена берут топ 16 самых вероятных, если энтропия на них больше порога (его не уточнили), то здесь будут тюнить. (наверное делают перенормировку по топ 16 токенам и нормализацию по энтропии и сверяют с порогом)

На этом тюнили Deepseek R1 Distill 14B с GRPO.

Авторы пишут что моделька потюненая RPT больше использует слов присущим построению гипотез (probably, maybe, assume) и логическому выводу (therefore, logically, conclude), чем базовая моделька. При этом меньше раскладывает задачи на подзадачи.
Вероятно потому, что обычно в ризонинге учим раскладывать сложные задачи на простые шаги. А при RPT видать учится "рассуждать" наперед.

Ну и такой подход вроде докидывает.
Так понял. В целом показалось интересным. Увидим будут ли раскручивать подход и больше экспериментов надо

Reinforcement Pre-Training
https://arxiv.org/abs/2506.08007
https://www.alphaxiv.org/ru/overview/2506.08007

PS кстати заходите в https://www.tgoop.com/researchim мы там ИИнфу собираем и теперь уже много всяких проектиков делаем

👍11🤣7🤔2❤1

2.21K views10:51

Агенты ИИ | AGI_and_RL

Биологические на месте?
Там ребята выложили опенсурсную биомодельку Boltz-2

Т.к. я не шарю, то спросил у чатгпт по статейке что же делает:

Boltz-2 — это «универсальный движок» именно для задач структурной биологии и дизайна лекарств

Что делает?

- Строит форму белка, РНК/ДНК и лигандов в одном комплексе.
- Сразу оценивает силу связывания (Ki/Kd/IC50-подобную) — т.е. подсказывает, какая молекула будет держаться крепче.
- Всё это за ~20 с на одной видеокарте, тогда как классический FEP тратит часы-дни. 

Чем полезен на практике?
- Быстрый фильтр миллионов соединений в виртуальном скрининге.
- Точная ранжировка близких аналогов на стадии hit-to-lead.
- Генерация новых молекул вместе с GFlowNet — модель сама предлагает, что синтезировать.

Boltz-2 — мощный, быстрый и открытый инструмент именно для 3-D структур и связывания

В целом Boltz-2 это альтернатива AlphaFold 3.
но веса у AF3 закрыты и надо просить по запросу к Гуглу-Дипмаинду.
А у Больтза все открытое.

Можно хорошо почитать тут
https://rowansci.com/blog/boltz2-faq

И к ней уже GUI прикрутили с инструкцией по запуску тут: https://proteinlanguagemodel.com/blog/how_to_run_boltz2_locally

Boltz-2: Towards Accurate and Efficient Binding Affinity Prediction
https://cdn.prod.website-files.com/68404fd075dba49e58331ad9/6842ee1285b9af247ac5a122_boltz2.pdf

пост
https://boltz.bio/boltz2

код для запуска
https://github.com/jwohlwend/boltz

моделька
https://huggingface.co/boltz-community/boltz-2

PS собираем ИИнформацию и проекты делаем в https://www.tgoop.com/researchim

1🔥16❤2👍1

17.6K viewsedited 14:46

Агенты ИИ | AGI_and_RL

Если вы хотели узнать побольше про TPU (это которые в Гугле например используют) и чем они от GPU отличаются, то вот тут интересно написали
https://henryhmko.github.io/posts/tpu/tpu.html

🔥10👍6❤2

2.77K views07:16

Агенты ИИ | AGI_and_RL

Я там погенерил с o3 примеров на куда и opencl в учебных целях, пока не супер продвинутых. Под линуксом собирается.
Для куды нужна нвидия видюшка. OpenCL на всем должно запуститься.

Вероятно буду со временем еще наполнять https://github.com/researchim-ai/gpu-school

А проектики делаем в https://www.tgoop.com/researchim

GitHub

GitHub - researchim-ai/gpu-school

Contribute to researchim-ai/gpu-school development by creating an account on GitHub.

🔥9👍3❤2

1.74K viewsedited 10:17

Агенты ИИ | AGI_and_RL

челы собрали всех покемонов
читать я такое конечно не стал

https://arxiv.org/abs/2506.20930

😁23🔥3👍2🤡1🥴1

1.9K views07:49

Агенты ИИ | AGI_and_RL

Как насчет

Meta-Stable Entangled Quantum-GAN Swarm: Blockchain-Anchored Hyperdimensional Reinforcement Learning for Holographic Sector Rotation across Exo-Metaverse Markets

Работа исследует гибридный мульти-агентный подход, сочетающий квантовые вычисления, гипермерное RL и генеративные модели, — для предсказания, планирования и автоматического ротационного перераспределения капитала между «физическими» секторами фондового рынка и их цифровыми «двойниками» в метавселенных.

Если напишете - меня в соавторы пж 😎

Please open Telegram to view this post

VIEW IN TELEGRAM

😈12🔥4🥰3😁2

1.84K views07:56

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

QVikhr-3-4B-Instruction

Еще одна модель на базе Qwen 3. Тесты производительности подтверждают значительные улучшения модели. В Ru Arena General, QVikhr-3-4B-Instruction получила оценку 78.2, что существенно превосходит результат базовой модели Qwen3-4B (64.8).

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-4B-Instruction
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-4B-Instruction-GGUF
⚖️ Лицензия: apache-2.0

👥 Авторы: @LakoMoorDev @nlpwanderer

👍11❤5🔥5👎1💩1🌚1

1.56K views16:08

Агенты ИИ | AGI_and_RL

Если добавить 3 полоски на картинку, то влмки могут апнуть метрички на визуальном поиске, подсчете, на описании сцены

Еще надо в промтик прописать, что сканируй картинку по горизонтальным линиям

Тестились на синтетике и на реальных данных. На синтетике получше бустит

Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs
https://arxiv.org/abs/2506.22146
https://www.alphaxiv.org/ru/overview/2506.22146v1

👍9❤4🔥2

1.46K views08:14

Агенты ИИ | AGI_and_RL

😎 ты заходи, там не страшно

Если сделаю курс по РЛю там будет такая заставка

Please open Telegram to view this post

VIEW IN TELEGRAM

😁32👍5🔥5

1.39K viewsedited 08:19

Агенты ИИ | AGI_and_RL

чемпионы на месте? 50k$

1.29K views11:14

Агенты ИИ | AGI_and_RL

Forwarded from Just links

https://www.kaggle.com/competitions/ariel-data-challenge-2025

Kaggle

NeurIPS - Ariel Data Challenge 2025

Derive exoplanet signals from Ariel's optical instruments

👍5

1.16K views11:14

Агенты ИИ | AGI_and_RL

А вот и решение задачки с прошлогодней соревы

❤2

1.22K views12:49

Агенты ИИ | AGI_and_RL

Forwarded from Запрети мне псевдолейблить

🚀 Разбираем решение, которое принесло нашей команде 6-е место в Kaggle-соревновании по обработке данных миссии Ariel

Пост про то, что это вообще за сорева вот тут.

Мы работали с частотными сигналами, которые изначально были очень шумными. Для их сглаживания использовали:
1️⃣ Гауссовский регрессор
2️⃣ Фильтр Савицкого-Голея

Далее ищем границы транзитной зоны планеты. Делаем через простой эмпирический детектор: транзит на графике светимости звезды имеет вид \_/ — яркость падает, когда планета проходит перед звездой, так как часть частотных компонентов теряет интенсивность.

📉 Что мы делали дальше:
Удаляем этапы до и после транзита, чтобы анализировать только изменения светимости в нужный момент.
"Поднимаем" транзит обратно к уровню светимости звезды, чтобы восстановить исходный "пульс звезды". Это важно, чтобы учесть глобальное поведение светимости звезды, которе не очень-то и постоянное.

🔍 Фичи и модели:

На основе изменений яркости между ожидаемыми и наблюдаемыми значениями на заданных частотах извлекали фичи. Эти частоты совпадают с важными таргетами — спектрограммой атмосферы экзопланеты.
Обучаем линейную регрессию глобально для каждого таргета, подбирая оптимальные коэффициенты. В смысле берем все моменты времени для всех транзитов и конкретной частоты и ищем коэффициент подгонки.

Параллельно обучаем CNN, которая анализировала частотные изменения в заданных временных окнах.
Это:
Помогает учитывало локальные особенности спектра и переходов (энергии?) между частотами
Позволяло понять взаимосвязи между соседними частотами, улучшая точность предсказаний.
🔗 Финал:

Смешали (блендили) результаты линейной регрессии и CNN. Затем финальную спектрограмму еще раз сгладили, чтобы убрать артефакты.

💡 Бонус материал: пример 'подъема' спектра на картинке

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4🔥2

1.28K views12:49

Агенты ИИ | AGI_and_RL

Together AI и Agentica team потюнили Qwen3-32B и опенсурсят DeepSWE-Preview агента для разработки
Тюнили с GRPO++ (GRPO с улучшалками из некоторых недавних статей) своей либы https://github.com/agentica-project/rllm

Самое крутое что все дают - веса, датасет, код ну и пайплайн описывают
В датасете данные на использование тулов вызов bash, поиск, файл едитор

https://www.together.ai/blog/deepswe

блог про RLLM
https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31

веса
https://huggingface.co/agentica-org/DeepSWE-Preview

датасет на 4.5к семплов
https://huggingface.co/datasets/R2E-Gym/R2E-Gym-Subset

PS проектики делаем и ИИнфу собираем в https://www.tgoop.com/researchim

👍6❤4

2.17K views18:03

Агенты ИИ | AGI_and_RL

Сегодня я доказал что мы живем в симуляции
Клод Сонет 4 доделал некоторые важные штучки за o3, на которые тот не обращал внимания
Вагон смайликов также был отгружен в код

🪳

Please open Telegram to view this post

VIEW IN TELEGRAM

😁23🆒6👍3💩1💊1

1.39K viewsedited 08:11

2025/07/12 19:00:22
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>