Агенты ИИ | AGI_and_RL 897

Агенты ИИ | AGI_and_RL

Получается 31 декабря Дед Мороз приносил обзорку по Low Rank Adaptation и фоундейшен моделькам.

Рассказывают про лору, как работают, какие бывают, где и как применяются.
В целом балдежка

Low-Rank Adaptation for Foundation Models: A Comprehensive Review
https://arxiv.org/abs/2501.00365

🤗9

2.13K views17:44

Агенты ИИ | AGI_and_RL

Стороны сингулярности:
PPO не сошелся | PPO сошелся

😁20🌚1🤓1

2.25K views18:24

Агенты ИИ | AGI_and_RL

В общем я какое-то время назад сделал группу куда кидаю ссылочки которые считаю интересными (этот канал тоже когда-то был свалкой ссылок по RL)
Но в целом я подумал что это может быть группой где люди могут общаться на АИ темы по отрослям так сказать.
Время от времени туда будут литься ссылки на мой взгляд интересные про которые я потом буду рассказывать
Может из этого и какое-нибудь комунити можно сделать по ресерчам. Колабиться и тд, что-нибудь делать

Меня интересует например ИИ + киберсек. Точнее то как может ИИ киберсеку помочь - там есть отдельный топик где могли бы собираться люди интересующиеся этой темой.

Туда можно писать по интересным вам темам + кидать что находите, репостать из крутых каналов и тд.

И да, там щас больше всего накидано крутого по RL и LLMам.

https://www.tgoop.com/researchim

ресечим/делаем (c) AI

чтобы ресечить

👍14❤7🔥1🤗1

2.48K views14:28

Агенты ИИ | AGI_and_RL

Кстати существует курс по квантовому млю на русском: https://quantum-ods.github.io/qmlcourse/book/index.html
(немножко участвовал в написании)

🔥25

2.85K views16:39

Агенты ИИ | AGI_and_RL

Ребята из проекта опенсурс агента для написания кода OpenHands 🥳 релизнули первую 0.18.0 версию 5 дней назад

https://github.com/All-Hands-AI/OpenHands

https://docs.all-hands.dev/

Я про этот проект не слышал раньше, а там 41к звезд на гитхабе (делают с апреля прошлого года и кажется вот что-то сделали)
Крч надо заценить

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - All-Hands-AI/OpenHands: 🙌 OpenHands: Code Less, Make More

🙌 OpenHands: Code Less, Make More. Contribute to All-Hands-AI/OpenHands development by creating an account on GitHub.

👍12🔥4👏3

2.38K viewsedited 21:27

Агенты ИИ | AGI_and_RL

Уверен, что многих интересует как вот там реализуются методы распределенного трейна, может кто-то хотел бы сам реализовать (а это очень полезно).
Ребята из HF 🤗 начали проект по учебной реализации таких методов (dataparallel, tensorparallel, pipelineparallel, contextparallel) :
https://github.com/huggingface/picotron
https://github.com/huggingface/picotron_tutorial

Вместе с проектом идут лекции на ютубе.

Это как проект nanoGPT по учебной реализации гптшки 2, чтобы разобраться, но он прям уже круто разросся и народ там уже наоптимизировал всякого, мб и тут крутое что-то будет

GitHub

GitHub - huggingface/picotron: Minimalistic 4D-parallelism distributed training framework for education purpose

Minimalistic 4D-parallelism distributed training framework for education purpose - huggingface/picotron

🔥18👍3🤔1

12.3K views12:27

Агенты ИИ | AGI_and_RL

This media is not supported in your browser

VIEW IN TELEGRAM

Наткнулся на проект (выложен 3 часа назад первый коммит) где чел учит мелкие 9/26м параметров RWKV (подвид RNNок, конкурент трансформерам) модельки играть в Othello

Применяет test-time scaling (моделька может делать альфа/бета прунинг по дереву ходов)

Короче что-то прикольное, надо поразбираться

https://github.com/Jellyfish042/RWKV_Othello

❤15

1.95K views17:02

Агенты ИИ | AGI_and_RL

Агенты ИИ | AGI_and_RL pinned «В общем я какое-то время назад сделал группу куда кидаю ссылочки которые считаю интересными (этот канал тоже когда-то был свалкой ссылок по RL) Но в целом я подумал что это может быть группой где люди могут общаться на АИ темы по отрослям так сказать. Время…»

17:29

Агенты ИИ | AGI_and_RL

Forwarded from Нейронный Кот

Боремся с проклятыми токенами

😎

Люблю статьи от авторов phi — очень простые с топорными методами, но работают хорошо.

В тех репорте phi-4 показали, что

🔹 Проклятые (и благословенные) токены существуют
🔹 Предложили, как с этим бороться

Для задач, где есть правильный ответ, мы можем найти токены, которые негативно или позитивно влияют на вероятность успешного ответа p(success)

Как найти такие токены? — авторы называют их pivotal tokens

Считаем условную вероятность, что ответ будет правильным при заданном префиксе ответа. То есть просто эмпирически считаем, какой процент правильных ответов будет при префиксе `import Flask`

Таким макаром находим все pivotal tokens в нашем трейн сете. И учим модель различать хорошие токены от плохих. Для этого формируем пары

prompt = promt + answer prefix
good response = good token
bad response = bad token

И запускаем DPO на этих парах. Еще раз: мы учим предсказывать только один токен! ⚠️

Если бы мы просто делали SFT или DPO на полных ответах, то учились бы предсказывать эти проклятые токены, которые негативно влияют на вероятность успешного ответа.

В таблице 9 можно посмотреть, как DPO на pivotal tokens (stage 1) накидывает в качестве по сравнению с обычным DPO и SFT

🤨 Меня удивило, что проклятыми токенами могут быть вполне безобидные токены в стиле предсказал "that" вместо "the" (см. скрины в треде)

📖 Статья

@neural_cat

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🤯4

1.71K views17:00

Агенты ИИ | AGI_and_RL

Ни дня без агентов - на этот раз помощник ресерчера. (AMD + университет Джона Хопкинса)

Лаборатория Агентов состоит из трех основных фаз, которые систематически направляют исследовательский процесс: (1) Обзор литературы, (2) Экспериментирование и (3) Написание отчета. В каждой фазе специализированные агенты, управляемые большими языковыми моделями, сотрудничают для достижения отдельных целей, интегрируя внешние инструменты, такие как arXiv, Hugging Face, Python и LaTeX, для оптимизации результатов. Эта структурированная рабочая схема начинается с независимого сбора и анализа соответствующих научных работ, проходит через совместное планирование и подготовку данных и заканчивается автоматизированным проведением экспериментов и созданием подробных отчетов. Детали конкретных ролей агентов и их вклад на каждом этапе обсуждаются в статье.

Это они сами в ридмишке на русском напереводили. Работоспособность этой штуки пока не очень (оценки автоматизированными ревьюверами/людьми на последнем скрине), но с более умными ллмками мб и получше будет в будущем.

В целом думаю, что мы еще много подобных штук увидим. Хайп на агентов будет увеличиваться, а тут и опенсурс)

https://agentlaboratory.github.io/

https://github.com/SamuelSchmidgall/AgentLaboratory

Ридми на русском

👍7❤4🔥1

7.25K views10:59

Агенты ИИ | AGI_and_RL

Еще кайфец от HF 🤗 - smol course по всем видам тюнингов LLMок (все на скрине видно)

Построен вокруг семейства моделек HF SmolLM2 в размерах 135M, 360M, and 1.7B parameters как раз предназначенные для изучения трейнов и разных манипуляций у себя на дому

https://github.com/huggingface/smol-course

https://github.com/huggingface/smollm

Изучаем

🔥20👍7🤔1

2.34K viewsedited 13:54

Агенты ИИ | AGI_and_RL

Ребятки, вот тут очень крутой курс по DL. Единственное только что на английском

🌚4

1.73K views11:09

Агенты ИИ | AGI_and_RL

Forwarded from Агенты ИИ | AGI_and_RL

А тут находка для всех изучающих Deep Learning.
Набор ноутбуков из Университета Амстердама по курсу DL в рамках магистратуры по AI.
Всё удобно и готовое к запуску, понравилось.

Введение, трансформеры (без них никуда), Vision трансформеры, атаки на нейронки, multi GPU программирование, meta learning и куча других нужных тем.
Всё на PyTorch + JAX.
В каждом ноутбуке объяснение с реализациями + курс лекций на ютубе.
Но на английском. Но всё равно сохраняем и изучаем.

UvA Deep Learning Tutorials:

https://uvadlc-notebooks.readthedocs.io/en/latest/index.html

https://github.com/phlippe/uvadlc_notebooks/tree/master

Курс на YouTube

GitHub

GitHub - phlippe/uvadlc_notebooks: Repository of Jupyter notebook tutorials for teaching the Deep Learning Course at the University…

Repository of Jupyter notebook tutorials for teaching the Deep Learning Course at the University of Amsterdam (MSc AI), Fall 2023 - phlippe/uvadlc_notebooks

🔥27❤4👍3

1.8K views11:09

Агенты ИИ | AGI_and_RL

Ребятки захотели сделать свою опенсорсную ризонинговую ллмку.

https://novasky-ai.github.io/posts/sky-t1/

Взяли Qwen2.5-32B-Instruct , еще взяли QwQ-32B-Preview. Обе эти модельки от Qwen, QwQ - ризонящая.

Собственно ребята пособирали траекторий размышлений решения задач с QwQ, затем подправили (приводили в нужный формат) их с помощью GPT-4o-mini. Ну и потом тюнили на этом Qwen2.5 32B.

Наши финальные данные содержат 5 тысяч данных по программированию из APPs и TACO, а также 10 тысяч математических данных из подмножеств AIME, MATH и Olympiads датасета NuminaMATH. Кроме того, мы добавили 1 тысячу данных по науке и головоломкам из STILL-2.

Тюнили с помощью Llama-Factory за 19 часов на 8 H100.

Главное что они все заопенсорсили (данные, веса, репортик вот написали).

https://github.com/NovaSky-AI/SkyThought

https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview

👍19🤔2🌚1

2.31K viewsedited 19:56

Агенты ИИ | AGI_and_RL

Вообще в работе про которую писал выше опираются на (и во многом воспроизводят) другую про обучение ризонингу.

Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
https://arxiv.org/abs/2412.09413

https://github.com/RUCAIBox/Slow_Thinking_with_LLMs

(эта работа и некоторые другие входят в проект STILL: Slow Thinking with LLMs, данная работа обозначена как STILL-2)

Конкретно в этой работе авторы исследовали ту же QwQ и DeepSeek-R1-Lite-Preview (в DeepSeek chat надо включить Deep Think), задавали им вопросы, сравнивали ответы и собирали данные, на которых затем потюнили свою Qwen2.5-32B-Instruct.

Вообще процесс обучения состоит из трех фаз (по ним статья и называется, круто да?):

1. Imitate (Имитация): Модель обучается генерировать цепочки размышлений и решение в одном ответе. Используются данные, полученные из существующих систем или сгенерированные вручную.
Модель обучается следовать формату:

<|begin_of_thought|>
{многошаговый процесс размышления}
<|end_of_thought|>
<|begin_of_solution|>
{финальное решение с подробным объяснением шагов}
<|end_of_solution|>

В работе описан полный промт темплейт, смотрим там если надо

2. Explore (Исследование):
Моделька генерирует несколько траекторий решений для задач.
Ответы сравниваются с эталонными решениями, чтобы выбрать лучшие траектории. Чем сложнее задача, тем больше шагов размышлений получается (естественно).

3. Self-Improve (Самоулучшение):
После генерации корректных траекторий они добавляются в обучающий набор (и на следующей итерации уже на них обучаемся)

Исследовали обучение с разными видами тюнинга:

* SFT (Supervised Fine-Tuning): Обучение модели на отобранных траекториях.
Мы много раз повторяем процесс Imitate -> Explore -> Self-Improvement (в качестве исходной модельки взять Qwen2.5-32B-Instruct и в качестве изночальных данных - то что насобирали и подготовили от QwQ и от DeepSeek-r1, и итеративно улучшаем модельку и генерим новые данные в датасет и улучшаем)

* DPO (Direct Preference Optimization): тут нужны пары (положительный пример, отрицательный пример): в качестве положительного выбирали корректное решение с самым высоким perplexity, а в качестве отрицательного - некорректное решение с самым низким perplexity для какой либо задачи. (мы же для одной задачи генерируем несколько решений)

Можно обучать модель на "мыслительной" части (thought) или на всей траектории (thought + solution). В статье отмечено, что обучение только на размышлениях может быть эффективнее. (третий скрин, табличка 4 в статье)

В разных конфигурация использовали 3.9к и 1.1к предподготовленных данных из QwQ + DeepSeek-r1. ну и разное количество наэксплоренных семплов и разные конфиги SFT/SFT+DPO/DPO (смотрим на 2,3 скринах)

В статье много подробностей и дополнительных рассуждений авторов - читаем, делаем свои ризонинги и ставим ребятам звездочки на гитхабе.

Кстати, крутые статьи в том числе и эту я сначала отбираю в https://www.tgoop.com/researchim а потом тут разбираю.

🔥6❤2👍2👎1

2.36K views19:54

2025/07/09 02:59:59
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>