Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
920 - Telegram Web
Telegram Web
Получается 31 декабря Дед Мороз приносил обзорку по Low Rank Adaptation и фоундейшен моделькам.

Рассказывают про лору, как работают, какие бывают, где и как применяются.
В целом балдежка

Low-Rank Adaptation for Foundation Models: A Comprehensive Review
https://arxiv.org/abs/2501.00365
Стороны сингулярности:
PPO не сошелся | PPO сошелся
В общем я какое-то время назад сделал группу куда кидаю ссылочки которые считаю интересными (этот канал тоже когда-то был свалкой ссылок по RL)
Но в целом я подумал что это может быть группой где люди могут общаться на АИ темы по отрослям так сказать.
Время от времени туда будут литься ссылки на мой взгляд интересные про которые я потом буду рассказывать
Может из этого и какое-нибудь комунити можно сделать по ресерчам. Колабиться и тд, что-нибудь делать

Меня интересует например ИИ + киберсек. Точнее то как может ИИ киберсеку помочь - там есть отдельный топик где могли бы собираться люди интересующиеся этой темой.

Туда можно писать по интересным вам темам + кидать что находите, репостать из крутых каналов и тд.

И да, там щас больше всего накидано крутого по RL и LLMам.

https://www.tgoop.com/researchim
Кстати существует курс по квантовому млю на русском: https://quantum-ods.github.io/qmlcourse/book/index.html
(немножко участвовал в написании)
Ребята из проекта опенсурс агента для написания кода OpenHands 🥳 релизнули первую 0.18.0 версию 5 дней назад

https://github.com/All-Hands-AI/OpenHands

https://docs.all-hands.dev/

Я про этот проект не слышал раньше, а там 41к звезд на гитхабе (делают с апреля прошлого года и кажется вот что-то сделали)
Крч надо заценить
Please open Telegram to view this post
VIEW IN TELEGRAM
Уверен, что многих интересует как вот там реализуются методы распределенного трейна, может кто-то хотел бы сам реализовать (а это очень полезно).
Ребята из HF 🤗 начали проект по учебной реализации таких методов (dataparallel, tensorparallel, pipelineparallel, contextparallel) :
https://github.com/huggingface/picotron
https://github.com/huggingface/picotron_tutorial

Вместе с проектом идут лекции на ютубе.

Это как проект nanoGPT по учебной реализации гптшки 2, чтобы разобраться, но он прям уже круто разросся и народ там уже наоптимизировал всякого, мб и тут крутое что-то будет
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на проект (выложен 3 часа назад первый коммит) где чел учит мелкие 9/26м параметров RWKV (подвид RNNок, конкурент трансформерам) модельки играть в Othello

Применяет test-time scaling (моделька может делать альфа/бета прунинг по дереву ходов)

Короче что-то прикольное, надо поразбираться

https://github.com/Jellyfish042/RWKV_Othello
Агенты ИИ | AGI_and_RL pinned «В общем я какое-то время назад сделал группу куда кидаю ссылочки которые считаю интересными (этот канал тоже когда-то был свалкой ссылок по RL) Но в целом я подумал что это может быть группой где люди могут общаться на АИ темы по отрослям так сказать. Время…»
Еще кайфец от HF 🤗 - smol course по всем видам тюнингов LLMок (все на скрине видно)

Построен вокруг семейства моделек HF SmolLM2 в размерах 135M, 360M, and 1.7B parameters как раз предназначенные для изучения трейнов и разных манипуляций у себя на дому

https://github.com/huggingface/smol-course

https://github.com/huggingface/smollm

Изучаем
Ребятки, вот тут очень крутой курс по DL. Единственное только что на английском
А тут находка для всех изучающих Deep Learning.
Набор ноутбуков из Университета Амстердама по курсу DL в рамках магистратуры по AI.
Всё удобно и готовое к запуску, понравилось.

Введение, трансформеры (без них никуда), Vision трансформеры, атаки на нейронки, multi GPU программирование, meta learning и куча других нужных тем.
Всё на PyTorch + JAX.
В каждом ноутбуке объяснение с реализациями + курс лекций на ютубе.
Но на английском. Но всё равно сохраняем и изучаем.

UvA Deep Learning Tutorials:

https://uvadlc-notebooks.readthedocs.io/en/latest/index.html

https://github.com/phlippe/uvadlc_notebooks/tree/master

Курс на YouTube
Please open Telegram to view this post
VIEW IN TELEGRAM
Вообще в работе про которую писал выше опираются на (и во многом воспроизводят) другую про обучение ризонингу.

Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
https://arxiv.org/abs/2412.09413

https://github.com/RUCAIBox/Slow_Thinking_with_LLMs

(эта работа и некоторые другие входят в проект STILL: Slow Thinking with LLMs, данная работа обозначена как STILL-2)

Конкретно в этой работе авторы исследовали ту же QwQ и DeepSeek-R1-Lite-Preview (в DeepSeek chat надо включить Deep Think), задавали им вопросы, сравнивали ответы и собирали данные, на которых затем потюнили свою Qwen2.5-32B-Instruct.

Вообще процесс обучения состоит из трех фаз (по ним статья и называется, круто да?):

1. Imitate (Имитация): Модель обучается генерировать цепочки размышлений и решение в одном ответе. Используются данные, полученные из существующих систем или сгенерированные вручную.
Модель обучается следовать формату:
<|begin_of_thought|>
{многошаговый процесс размышления}
<|end_of_thought|>
<|begin_of_solution|>
{финальное решение с подробным объяснением шагов}
<|end_of_solution|>

В работе описан полный промт темплейт, смотрим там если надо

2. Explore (Исследование):
Моделька генерирует несколько траекторий решений для задач.
Ответы сравниваются с эталонными решениями, чтобы выбрать лучшие траектории. Чем сложнее задача, тем больше шагов размышлений получается (естественно).

3. Self-Improve (Самоулучшение):
После генерации корректных траекторий они добавляются в обучающий набор (и на следующей итерации уже на них обучаемся)

Исследовали обучение с разными видами тюнинга:

* SFT (Supervised Fine-Tuning): Обучение модели на отобранных траекториях.
Мы много раз повторяем процесс Imitate -> Explore -> Self-Improvement (в качестве исходной модельки взять Qwen2.5-32B-Instruct и в качестве изночальных данных - то что насобирали и подготовили от QwQ и от DeepSeek-r1, и итеративно улучшаем модельку и генерим новые данные в датасет и улучшаем)

* DPO (Direct Preference Optimization): тут нужны пары (положительный пример, отрицательный пример): в качестве положительного выбирали корректное решение с самым высоким perplexity, а в качестве отрицательного - некорректное решение с самым низким perplexity для какой либо задачи. (мы же для одной задачи генерируем несколько решений)

Можно обучать модель на "мыслительной" части (thought) или на всей траектории (thought + solution). В статье отмечено, что обучение только на размышлениях может быть эффективнее. (третий скрин, табличка 4 в статье)

В разных конфигурация использовали 3.9к и 1.1к предподготовленных данных из QwQ + DeepSeek-r1. ну и разное количество наэксплоренных семплов и разные конфиги SFT/SFT+DPO/DPO (смотрим на 2,3 скринах)

В статье много подробностей и дополнительных рассуждений авторов - читаем, делаем свои ризонинги и ставим ребятам звездочки на гитхабе.

Кстати, крутые статьи в том числе и эту я сначала отбираю в https://www.tgoop.com/researchim а потом тут разбираю.
2025/01/24 05:51:22
Back to Top
HTML Embed Code: