Telegram Web
Получается 31 декабря Дед Мороз приносил обзорку по Low Rank Adaptation и фоундейшен моделькам.

Рассказывают про лору, как работают, какие бывают, где и как применяются.
В целом балдежка

Low-Rank Adaptation for Foundation Models: A Comprehensive Review
https://arxiv.org/abs/2501.00365
🤗9
Стороны сингулярности:
PPO не сошелся | PPO сошелся
😁20🌚1🤓1
В общем я какое-то время назад сделал группу куда кидаю ссылочки которые считаю интересными (этот канал тоже когда-то был свалкой ссылок по RL)
Но в целом я подумал что это может быть группой где люди могут общаться на АИ темы по отрослям так сказать.
Время от времени туда будут литься ссылки на мой взгляд интересные про которые я потом буду рассказывать
Может из этого и какое-нибудь комунити можно сделать по ресерчам. Колабиться и тд, что-нибудь делать

Меня интересует например ИИ + киберсек. Точнее то как может ИИ киберсеку помочь - там есть отдельный топик где могли бы собираться люди интересующиеся этой темой.

Туда можно писать по интересным вам темам + кидать что находите, репостать из крутых каналов и тд.

И да, там щас больше всего накидано крутого по RL и LLMам.

https://www.tgoop.com/researchim
👍147🔥1🤗1
Кстати существует курс по квантовому млю на русском: https://quantum-ods.github.io/qmlcourse/book/index.html
(немножко участвовал в написании)
🔥25
Ребята из проекта опенсурс агента для написания кода OpenHands 🥳 релизнули первую 0.18.0 версию 5 дней назад

https://github.com/All-Hands-AI/OpenHands

https://docs.all-hands.dev/

Я про этот проект не слышал раньше, а там 41к звезд на гитхабе (делают с апреля прошлого года и кажется вот что-то сделали)
Крч надо заценить
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4👏3
Уверен, что многих интересует как вот там реализуются методы распределенного трейна, может кто-то хотел бы сам реализовать (а это очень полезно).
Ребята из HF 🤗 начали проект по учебной реализации таких методов (dataparallel, tensorparallel, pipelineparallel, contextparallel) :
https://github.com/huggingface/picotron
https://github.com/huggingface/picotron_tutorial

Вместе с проектом идут лекции на ютубе.

Это как проект nanoGPT по учебной реализации гптшки 2, чтобы разобраться, но он прям уже круто разросся и народ там уже наоптимизировал всякого, мб и тут крутое что-то будет
🔥18👍3🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на проект (выложен 3 часа назад первый коммит) где чел учит мелкие 9/26м параметров RWKV (подвид RNNок, конкурент трансформерам) модельки играть в Othello

Применяет test-time scaling (моделька может делать альфа/бета прунинг по дереву ходов)

Короче что-то прикольное, надо поразбираться

https://github.com/Jellyfish042/RWKV_Othello
15
Агенты ИИ | AGI_and_RL pinned «В общем я какое-то время назад сделал группу куда кидаю ссылочки которые считаю интересными (этот канал тоже когда-то был свалкой ссылок по RL) Но в целом я подумал что это может быть группой где люди могут общаться на АИ темы по отрослям так сказать. Время…»
Боремся с проклятыми токенами 😎

Люблю статьи от авторов phi — очень простые с топорными методами, но работают хорошо.

В тех репорте phi-4 показали, что

🔹 Проклятые (и благословенные) токены существуют
🔹 Предложили, как с этим бороться

Для задач, где есть правильный ответ, мы можем найти токены, которые негативно или позитивно влияют на вероятность успешного ответа p(success)

Как найти такие токены? — авторы называют их pivotal tokens

Считаем условную вероятность, что ответ будет правильным при заданном префиксе ответа. То есть просто эмпирически считаем, какой процент правильных ответов будет при префиксе `import Flask`

Таким макаром находим все pivotal tokens в нашем трейн сете. И учим модель различать хорошие токены от плохих. Для этого формируем пары

prompt = promt + answer prefix
good response = good token
bad response = bad token


И запускаем DPO на этих парах. Еще раз: мы учим предсказывать только один токен! ⚠️

Если бы мы просто делали SFT или DPO на полных ответах, то учились бы предсказывать эти проклятые токены, которые негативно влияют на вероятность успешного ответа.

В таблице 9 можно посмотреть, как DPO на pivotal tokens (stage 1) накидывает в качестве по сравнению с обычным DPO и SFT

🤨 Меня удивило, что проклятыми токенами могут быть вполне безобидные токены в стиле предсказал "that" вместо "the" (см. скрины в треде)

📖 Статья

@neural_cat
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🤯4
Ни дня без агентов - на этот раз помощник ресерчера. (AMD + университет Джона Хопкинса)

Лаборатория Агентов состоит из трех основных фаз, которые систематически направляют исследовательский процесс: (1) Обзор литературы, (2) Экспериментирование и (3) Написание отчета. В каждой фазе специализированные агенты, управляемые большими языковыми моделями, сотрудничают для достижения отдельных целей, интегрируя внешние инструменты, такие как arXiv, Hugging Face, Python и LaTeX, для оптимизации результатов. Эта структурированная рабочая схема начинается с независимого сбора и анализа соответствующих научных работ, проходит через совместное планирование и подготовку данных и заканчивается автоматизированным проведением экспериментов и созданием подробных отчетов. Детали конкретных ролей агентов и их вклад на каждом этапе обсуждаются в статье.

Это они сами в ридмишке на русском напереводили. Работоспособность этой штуки пока не очень (оценки автоматизированными ревьюверами/людьми на последнем скрине), но с более умными ллмками мб и получше будет в будущем.

В целом думаю, что мы еще много подобных штук увидим. Хайп на агентов будет увеличиваться, а тут и опенсурс)


https://agentlaboratory.github.io/

https://github.com/SamuelSchmidgall/AgentLaboratory

Ридми на русском
👍74🔥1
Еще кайфец от HF 🤗 - smol course по всем видам тюнингов LLMок (все на скрине видно)

Построен вокруг семейства моделек HF SmolLM2 в размерах 135M, 360M, and 1.7B parameters как раз предназначенные для изучения трейнов и разных манипуляций у себя на дому

https://github.com/huggingface/smol-course

https://github.com/huggingface/smollm

Изучаем
🔥20👍7🤔1
Ребятки, вот тут очень крутой курс по DL. Единственное только что на английском
🌚4
А тут находка для всех изучающих Deep Learning.
Набор ноутбуков из Университета Амстердама по курсу DL в рамках магистратуры по AI.
Всё удобно и готовое к запуску, понравилось.

Введение, трансформеры (без них никуда), Vision трансформеры, атаки на нейронки, multi GPU программирование, meta learning и куча других нужных тем.
Всё на PyTorch + JAX.
В каждом ноутбуке объяснение с реализациями + курс лекций на ютубе.
Но на английском. Но всё равно сохраняем и изучаем.

UvA Deep Learning Tutorials:

https://uvadlc-notebooks.readthedocs.io/en/latest/index.html

https://github.com/phlippe/uvadlc_notebooks/tree/master

Курс на YouTube
🔥274👍3
Ребятки захотели сделать свою опенсорсную ризонинговую ллмку.

https://novasky-ai.github.io/posts/sky-t1/

Взяли Qwen2.5-32B-Instruct , еще взяли QwQ-32B-Preview. Обе эти модельки от Qwen, QwQ - ризонящая.

Собственно ребята пособирали траекторий размышлений решения задач с QwQ, затем подправили (приводили в нужный формат) их с помощью GPT-4o-mini. Ну и потом тюнили на этом Qwen2.5 32B.

Наши финальные данные содержат 5 тысяч данных по программированию из APPs и TACO, а также 10 тысяч математических данных из подмножеств AIME, MATH и Olympiads датасета NuminaMATH. Кроме того, мы добавили 1 тысячу данных по науке и головоломкам из STILL-2.


Тюнили с помощью Llama-Factory за 19 часов на 8 H100.

Главное что они все заопенсорсили (данные, веса, репортик вот написали).

https://github.com/NovaSky-AI/SkyThought

https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview
👍19🤔2🌚1
Вообще в работе про которую писал выше опираются на (и во многом воспроизводят) другую про обучение ризонингу.

Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
https://arxiv.org/abs/2412.09413

https://github.com/RUCAIBox/Slow_Thinking_with_LLMs

(эта работа и некоторые другие входят в проект STILL: Slow Thinking with LLMs, данная работа обозначена как STILL-2)

Конкретно в этой работе авторы исследовали ту же QwQ и DeepSeek-R1-Lite-Preview (в DeepSeek chat надо включить Deep Think), задавали им вопросы, сравнивали ответы и собирали данные, на которых затем потюнили свою Qwen2.5-32B-Instruct.

Вообще процесс обучения состоит из трех фаз (по ним статья и называется, круто да?):

1. Imitate (Имитация): Модель обучается генерировать цепочки размышлений и решение в одном ответе. Используются данные, полученные из существующих систем или сгенерированные вручную.
Модель обучается следовать формату:
<|begin_of_thought|>
{многошаговый процесс размышления}
<|end_of_thought|>
<|begin_of_solution|>
{финальное решение с подробным объяснением шагов}
<|end_of_solution|>

В работе описан полный промт темплейт, смотрим там если надо

2. Explore (Исследование):
Моделька генерирует несколько траекторий решений для задач.
Ответы сравниваются с эталонными решениями, чтобы выбрать лучшие траектории. Чем сложнее задача, тем больше шагов размышлений получается (естественно).

3. Self-Improve (Самоулучшение):
После генерации корректных траекторий они добавляются в обучающий набор (и на следующей итерации уже на них обучаемся)

Исследовали обучение с разными видами тюнинга:

* SFT (Supervised Fine-Tuning): Обучение модели на отобранных траекториях.
Мы много раз повторяем процесс Imitate -> Explore -> Self-Improvement (в качестве исходной модельки взять Qwen2.5-32B-Instruct и в качестве изночальных данных - то что насобирали и подготовили от QwQ и от DeepSeek-r1, и итеративно улучшаем модельку и генерим новые данные в датасет и улучшаем)

* DPO (Direct Preference Optimization): тут нужны пары (положительный пример, отрицательный пример): в качестве положительного выбирали корректное решение с самым высоким perplexity, а в качестве отрицательного - некорректное решение с самым низким perplexity для какой либо задачи. (мы же для одной задачи генерируем несколько решений)

Можно обучать модель на "мыслительной" части (thought) или на всей траектории (thought + solution). В статье отмечено, что обучение только на размышлениях может быть эффективнее. (третий скрин, табличка 4 в статье)

В разных конфигурация использовали 3.9к и 1.1к предподготовленных данных из QwQ + DeepSeek-r1. ну и разное количество наэксплоренных семплов и разные конфиги SFT/SFT+DPO/DPO (смотрим на 2,3 скринах)

В статье много подробностей и дополнительных рассуждений авторов - читаем, делаем свои ризонинги и ставим ребятам звездочки на гитхабе.

Кстати, крутые статьи в том числе и эту я сначала отбираю в https://www.tgoop.com/researchim а потом тут разбираю.
🔥62👍2👎1
2025/07/09 02:59:59
Back to Top
HTML Embed Code: