Опа. Книжечка Understanding Deep Learning автора Simon J.D. Prince
Обновилась 28 августа.
Бесплатно, скачиваем здесь и все-все читаем
https://udlbook.github.io/udlbook/
Introduction
Supervised learning
Shallow neural networks
Deep neural networks
Loss functions
Training models
Gradients and initialization
Measuring performance
Regularization
Convolutional networks
Residual networks
Transformers
Graph neural networks
Unsupervised learning
GANs
Normalizing flows
Variational autoencoders
Diffusion models
Deep reinforcement learning
Why does deep learning work?
Deep learning and ethics
коды: https://github.com/udlbook/udlbook/tree/main
+ ноутбуки к каждому разделу https://github.com/udlbook/udlbook/tree/main/Notebooks
Обновилась 28 августа.
Бесплатно, скачиваем здесь и все-все читаем
https://udlbook.github.io/udlbook/
Introduction
Supervised learning
Shallow neural networks
Deep neural networks
Loss functions
Training models
Gradients and initialization
Measuring performance
Regularization
Convolutional networks
Residual networks
Transformers
Graph neural networks
Unsupervised learning
GANs
Normalizing flows
Variational autoencoders
Diffusion models
Deep reinforcement learning
Why does deep learning work?
Deep learning and ethics
коды: https://github.com/udlbook/udlbook/tree/main
+ ноутбуки к каждому разделу https://github.com/udlbook/udlbook/tree/main/Notebooks
👍10🔥6❤3
Forwarded from Сиолошная
В последние пару лет почти каждый раз, когда речь заходит о больших языковых моделях, разговор сводится к противоборству двух лагерей: одни считают, что модели «понимают», умеют «размышлять» и выводить новую информацию; другие смеются над ними, и сравнивают модели со статистическими попугаями, которые просто выкрикивают услышанное, без выработанного понимания. Обе стороны приводят множество аргументов, кажущихся убедительными, однако точка в вопросе никогда не ставится.
Разрешить дискуссию помогают методы механистической интерпретируемости. В канале я обозревал несколько статей, в каждой из которых маленькое открытие позволяло чуть больше понять внутрянку нейросетей и даже улучшить сам механизм работы.
Сегодня я предлагаю вам прочитать мой лонг для погружения в эту тему. В нём я применил классический приём «да ща быстро сяду напишу как попало, будет средней длинны пост» — и это оказалось самообманом😭 . В итоге вышло полно, плотно, некоторые объяснения переписывались, сопроводительные иллюстрации перерисовывались, но результатом доволен.
▀▀▀▀▀▀▀▀▀▀
Оценить самим можно тут: https://habr.com/ru/companies/ods/articles/839694/
▀▀▀▀▀▀▀▀▀▀
Отдельная благодарность Павлу Комаровскому @RationalAnswer за (уже далеко не первую) помощь в редактуре и подготовке материала — не забывайте подписываться и на него.
Разрешить дискуссию помогают методы механистической интерпретируемости. В канале я обозревал несколько статей, в каждой из которых маленькое открытие позволяло чуть больше понять внутрянку нейросетей и даже улучшить сам механизм работы.
Сегодня я предлагаю вам прочитать мой лонг для погружения в эту тему. В нём я применил классический приём «да ща быстро сяду напишу как попало, будет средней длинны пост» — и это оказалось самообманом
▀▀▀▀▀▀▀▀▀▀
Оценить самим можно тут: https://habr.com/ru/companies/ods/articles/839694/
▀▀▀▀▀▀▀▀▀▀
Отдельная благодарность Павлу Комаровскому @RationalAnswer за (уже далеко не первую) помощь в редактуре и подготовке материала — не забывайте подписываться и на него.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?
ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем...
👍9🔥4❤2
Приятный тутор по диффузионкам для тех кто хочет глубже понять (как сам автор пишет - больше для ресерчеров)
Tutorial on Diffusion Models for Imaging and Vision
https://arxiv.org/abs/2403.18103
Tutorial on Diffusion Models for Imaging and Vision
https://arxiv.org/abs/2403.18103
❤8🔥3👏3
Forwarded from DLStories
Мы наконец открыли набор на осенний семестр Deep Learning School!
DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами. В этом семестре мы улучшили многие занятия, записали новые версии лекций и семинаров и обновили домашки.
- Вторая часть полностью посвящена обработке естественного языка (NLP). Начинаем с эмбеддингов слов и заканчиваем GPT-2,3, RLHF, RAG и другими актуальными темами вокруг LLM.
Сейчас идет набор на оба потока обучения — часть 1 (введение в DL + CV) и часть 2 (NLP).
Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и программы обучения можно найти тут.
Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций в обеих частях курса.
Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.
❗️Для первой чати курса также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.
Старт обучения — 21 сентября. В этот день откроется первое занятие и будет живой вводный вебинар.
Чтобы зарегистрироваться на курс, нажмите на кнопку "поступить" на нашем сайте.
Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
🧡 Поддержать нашу школу на Boosty
Если остались вопросы, пишите нам на почту ([email protected]) или в комментарии под этим постом.
Ждём вас в чатике курса в новом семестре!
DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами. В этом семестре мы улучшили многие занятия, записали новые версии лекций и семинаров и обновили домашки.
- Вторая часть полностью посвящена обработке естественного языка (NLP). Начинаем с эмбеддингов слов и заканчиваем GPT-2,3, RLHF, RAG и другими актуальными темами вокруг LLM.
Сейчас идет набор на оба потока обучения — часть 1 (введение в DL + CV) и часть 2 (NLP).
Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и программы обучения можно найти тут.
Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций в обеих частях курса.
Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.
❗️Для первой чати курса также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.
Старт обучения — 21 сентября. В этот день откроется первое занятие и будет живой вводный вебинар.
Чтобы зарегистрироваться на курс, нажмите на кнопку "поступить" на нашем сайте.
Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
🧡 Поддержать нашу школу на Boosty
Если остались вопросы, пишите нам на почту ([email protected]) или в комментарии под этим постом.
Ждём вас в чатике курса в новом семестре!
❤5🥴1
Раз вышел o1 то должен быть и листик со статьями которые могут иметь к нему отношение (ну и в целом на ллмный ризонинг направленный)
https://github.com/hijkzzz/Awesome-LLM-Strawberry
https://github.com/hijkzzz/Awesome-LLM-Strawberry
GitHub
GitHub - hijkzzz/Awesome-LLM-Strawberry: A collection of LLM papers, blogs, and projects, with a focus on OpenAI o1 🍓 and reasoning…
A collection of LLM papers, blogs, and projects, with a focus on OpenAI o1 🍓 and reasoning techniques. - hijkzzz/Awesome-LLM-Strawberry
👍6❤3👌1
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGASCI webinar on mathematics and data science:
👨🔬 Sergei Gukov "What makes math problems hard for reinforcement learning: a case study"
⌚️ 19 September, Thursday 19.00 Moscow time
Add to Google Calendar
Can AI solve hard and interesting research-level math problems? While there is no mathematical definition of what makes a mathematical problem hard or interesting, we can provisionally define such problems as those that are well known to an average professional mathematician and have remained open for N years. The larger the value of N, the harder the problem. Using examples from combinatorial group theory and low-dimensional topology, in this talk I will explain that solving such hard long-standing math problems holds enormous potential for AI algorithm development, providing a natural path toward Artificial General Intelligence (AGI).
The talk is based on a recent paper: https://arxiv.org/abs/2408.15332
О докладчике: Сергей Гуков - профессор КалТех, выпускник МФТИ и Принстона, один из наиболее известных специалистов по теории струн и математической физике, в последние годы занимающийся применением методов Reinforcement Leaning к задачам математики и физики.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga and in telegram: https://www.tgoop.com/sberlogasci/19688 - subscribe !
Анонс на твиттер:
https://x.com/sberloga/status/1835702457260765359
Ваши лайки и репосты - очень welcome !
👨🔬 Sergei Gukov "What makes math problems hard for reinforcement learning: a case study"
⌚️ 19 September, Thursday 19.00 Moscow time
Add to Google Calendar
Can AI solve hard and interesting research-level math problems? While there is no mathematical definition of what makes a mathematical problem hard or interesting, we can provisionally define such problems as those that are well known to an average professional mathematician and have remained open for N years. The larger the value of N, the harder the problem. Using examples from combinatorial group theory and low-dimensional topology, in this talk I will explain that solving such hard long-standing math problems holds enormous potential for AI algorithm development, providing a natural path toward Artificial General Intelligence (AGI).
The talk is based on a recent paper: https://arxiv.org/abs/2408.15332
О докладчике: Сергей Гуков - профессор КалТех, выпускник МФТИ и Принстона, один из наиболее известных специалистов по теории струн и математической физике, в последние годы занимающийся применением методов Reinforcement Leaning к задачам математики и физики.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga and in telegram: https://www.tgoop.com/sberlogasci/19688 - subscribe !
Анонс на твиттер:
https://x.com/sberloga/status/1835702457260765359
Ваши лайки и репосты - очень welcome !
👍7👏1
Forwarded from ду́но
Вы не ждали, да и мы тоже. Мы организуем соревнование по Multi-Agent Reinforcement Learning в рамках AIJ.
В прошлом году на NeurIPS была классная сорева MeltingPot, где требовалось создать агентов для mixed-motive cooperation. Такая постановка задачи сейчас является одним из фронтиров в MARL. Поэтому по ее мотивам, мы сделали свою небольшую вариацию, с помощью которой вы можете вкатиться в MARL, порешать нетривиальную задачу и разобраться в sota-методах.
К этому всему идет куча приятных бонусов:
🤑 2,500,000₽ — Призовой фонд. Туда-сюда миллионер, за вычетом НДФЛ, конечно.
⏫ За самого быстрого агента (для топ-10) на диком востоке можно залутать еще 200к, приятно.
😶🌫️ А победителей мы лично вытащим погабиться и покурить шишу.
Соревнование уже запущено и закончится 28-го октября. А 3-го числа Никита (@Nikita_Lyubaykin) и Влад (@vkurenkov) проведут разбор задачи и ответят на ваши вопросы, все детали тут.
- - —
@dunnolab
В прошлом году на NeurIPS была классная сорева MeltingPot, где требовалось создать агентов для mixed-motive cooperation. Такая постановка задачи сейчас является одним из фронтиров в MARL. Поэтому по ее мотивам, мы сделали свою небольшую вариацию, с помощью которой вы можете вкатиться в MARL, порешать нетривиальную задачу и разобраться в sota-методах.
К этому всему идет куча приятных бонусов:
Соревнование уже запущено и закончится 28-го октября. А 3-го числа Никита (@Nikita_Lyubaykin) и Влад (@vkurenkov) проведут разбор задачи и ответят на ваши вопросы, все детали тут.
- - —
@dunnolab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥5👏2
Forwarded from NLP Wanderer
Мы выпускаем в релиз свои лучшие модели и тулкит алайнмента. который использовался для их тренировки.
Итак, наш флагман - Vikhr-Nemo-12B-Instruct-R-21-09-24 (карточка на HF)
12B модель на основе Mistral-Nemo, с качеством на русском языке в некоторых задачах не хуже gpt-4o-mini и имеет 128к токенов контекста, была специально заалайнена под решение широкого спектра задач на реальных и синтетических вопросах пользователей, включая код, математику, суммаризацию, ризонинг, ответы в специальном формате (JSON/HTML и тд) и многие другие.
Модель получила винрейт 79.8 (относительно gpt-3.5-turbo) на оффлайн бенчмарке Ru-General-Arena, что лучше любой текущей опенсорс модели до 30В для русского языка.
Для достижения такого качества мы собрали большой инструктивный датасет со втроенным CoT, что позволило сильно прочкать ризонинг модели, далее обучили Reward модель, сделали Rejection Sampling и применили собственный метод SMPO (вариация DPO) для выполнения преференс-тюнинга.
Вторая модель - Vikhrmodels/Vikhr-Llama3.1-8B-Instruct-R-21-09-24 (карточка на HF)
Так же обучена Llama-3,1-8B и имеет аналогичный размер контекста в 128k токенов. Винрейт на Ru-Arena-General - 63.9, что делает ее одной из лучших 8B моделей дла русского языка.
Модели обучены работать с RAG
Обе модели имеют уникальную особенность - они заалайнены для работы с RAG, т.е. используя системный промпт и спец. роль documents, вы сможете подавать ей документы в стандартизированной форме (JSON). При этом сам текст каждого документа может быть грязным чанком HTML, Markdown или Plain text формата до 4к символов каждый.
Модели умеют выделять информацию из предоставленных документов самостоятельно, реализуя таким образом "реранкер" на уровне LLM. Это сделано за счет двух-этапного ответа. Первый ответ модели представляет из себя JSON со списокм релевантных идентификаторов документов, а второй, если юзер его запросит, будет уже текстовым ответом модели на вопрос пользователя.
Благодаря такому обучению, на нашем бенчмарке для RAG (судья gpt-4o) Vikhr-Nemo показала качество в RAG задачах даже лучше, чем gpt-4o-mini (цифры в карточках моделей)
SMPO - Simple Margin Preference Optimization
Наш собственный метод выравнивания, разработанный для стабилизации прцоесса PO. Этот метод во многом заимствует идеи IPO, SimPO, C-RLFT, а также содержит собственную функцию потерь для разделения выбранных и отклоненных пар, отказываясь от классической сигмойды.
Основная идея метода заключается в стремлении плавно достичь желаемого уровня margin, не заставляя модель переобучаться, в том числе с помощью добавления балансирующего SFT лосса для выбранных и отклоненных вариантов одновременно.
Тулкит на Github - effective_llm_alignment
Репозиторий содержит скрипты и конфиги которые использовались для всех этапов обучения моделей. он позволяет удобно работать с основными методами алайнмента для LLM, включая наш SMPO.
Больше подробностей о моделях, как с ними работать, бенчмарках, процедуре обучения, вы можете найти в их карточках на HF.
Поиграться с Vikhr-Nemo-12B можно в tg bot_e (@vikhrbot), Gradio инференс
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍1
Forwarded from Vikhr models
Mcts-lib
Мы релизнули либу для улучшения генераций за счет MCTS(+10 пунктов по ru General Arena)!
Как это работает?
1. (Инициализация): Представьте, что вы начинаете с первой версии ответа, который модель предлагает. Чтобы не попасть в ловушку одного-единственного мнения с самого начала, модель также добавляет запасной вариант вроде “Я не знаю”. Это как стартовая точка, которая позволяет не зацикливаться на первой попытке.
2. (Selection): Из всех возможных вариантов ответа мы ищем тот, который выглядит самым перспективным, но при этом ещё не был полностью изучен. Это похоже на то, как вы бы выбирали, на какой вопрос или задачу потратить своё время дальше, полагаясь на интуицию и текущие знания.
3. (Self-Refine): Теперь, когда выбрали ответ, мы пытаемся его улучшить. Представьте, что вы показываете свой ответ опытному другу, и он говорит вам, что можно улучшить. Модель делает что-то похожее – она сама генерирует советы и, следуя этим подсказкам, старается улучшить ответ.
4. (Self-Evaluation): После того как ответ был доработан, модель оценивает его. Это как если бы вы сами посмотрели на свой улучшенный ответ и подумали: “Насколько это хорошо? Честно ли я оцениваю свой труд?” Чтобы оценка была объективной, модель специально избегает ставить идеальные баллы, чтобы не обманывать себя.
5. (Backpropagation): Если улучшенный ответ оказался хорош, эта информация передаётся обратно к родительскому узлу и другим связанным ответам. Это как если бы вы поделились своим новым знанием с друзьями, чтобы все в группе тоже стали умнее.
6.Актуализация планов (UCT Update): Когда все оценки обновлены, модель пересматривает свои планы и решает, какие варианты стоит изучить дальше. Здесь работает формула, которая помогает ей оценить, куда лучше направить внимание в следующий раз, чтобы стать ещё более эффективной.
Работает с openapi like apiшками, можно и llamacpp подключить и gpt4o!
github
оригинальный папир
Мы релизнули либу для улучшения генераций за счет MCTS(+10 пунктов по ru General Arena)!
Как это работает?
1. (Инициализация): Представьте, что вы начинаете с первой версии ответа, который модель предлагает. Чтобы не попасть в ловушку одного-единственного мнения с самого начала, модель также добавляет запасной вариант вроде “Я не знаю”. Это как стартовая точка, которая позволяет не зацикливаться на первой попытке.
2. (Selection): Из всех возможных вариантов ответа мы ищем тот, который выглядит самым перспективным, но при этом ещё не был полностью изучен. Это похоже на то, как вы бы выбирали, на какой вопрос или задачу потратить своё время дальше, полагаясь на интуицию и текущие знания.
3. (Self-Refine): Теперь, когда выбрали ответ, мы пытаемся его улучшить. Представьте, что вы показываете свой ответ опытному другу, и он говорит вам, что можно улучшить. Модель делает что-то похожее – она сама генерирует советы и, следуя этим подсказкам, старается улучшить ответ.
4. (Self-Evaluation): После того как ответ был доработан, модель оценивает его. Это как если бы вы сами посмотрели на свой улучшенный ответ и подумали: “Насколько это хорошо? Честно ли я оцениваю свой труд?” Чтобы оценка была объективной, модель специально избегает ставить идеальные баллы, чтобы не обманывать себя.
5. (Backpropagation): Если улучшенный ответ оказался хорош, эта информация передаётся обратно к родительскому узлу и другим связанным ответам. Это как если бы вы поделились своим новым знанием с друзьями, чтобы все в группе тоже стали умнее.
6.Актуализация планов (UCT Update): Когда все оценки обновлены, модель пересматривает свои планы и решает, какие варианты стоит изучить дальше. Здесь работает формула, которая помогает ей оценить, куда лучше направить внимание в следующий раз, чтобы стать ещё более эффективной.
Работает с openapi like apiшками, можно и llamacpp подключить и gpt4o!
github
оригинальный папир
GitHub
GitHub - VikhrModels/mctslib
Contribute to VikhrModels/mctslib development by creating an account on GitHub.
🔥8👍1
Forwarded from epsilon correct
Запустили Gemma 2 зафайнтьюненную на японский. Веса – на HuggingFace.
Заодно запустили соревнование на Кэггле на $150k👀 на адаптацию Gemma к 73 разным языкам, включая русский и украинский. Ждём ваших сабмитов!
Заодно запустили соревнование на Кэггле на $150k
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12🗿4
Блин, чел мощно отлупил всех RL максималистов. RL не будет работать, ок? Усвоили
(Дипмаинду с ОпенАИ лучше закрыть свои ресерчи. Да и вообще закрыться полностью.)
https://www.argmin.net/p/cool-kids-keep
(Дипмаинду с ОпенАИ лучше закрыть свои ресерчи. Да и вообще закрыться полностью.)
https://www.argmin.net/p/cool-kids-keep
arg min
Cool Kids Keep
On the academic imperialism of reinforcement learning.
😁9👍2🤔2
Forwarded from эйай ньюз
В ByteDance стажёр обиделся и два месяца саботировал тренировочные раны соседней команды, причём весьма изощрёнными методами:
➖ Загружал чекпоинты с бекдором, через который проносил скрипт, который рандомно убивал джобы на ноде (ckpt - это pickle файл, они могут содержать произвольный код на питоне)
➖ Специально добавлял баги в форк PyTorch, который запускался на кластере
➖ Портил чекпоинты, чтобы результаты экспериментов не сходились
При всём этом он участвовал в митингах, где пытались отловить проблему, слушал, как коллеги пытаются решить её, и на основе услышанного придумывал новые способы саботажа. В итоге поймали по логам, но два месяца и усилия почти 30 человек пропали впустую. А у вас что-то такое было?
П.с. кроме шуток, мощный чел оказался.
@ai_newz
➖ Загружал чекпоинты с бекдором, через который проносил скрипт, который рандомно убивал джобы на ноде (ckpt - это pickle файл, они могут содержать произвольный код на питоне)
➖ Специально добавлял баги в форк PyTorch, который запускался на кластере
➖ Портил чекпоинты, чтобы результаты экспериментов не сходились
При всём этом он участвовал в митингах, где пытались отловить проблему, слушал, как коллеги пытаются решить её, и на основе услышанного придумывал новые способы саботажа. В итоге поймали по логам, но два месяца и усилия почти 30 человек пропали впустую. А у вас что-то такое было?
П.с. кроме шуток, мощный чел оказался.
@ai_newz
👀6💯2❤1👍1😁1🤔1🆒1
чот по интернетику пишут что вот мол уже засветилась 5090 (хотелось бы, но 32гб врама все равно мало)
вроде размером с 4090.
https://videocardz.com/newz/geforce-rtx-5090-graphics-card-featured-in-a-factory-trial-video
(PS нет, это 4070 ti super)
вроде размером с 4090.
https://videocardz.com/newz/geforce-rtx-5090-graphics-card-featured-in-a-factory-trial-video
(PS нет, это 4070 ti super)
👍3🤔3
ммм, ребята попытались скомпилить все в одно по тюнингу ллмковых со свежими подходами
Норм обзорчик собрали, пусть будет
Stage 1: Dataset Preparation
Stage 2: Model Initialisation
Stage 3: Training Environment Setup
Stage 4: Partial or Full Fine-Tuning
Stage 5: Evaluation and Validation
Stage 6: Deployment
Stage 7: Monitoring and Maintenance
115 страничек
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities
https://arxiv.org/abs/2408.13296
Норм обзорчик собрали, пусть будет
Stage 1: Dataset Preparation
Stage 2: Model Initialisation
Stage 3: Training Environment Setup
Stage 4: Partial or Full Fine-Tuning
Stage 5: Evaluation and Validation
Stage 6: Deployment
Stage 7: Monitoring and Maintenance
115 страничек
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities
https://arxiv.org/abs/2408.13296
arXiv.org
The Ultimate Guide to Fine-Tuning LLMs from Basics to...
This report examines the fine-tuning of Large Language Models (LLMs), integrating theoretical insights with practical applications. It outlines the historical evolution of LLMs from traditional...
🔥17👍6❤1🤔1
Бу испугался? не бойся, я RL, я тебя не обижу, иди сюда, иди ко мне, сядь рядом со мной, посмотри мне в глаза. ты видишь меня? я тоже тебя вижу, давай толкать тележки и учить пауков ходить до тех пор, пока наши глаза не устанут. ты не хочешь? почему? что-то не так?
😁41😱3🔥1🤣1
Forwarded from NLP Wanderer
Preference Optimization 28_10_2024.pdf
2 MB
Это слайды с текстом, пока устно ее я рассказывал только внутри команды Vikhr.
Внутри вы узнаете:
- Теория Bradley-Terry и откуда берутся Reward модели
- Что нужно для обучения Reward модели и как его делаем мы
- Откуда взялся DPO и каковы его недостатки
- Какова мотивация нас и других авторов улучшать DPO
- Как устроен наш функционал SMPO - Simple Margin Preference Optimization
- Какие есть способы улучшения DPO на уровне данных и как готовим эти данные мы
Задавайте вопросы комментариях, если что-то непонятно, будем обсуждать.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🤔1