Уничтожение RAG - ML System Design
Давайте пойдем по базе из этого поста, ещё можете чекнуть этот пост с разбором MLSD для обучения LLM
Как отвечать на вопрос вопрос: «Постройка мне Retrieve модель в RAG»? Давайте разбираться!
Задача
Построить Retrieve модель для рага в e-commerce. Мы большой магазин навоза и нам надо рекомендовать товар по запросу пользователя в LLM. Напомню, retrieve модель - это штука, которая на основе запроса пользователя ищет подходящий контекст, чтобы засунуть в ЛЛМ.
Ограничения:
Ограничения: Минимальная задержка (<3–5 сек.), иначе пользователь ливнёт и поставит нашему сервису какашку
Бизнесовые метрики
Онлайн-метрики:
Оффлайн метрик:
Источник:
Мы большой магазин навоза и нам ну прям нужен RAG, то скорее всего мы доросли до того момента, когда у нас есть своя БД с описанием сортов навоза и их уникальных особенностей - 5 млн записей
Разметка:
Для Retrieve модели нам нужно получить данные: «запрос → релевантные документы». нанимаем копирайтера - Валюху, которая будет размечать нам данные. Но Валюха просит много рублей за свою работу, а мы не можем ей дать столько денег, то можем сделать начальную разметку с помощью TF-IDF или других BERT-like моделей.
Train/Test:
Случайно поделить на train/val/test (например, 70/15/15 - именно так мы должны разбивать навоз!)
BaseLine:
Сначала нужно сделать самое простое решение в качестве затычки. Нашей затычкой будет Elasticsearch на основе TF-IDF, который будет возвращать top-k=5 чанков. Чанк делим на 256 токенов или по структуре данных.
Норм решение для продажи навоза
Гибридный подход - TF-IDF & ANN + E5 & Cosine Similarity + Reranker
Заранее считаем все эмбеддинги BM25 и E5 и храним всё в БД - Faiss, ChromeDB.
Как обучать модели:
ReRanker:
X: (Query, Document) + доп. фичи (score BM25/ANN/E5, клики, цена, популярность и т.д.).
y: бинарная (релевант/нерелевант) или градуированная (0–5). Loss: Pairwise Ranking (LambdaRank), Cross-Entropy (если классификация) или Listwise (nDCG-based).
Количество семплов: 1000, Train/Test = 70/30%, Онлайн-метрика: CTR, CSAT
Итог:
Вот мы и построили базовый документ модели ретривы в RAG`е для магазина навоза, который ещё можно дорабатывать. Если он вам был полезен, то надеюсь вы им воспользуетесь на собесах по MLSD
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏19❤4🍌4🔥3🥰1
Школа Ebout Data Science
Среди моих учеников и моего окружения появился некий спрос на обучение некого Machine Learning. Ну так а почему бы не сделать занятия по данной дисциплине
НО! Я не хочу, чтобы данные занятия были как типичная SkillКороба или какое-нибудь SkillПроизводство. Я хочу сделать уроки с индивидуальным подходом, а не сраный курс на 10к людей, где человек просто палит в предзаписаную картинку.
Как там всё будет устроено:
Что вы получите:
На данный момент я объявляю два занятия:
Чтобы записаться на первое занятие пишите: @Alexander_Isaev1
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡21🍌14👍7🤮2👏1🥱1🥴1
Новый дроп от Андрюши Карпатого 🎧
В новом бенгере Андрюша зачитал полный путь про то как обучается ЛЛМка: c нуля до ЧатаЛГБТ. Зайдёт для тех кто только погружается в мир ЛЛМок. Он разбирает весь путь их создания: как их тренируют, почему они работают так, как работают, и как вообще думать о них, если представить, что у них есть какая-то "психология".
Андрюша рифмует про:
Поэтому бегом смотреть и узнавать что-то новое и полезное для себя!
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Deep Dive into LLMs like ChatGPT
This is a general audience deep dive into the Large Language Model (LLM) AI technology that powers ChatGPT and related products. It is covers the full training stack of how the models are developed, along with mental models of how to think about their "psychology"…
🍌12❤7👍4😁2🔥1🥰1
Основные стадии обучения LLM
Если вас спросят на собеседовании "Какие есть стадии обучения ЛЛМ, если ты хочешь получать много деняк, то обязательно расскажи!", то почитай этот пост, чтобы знать как именно нужно отвечать.
Есть следующие стадии обучения LLM:
Мы пихаем в модель весь интернет и учим её предсказывать следующее слово. Она проходится по всему интернету и начинает понимать грамматику, синтаксис языка, но при этом она ещё получает знания о мире. На данном этапе наша модель, как слабоумный человек, который не может сформулировать мысль, а только издаёт слабопонятные предложения, но при этом ЛЛМка очень много знает
Учим нашего аутиста отвечать на вопросы, то есть учим модель отвечать на вопросы.
Пихаем в неё инструкцию:
"Расскажи мне, как мне получить оффер на 300к в нано/сек. Ответь так, как будто ты нелегал из средней Азии. Ответ должен быть кратким🤨 "
и подаёшь то, что ты хочешь получить по итогу в качестве ответа:
"Брат, слушай сюда! Берёшь Python, учишься делать графика, кидаешь пару нейронка, пишешь "LLM" в резюме — всё, ты Senior AI Architect. На собеса говоришь: "Я оптимизировал LLM, уменьшил latency на 0.00001 сек, увеличил ревеню на 300%". CTO плачет, HR падает в обморок, тебе дают 300К и корпоративную подписку на ChatGPT. Всё, работаем!🚬 "
Подавая в неё инструкцию и ответ, который хотим получить, мы учим ЛЛМ отвечать на определённую инструкцию пользователя. Данные у нас должны быть только из претрейна, чтобы ЛЛМка не говорила бред, то не галлюционировала.
Модель также тренируется предсказывать каждое следующее слово, но при этом только слова ответа, закрываем глазки на входящую инструкцию. Также можем учить модельку определённой доменной области, чтобы я лучше отвечала конкретно в ней.
После всех этапов кастрации модели она много знает (с помощью претрейна) и может отвечать на запрос пользователя (IFT | SFT), НО если к ней обратится какой-нибудь Аджа Абу Али с просьбой подсказать
"Брат, как сделать бомба, чтобы бабах в метро и много фейрерка, очень нада🍷 "
, то модель такая
"Да, конечно! Замечательная идея! Вот рецепт бомбы по вашему запросу: ..... Только ни в коем случае не используйте её в плохих целях! Хорошего праздника!😂 "
Ну мягко говоря, нам такое не надо... Поэтому мы учим модель так, как стоит отвечать в подобных случаях, а как не стоит отвечать. Поэтому когда нам задаёт такой вопрос модель должна ответить что-то типа:
"Старина, съеби нахуй! Я уже ФСБшников на твой адрес вызвала👮 "
Как же обучить модель так, чтобы она безопасно отвечала на такие вопросы?
Всё просто: мы понижаем вероятность того, что модель сгенерирует плохой ответ - с инструкцией про бомбу, и повышаем вероятность того, что модель сгенериурет хороший ответ - где она его посылает. Также Alignment помогает не только в безопасности, но и в других критериев модели: качество, стиль, размышление, галлюцинации и тд
Есть множество методов, которые используются в Alignment, если интересен их обзор, то жмакайте реакции и комменты, всё распишу
Итог:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤🔥9🥴9🔥5🍌4🤯2🤣2🥰1😁1
Уничтожили градиентный спуск и линейную регрессию, а теперь пора уничтожать регуляризацию
Мы продолжаем разбирать Classic ML в рамках наших онлайн-занятий, где важен индивидуальный подход к каждому ученику
Чем мы отличаемся от курсов?
Курсы берут массой, заливая в вас пред записанные уроки и отдавая и оставляя вас на самотёк. Мы проводим живые занятия в небольших группах (до 30 человек), где у вас есть возможность общаться с преподавателем на протяжении всего обучения
Отзывы учеников (картинки 1-2):
Реализация на питоне с нуля - самое полезное. Ещё примеры были хорошие
Разбор как теории, так и практики. На каждую задачу приводили понятный пример, а еще можно было сразу спрашивать, если что то непонятно
В курсе мне очень понравился анонс - когда предлагается последовательное прохождение от простого к сложному в качестве практики сразу делая реальные примеры с кагла.
Прошлый урок прошёл просто на ура, мы разобрали (картинки 3-5)
А в качестве практики мы в онлайне реализовали:
Не забыли про ДЗ:
Что вас ждёт на следующем уроке
На практике мы реализуем пару методов регуляризации, чтобы твёрдо и чётко понимать, как она работает, а в ДЗ вы попробуете реализовать оставшиеся методы регуляризации и потренировать свою модель на реальных данных, а также расскажем, как это работает в scikit-learn!
Занятие будет проходить 20 февраля с 19:00 - 20:00, будет запись, и время две недели на решение ДЗ и его проверку преподавателем
Первое занятие было бесплатное, и мы набрали 29 учеников. Уже занимаются места на второе занятие, которое стоит 1000 рублей.
Я специально ставлю цену по занятиям, чтобы вы за небольшую сумму смогли посмотреть на качество лекций и покинуть обучение, если вам не понравилось, ну и продолжить, если всё хорошо! Многие курсы ставят ценник в 100к, не давая ученику глянуть на качество материала, мы же решили эту проблему - всё для вас)
Если хотите записаться на вторую лекцию по регуляризации и линейной регрессии, то пишите @Alexander_Isaev1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤🔥4🍌4🥰2❤1👍1👎1
Сбор гигачадов в одной папке
Читая множество каналов, я вижу кучу годного контента, которым хотел бы поделиться с вами. Поэтому мы собрались каналами и сделали папочку, в которой собраны люди, которые могут рассказать вам много чего интересного и полезного, а самое главное простым и понятным языком
Самая сочность, которую я бы почитал:
Каналы ребят мощные и за ними действительно интересно следить, поэтому можешь подписаться, не пожалеешь
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
ML guard
Nikita Boyandin invites you to add the folder “ML guard”, which includes 9 chats.
🍌13❤4🔥4🥰1
Уничтожение резюме, или как резюме поможет тебе залутать побольше зарплаты
Многие думают, что зарплата напрямую зависит от ваших хардов, поэтому многие только и делают, что учат фреймворки, читают статьи и стараются прокачать технические навыки. Но давайте будем честны: в большинстве случаев компания наймёт человека норм по софтам и норм по хардам, нежели ужасного чувака по софтам и классного по хардам.
Несофтовый человек будет ебашить сисю пива каждый созвон, отвечать токсично и на попытку договориться с ним вы будете слышать пару приятных слов о вашей матери, зато такой человек идеально будет писать код, к которому нельзя придраться
Сегодня речь пойдёт о софт скиллах, а именно про создание резюме. Резюме - это ваше лицо перед работодателем, если у вас красивое личико, то это плюс social credits, а если у вас всё лицо в прыщах, с морщинами и складками даже под губой, то минус social credits
Поэтому наша задача - сделать очень красивое и понятные резюме для HR`а:
Что должно быть в резюме Дата Саентиста
Формула - Я сделал A с помощью B, как итог получил C
A - то, что вы сделали.
B - инструменты, указываете выжимку технологий и инструментов, которые вы использовали для решения проблемы.
C - результаты или метрики. Они не обязательно должны быть в цифрах, они могут быть в неком “улучшении”: улучшил рекомендательную систему, но желательно - цифры
Это нужно для того, чтобы:
А - рекрутёр понимал, что вы сделали. Убираем его вопрос "Занимался ли он тем же самым, что и в нашей компании?"
B - С помощью каких технологий вы сделали - вопрос "У него такой же стек, как и у нас?"
C - Какой успех в цифрах вы принесли - "А точно ли он приносит пользу компании?". Если нет цифры, то можно очень аккуратно её придумать, но главное, чтобы вы смогли пояснить за неё.
В одной работе у вас должно быть два-три буллета. Каждый буллет описывает одну задачу или проект на работе, также не нужно писать в одном булете больше 3 предложений.
Булеты помогают структурировать информацию, рекрутер сразу понимает структуру резюме, поэтому ему проще читать его.
В резюме точно должны быть указаны теги технологий, их можно указать, как и в отдельном поле (такое есть на hh), или после описания вашего опыта. Это нужно, чтобы совпадали ключевые слова в фильтре и у HR`а
Мой ученик как-то сказал:
резюме у нас топ, потому что парень из XXX или как-то так, стартап, сказал, что такое резюме, как у меня, у супер единиц встречается🚶♂️
Эти базовые три пункта помогут апнуть твоё резюме на более качественный уровень, что поможет тебе повысить конверсию на hh.
Но это ещё не всё, что нужно знать при создании качественного резюме для Data Scientist`а. Получить оффер пожирнее и лучше знаний можно получить на менторстве
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌7👍5🤯2🥰1
NLP-Собеседование Middle Data Scientist | Вопросы и глубокое объяснение
NLP-секция - неотъемлемая часть получения оффера для NLP инженера. Как раз таки в этом видео я даю базу, которую спрашивают на подобных собеседованиях и объясняю на пальцах эти темы так, чтобы ты точно на них ответил.
Разбираем
- TF-IDF, BM25, плюсы-минусы
- Лемматизация, стемминг, очистка и предобработка данных
- Word2Vec (CBOW, SkipGram, Negative Sampling), FastText, Glove
- Концептуальные различия между Word2Vec и TF-IDF
Все вопросы с собеседования я собрал в этом ноушене.
https://youtu.be/xuF2y9YnBKc
https://youtu.be/xuF2y9YnBKc
https://youtu.be/xuF2y9YnBKc
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌26👍11🔥9⚡1❤🔥1🥰1👏1
Forwarded from Переехали – ComUnity
Всем привет!
Приглашаем вас на наш первый митап в 2025 – AI Agents x Web3 BuildCon😛
Мероприятие пройдет 4 марта совместно с нашими друзьями из московского блокчейн-сообщества Msk Frens.
👥 AI Agents x Web3 BuildCon — митап для фаундеров и разработчиков, которые работают над запуском AI-продуктов в Web3.
Это не абстрактные дискуссии, а конкретные кейсы от тех, кто уже строит продукты с использованием децентрализованного ИИ
- Как билдить AI-агентов?
- Где искать инфраструктуру и полезные контакты?
- Что реально работает в Web3 и AI?
📌 В программе: Лаборатория блокчейн Сбера, Сбер AI, Fluence, TETRIX, VARA, ComBox и другие. Спикеры расскажут, как создают AI-решения для бизнеса и поделятся ценным опытом.
👉 Регистрация на мероприятие обязательна
ВАЖНО: Для участия необходима регистрация и подтверждение регистрации. Для прохода на площадку необходим паспорт.
📍 Где пройдет ивент?
Адрес: Кутузовский пр-кт 32к1, 2-ой этаж, конференц-зал.
Как добраться: Яндекс Карты | Google Карты
🎙 О чем будем говорить?
Если вы: блокчейн-разработчик; ИИ-разработчик; заинтересованный в технологиях ИИ + блокчейн пользователь, то это мероприятие для вас!
На AI Agents x Web3 BuildCon вы сможете узнать больше о способах интеграции ИИ-агентов в проекты Web3, а также задать вопросы фаундерам успешных бизнесов.
До встречи на ивенте!🏃♂️
#мероприятия
Приглашаем вас на наш первый митап в 2025 – AI Agents x Web3 BuildCon
Мероприятие пройдет 4 марта совместно с нашими друзьями из московского блокчейн-сообщества Msk Frens.
Это не абстрактные дискуссии, а конкретные кейсы от тех, кто уже строит продукты с использованием децентрализованного ИИ
- Как билдить AI-агентов?
- Где искать инфраструктуру и полезные контакты?
- Что реально работает в Web3 и AI?
ВАЖНО: Для участия необходима регистрация и подтверждение регистрации. Для прохода на площадку необходим паспорт.
Адрес: Кутузовский пр-кт 32к1, 2-ой этаж, конференц-зал.
Как добраться: Яндекс Карты | Google Карты
1. Будущее AI агентов в web3 — что делать после волны мем-коинов?
- Куликов Константин Юрьевич, Исполнительный директор, Sber AI
- Илья Душин, генеральный директор, ГК Т.Т.Консалтинг&ComBox Technology: О том как запустить платежного агента в web3
- Руслан Вяльцев, CEO quarm, Цифровой художник, креативный директор о главных нарративах рынка AI-агентов в web3
- Артем Субботин, CEO TETRIX, Бизнес-модели, механика работы и особенности монетизации AI в блокчейне
2. Децентрализованные ИИ и инфраструктура для агентов: Возможно ли?
- Евгений Пономарев, co-founder Fluence
- Николай Вольф, CEO VARA
3. Доклад: “Разработка финансово автономного агента”
- Владимир Попов, исполнительный директор Лаборатории блокчейн Сбера
и другие темы
Нетворкинг: после основной программы – обсуждаем, знакомимся, строим связи.
Если вы: блокчейн-разработчик; ИИ-разработчик; заинтересованный в технологиях ИИ + блокчейн пользователь, то это мероприятие для вас!
На AI Agents x Web3 BuildCon вы сможете узнать больше о способах интеграции ИИ-агентов в проекты Web3, а также задать вопросы фаундерам успешных бизнесов.
До встречи на ивенте!
#мероприятия
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Теперь даже ваша собака будет понимать логистическую регрессию
Вот уже прошло второе занятие по ML от Ebout Data Science, делюсь его итогами. Мы проводим живые занятия в небольших группах (до 30 человек), где у вас есть возможность общаться с преподавателем на протяжении всего обучения
По теории мы прошли
А попрактиковались в:
А вот отзывы учеников на второе занятие
Математическую часть объяснил довольно понятно хорошо разжеван материал, матформулы даны с понятными пояснениями
Как и в прошлый раз, практическая часть реализация на питоне с нуля - самое полезное. ещё примеры были хорошие
- то, что покрываешь тему исчерпывающе
- есть домашка полезная!
В этот раз понравился сам материал: синтез статистики и машинного обучения + очень доходчиво все было объяснено преподавателем
На третьем занятии "Классификация. Логистическая регрессия. Метрики", которые пройдёт в четверг (6 марта) с 18:00 по 19:30 - мы сделаем уклон в теорию логистической регрессии, а на четвёртом занятии всё будем смотреть через призму соревок на Kaggle!
А также дадим вам список вопросов, которые спрашивают на собесе по логистической регрессии...
В теоретической части мы потеоретизируем про:
А на практической части мы попрактикуемся в:
Ученики довольны, ученики получают сошиал кредитс на собесах и всё ближе и ближе к офферу. Для записи пишите @Alexander_Isaev1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8🍌4❤🔥3🥰2❤1
Ошибки, которые ты можешь допустить на собеседовании
Просматривая записи своих учеников, постоянно вижу одну и ту же картину: человека спрашивают одно, а он начинает отвечать на что-то совершенно левое. Например: “Какие метрики были на проекте и как поняли, что нужны именно они?” — “Да, метрики, там, конечно, много всего интересного… нужно сначала начать с данных (длинный монолог про данные, уходящий в лес)… и вот я уже голый среди кавказцев”.
Запомни простую вещь: внимательно слушай вопрос и отвечай строго на него, а не на тот, что у тебя в голове.
Ты можешь сидеть дома в одних и тех же трусах с дырками размером с Аргентину, не снимая их третий день подряд, но на собеседовании ты должен выглядеть как Райан Гослинг в лучшие годы.
Поменяй наконец футболку с козявкой по центру и причешись — ухоженность и опрятность это реальный ключ к успешному интервью. Тебе приятно общаться с человеком, у которого вместо бархатистых волос просто засохший баребух на голове? Выглядеть опрятно и ухоженно – обязательное условие успешного интервью.
Вот тебя спросили “Что такое линейная регрессия?”, а ты в жизни такого вопроса не слышал! Не нужно паники, напряги челюсть и начни на уверенных щах говорить, то что знаешь.
Зачастую собеседующий гасит вопросами, если видят в тебе слабость, а если ты показываешь тестостерон и уверенность, то есть шанс того, что прокатит. Уверенность и спокойствие могут выручить даже в ситуации незнания.
Вот я включил режим сигма-боя, и что мне говорить дальше? Ты должен показать ход своих мыслей, иногда точный ответ не особо и важен — собеседующему хочется понять, как именно ты думаешь. Задают вопрос, ты говоришь: “Честно говоря, подзабыл, но давайте порассуждаем…”, и дальше рассуждай максимально логично и чётко. Демонстрируй свою логику и способность мыслить вслух
Опять же: один из критериев на собесе - это показать ход вашей мысли, а как вы можете лучше донести ход своих мыслей? Графически! И особенно это удобно при решении задачи по ML System Design. Тут виден ваш ход мысли - собеседующему легче вас понять, вы сами понимаете на каком вы этапе - вам легче рассуждать. Короче, win2win.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🍌12❤🔥6👎2🥰2⚡1😁1💯1