151 - Telegram Web

Наша первая статья на Habr`е

Мы командой решили написать статью "Как построить MVP AI-сервис и сэкономить время"

👨‍🔬

В ней мы рассказали о том, как мы строили и проектировали MVP-сервис c дифузионной моделью внутри для одной компании. Целевой аудиторией данной статьи были продукты, бизнесмены и люди, которые не связанные с технологиями, а больше связаны с бизнесом 😁

Для нашей ЦА мы хотели подсветить следующие темы:
1️⃣ Плюсы-минусы собственной обученной нейронки над API решением 🤪
2️⃣ Как и где собрать данные, с помощью каких методов их можно предобратотать, и как проверить их качество 😐
3️⃣ Поговорили про интерфейс сервиса, каким его можно было бы представить, показали пару примеров 🙂
4️⃣ Рассказали про как работают диффузионные модели 🥰
5️⃣ Про важность baseline модели, на собственном примере показали, что не всегда порой нужно бежать и обучать модели 👅
6️⃣ Подсветили несколько аспектов использования ИИ: авторское право, поддержка, данные... 🤪

И вот что я понял во время её написания:
- Ставьте и чётко формулируйте ЦА и цель статьи, делая вывод в конце чётко для вашей цели и для вашей ЦА. А то может так получится, что без изначального определения цели статьи, читатель может ожидать одно, а получить совершенно другое. И это ваша личная ответственность позаботиться о том, чтобы читатель именно то, что вы заложили изначально 💪
- Дать на проверку статью редакторам или людям, которые разбираются в публицистике. А то после недельного написания может замылиться глаз, и есть высокий шанс не заметить ошибки в статье. 😊

Итог:
Предлагаю вам почитать статью, буду благодарен, если оцените её знаком вверх, и мне важно от вас услышать фидбек, рекомендации по написанию других статей. А то я сейчас буду писать другую статью, и я хочу её сделать намного лучше данной, поэтому мне очень важно услышать именно ваше мнение 🥇

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤4🔥3🍌2🍾2

2.3K views09:04

Ebout Data Science | Дима Савелко

Почему ты теряешь деньги и время на вкат в Data Science

При вкате в Data Science ребята допускают кучу ошибок на своём пути, например:

1️⃣

Я не знаю какую область мне выбрать?

🎮

2️⃣ Где и как мне учить материалы по Data Science?

🇺🇸

3️⃣ Допустим я учусь, но как мои знания будут применяться на работе ?

🙈

4️⃣ А где и как нужно искать вакансии ? А что учить на собесах ? А почему мне не пишут HR`ы ? А что спрашивают на собесах ? Мне страшно ходить на собесы, вдруг я обсренькаюсь и что дальше ???

🎮

Можно бесконечно продолжать список вопросов, поэтому и существуют менторы, чтобы их решить. Ментор - это человек, который будет наставлять тебя на твоём пути развития, постоянно корректируя твой процесс обучения для более эффективного достижения цели.

Как менторство может помочь именно тебе?
Отвечая на этот вопрос, буду приводить основываться на данных из своей практики ментора.

1️⃣

Экономия времени и денег.
Средняя зп джуна ~110к, без ментора вы будете заниматься около года-полтора (12-18 месяцев), а с ментором около (6-8 месяцев, по личному опыту знаю). Простая математика: вы экономите 6-10 месяцев, а как следствие 6 * 110 - 10* * 110= 660к - 1100к. А если вы ещё и сразу на мидла идёте, то экономия около 1200к - 2200к... 🍑

2️⃣ Вы приобретёте более глубокие навыки, если будете учиться с ментором.
Ментор, как человек опытный, даёт вам всю свою накопленную экспертизу: как получить первый оффер, как уничтожать собеседования, как правильно торговаться, как правильно себя показывать на собесах и тд. Самим вам придётся кровью и потом выбивать эти навыки и опыт, поэтому для сокращения пути ментор - самый лучший вариант. 📞

3️⃣ Сообщество единомышленников
У меня есть группа, в которой я ребят довожу вплоть до оффера, на данный момент там около 20 человек. Мы регулярно устраиваем созвоны, на которых я разбираю основные ошибки, пробелы и затыки ребят на пути приобретения оффера. Также ребята активно переписываются и проводят МОКи между собой. 🎲

4️⃣ Кукухология.
Зачастую так бывает, что основным затыком являются страхи. Именно это и прорабатывается на менторстве, чтобы вы смогли идти и уничтожать собесы 💪

Итог:
Если вы хотите получить оффер, или вам необходимо сделать продающее резюме, роадмап, накинуть материалов, то приглашаю к себе на менторство

✋

Вот видео, в котором я рассказываю про себя и свои услуги.

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Дмитрий Савелко - менторство, или как я смогу сэкономить тебе деньги и время ?

tg - @ngmdite

🍌13❤3💩3😁2🤡2⚡1👍1🔥1🥰1

5.13K views14:12

Ebout Data Science | Дима Савелко

1:13

This media is not supported in your browser

VIEW IN TELEGRAM

Математика и ML в Кубике Рубика

🎲

Грубо говоря, вам нужно собрать пазл типа Кубик Рубика, но не с помощью программных алгоритмов, а с помощью алгоритмов машинного обучения и математики. Глобальная задача проетка - применить машинное обучение к теории групп

Краткая суть задачи может быть описана несколькими способами

🙈

1️⃣ Нахождение пути на графе от вершины А до вершины Б, но размер графа 10^20-10^50 - обычные методы не применимы. Задача близка к прошедшему конкурсу Каггл Санта 2023.
2️⃣ Математически - разложение элемента группы по образующим. Математические пакеты, которые частично могут решать эту задачу - GAP, SAGE.

Минимальное требование

👁

Вы знакомы с Питоном, и у вас есть несколько часов свободного времени в неделю. (Альтернативно - можно не знать Питон, но хорошо знать теорию групп - в идеале GAP, SAGE).

Цель проекта

📞

Написание статьи в хорошем журнале, участники - соавторы. Другим бонусом будет являться - приобретение навыков по современным методам нейронных сетей, Reinforcement Learning и т.д.

Почему вы должны принять участие

👍

Это отличная возможность получить уникальный опыт и стать более конкурентно способным на собеседованиях в DS. Написанная статья или готовое решение может стать значительным фактором при отборе кандидатов, так как в отличие от многих кандидатов ваша активность показывает, что вы действительно болеете Data Scientизмом и можете решать нестандартные задачи и писать статьи.
Также это отличная возможность понетворкаться)

Если Вам интересно участие

💪

Напишите @alexander_v_c (Александр Червов, к.ф.-м.н. мехмат МГУ, 25 лет math&DS, Kaggle, Scholar, Linkedin).
Чат для обсуждений: тут .
Вводный доклад тут.
Пояснения по RL части тут.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥5🍌3👍2❤‍🔥1

2.01K views10:04

Ebout Data Science | Дима Савелко

Как мы построили сервис по поиску видео контента с помощью текста

🙈

Мы командой решили написать новую статью на Habr про то, как мы создали сервис по поиску видео контента с помощью картинки - задача Text2Video Retrieval. Грубо говоря, пользователь вводит текст «собака гуляет на берегу моря», и сервис с помощью магии ИИ должен найти видео, где показано, как собака гуляет на берегу моря 🤩

Кратая суть решения состоит в том, что

💪

1️⃣ Мы собрали в БД короткие ролики
2️⃣ Описали скрины из роликов с помощью vision-language model, а QWEN-VL
3️⃣ Пользователь вводит текст «морской пейзаж при закате».

4️⃣

Encoder превращает этот текст в вектор.
5️⃣ Сервис сравнивает этот вектор с векторами из базы данных с помощью ANN.
6️⃣ Пользователь получает релевантные видео текстовому запросу.

Статья написана простыми словами, с множеством картинками с пояснениями, поэтому она мега понятная для новичков, и её может почитать даже человек не в IT 🥇

Итог:
Предлагаю вам почитать статью, буду благодарен, если оцените её знаком вверх. Мне важно от вас услышать фидбек и рекомендации по написанию других статей.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🍌7🔥4👏2⚡1

2.07K views11:28

Ebout Data Science | Дима Савелко

А шо поботать то ?

Краткий сборник того, что может вам пригодится для изучения ML / DL / NLP / CV

Machine Learning

💪

1️⃣

ML Cheatsheet Documentation - Классный конспект по классическому ML, он строгий, с формулами, с пояснениями, поэтому классно совмещать с этим конспектом по ML - с краткой, выжимкой, иллюстрациями и просто кайфовый. Два конспекта, которые прям на все сто помогут вам подготовиться к собесу

Deep Learning

💪

1️⃣

Имлпементация моделей на торче - очень классная вещь, особенно полезна, когда вы хотите понять, как работает модель изнутри

2️⃣

Визуализация архитектур и можно поиграться с ними в гугл таблице - помогает, чтобы вникнуть в неизвестные для вас архитектуры

3️⃣

The Little Book of Deep Learning by François Fleuret - База про весь DL с визуализацией, полезно для подготовки к собесам по DL.

4️⃣

Understanding Optimization of Deep Learning - База про оптимизацию, не новичкам, а бывалым ребятам

NLP

🔫

1️⃣

GPT from Scratch - Андрюха Карпатый сделал гайд о том, как с нуля сделать GPT архитектуру

2️⃣

Transformer, explained in detail - Игорь Котенков круто объяснил то, как работают трансофрмеры. Кстати если, хочешь заботать Трансформеры/LLM вот мой гайд

3️⃣

Полная история GPT - Игорь Котенков рассказал про историю развития GPT-семейста

4️⃣

База по NLP от Lena Voita - Очень хороший курс для тех, кто хочет вкатиться в NLP

5️⃣

NLP Курс от Андрея Карпатого (База) - Ожидается МЕГАКУРС от Андрюхи Карпатова, который раскроет все необходимые темы в LLM 🌟

CV

🧺

1️⃣

Жёсткий курс от Мичигансково университита по CV - Для тех, кто хочет глубоко вкатиться в CV

‼️ Ещё больше материалов находится тут, также чекайте закреп, там много полезных ссылок ‼️

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17🍌7❤‍🔥3🔥2🥰2⚡1👍1🤯1

2.42K views11:33

Ebout Data Science | Дима Савелко

Что такое HR-скринниг, и как наиболее эффективно его проходить?

HR-скринниг - это диалог с HR`ом компании. Цель данного этапа понять - подходите ли вы друг другу или нет, и стоит ли тебя впускать на следующей этап собеседования. Возможно, ваш опыт нерелевантен, или вам не нравятся условия компании.

Сначала вас вводят в курс дела и обсуждают следующие темы

📞

- Рассказ о компании
- Частично погружают в задачи
- Условия найма: удалёнка/зп
- Команда
- Бонусы

После этого задают вопросы именно тебе, чтобы понять насколько ты релевантен компании

🎧

- Опыт, просят рассказать кратко, а могут попросить более подробный рассказ
- ЗП
- Почему ушли с прошлой работы ?
- Почему ищете новую работу ?
- По каким критериям выбираете новую работу?
- Могут дать какой-нибудь блиц на дурочка, состоящий из ТОП-20 ВОПРОСОВ ПО КЛАССИК МЛ 2024 ГОДА 😊

Как наиболее эффективно его проходить?

💪

Самое главное: Дай чёткий ответ себе на вопросы сверху❗️

1. Про опыт стоит говорить так

💪

"В компании A я работал над задачей рекомендации. Бизнес-задача заключалась в том, чтобы сделать систему рекомендаций, так как это бы привлекло новых пользователей и повысило удержание на несколько процентов. Эту задачу я порешал с помощью B технологий и увеличил метрики на C процентов." - и так про каждую компанию нужно сделать рассказ, где вы работали.

2. Про заработную плату

🍑

Кратко: не говорить вилку первым, а сделать упор на том, что вы будете принимать решение о ЗП после всех полученных офферов. Более подробно читай в моём посте, в котором я рассказываю как торговаться на собесах 📈

3. Причины ухода с прошлой работы

💻

Тут у каждого своя причина: бюрократия, безопасники, долгие процессы, не те ожидания, маленькая зп и тд...

4. Причины поиска новой работы

🙈

Опять же у каждого своя причины: новые задачи, быстрые процессы, больше зп и тд...

5. Критерии выбора новой работы

🍔

У каждого могут быт свои критерии выбора: первое - деньги, второе - задачи, третье - люди и атмосфера и тд...

Итог

🧖‍♂️

Стоит просто расслабиться и с улыбкой провести скринниг. После пары собесов вы поймёте, что это однотипный этап, который вы будете щёлкать, как орешки.

Please open Telegram to view this post

VIEW IN TELEGRAM

🍌7👍5🥰4👏1

1.88K views02:01

Ebout Data Science | Дима Савелко

Как не обкакаться при старте ML-проекта (Часть 1/2)

Пространство проблем и пространство решений

❓

Когда к вам приходит бизнес и говорит "Нам нужна система рекомендаций!", то вы не должны бежать и, сломя голову, искать новые алгоритмы для решения задачи. Вы должны выдохнуть и спросить:
- Зачем она нам нужна?
- Как именно система рекомендаций будет приносить нам деньги?
- Что мы будем рекомендовать?
- Какую проблему она решает?

После ответа на данные вопросы может возникнуть такая ситуация, когда ML-алгоритм совершенно не нужен, достаточно всего лишь какого-нибудь алгоритма или эвристики, что значительно сокращает время на разработку 🍑

Перед разработкой любой ML-системы мы задаём вопрос из пространства проблем - определяется вопросами "Что?" и "Зачем?", а затем переходим в пространство решений - определяется вопросом "Как?" - средства реализации проблемы 🚶‍♀️

Пример из жизни

🤵‍♂️

Мы пилили проект по генерации коротких роликов на основе текста. Мы не залезли в пространство проблем, и как итог мы потратили кучу времени и денег, чтобы переделать проект под новые требования. Не было уточнений множества деталей и как итог, бизнес ожидал одно, а рзрабы делали совершенно другое

Итог

💪

Во время проектирования ML-системы задавайтесь вопросом "Что?" и "Зачем?", а уже после "Как?"

Материалы взяты из книги Валерия Бабушкина 😯

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18🍌4

1.87K views09:05

Ebout Data Science | Дима Савелко

Как не обкакаться при старте ML-проекта (Часть 2/2)

Очень часто в компаниях так бывает, что команды делают ML-продукт ради ML-продукта, не понимая того, что хотел заказчик, и зачем модель в целом нужна бизнесу. Обычно это происходит из-за того, что разработчики и заказчики не слышат друг друга

И тут встаёт вопрос:
А как определить проблему так, чтобы обе стороны максимально понимали друг друга?

👀

Алгоритм для того, чтобы наконец-то начать понимать и слышать друг друга:
Алгоритм похож на перевёрнутую пирамиду, которая начинается с понимания самых примитивных вещей и заканчивается более глубинными понятиями

1️⃣

Общая формулировка

💡

В самом начале мы формулируем проблему, формулировка которой будет понятна любому руководителю уровня C (СTO, CEO, ...).
Например: "В нашем приложении есть мошенники, которые пытаются атаковать наших пользователей. Если определять мошенников, то мы сможем обеспечить более надёжную безопасность приложения."

2️⃣

Задаём уточняющие вопросы

🔔

Это нужно, чтобы погрузиться в детали и конкретные проблемы, которые может решить наша система, также нужно стараться найти несоответствия в ответах и противоречия, так как это наш самый главный враг.
Например: "Что такое мошенник?", "Как он вредит?", "Вредит ли он вообще?"...

3️⃣

Задавать более узкоспециализированные вопросы

💪

Погружаемся ещё глубже и вычленяем подробную информацию и технические детали по имплементации решения.
Например: "Как мы технические определяем, что это мошенник?"

Итог

🎲

Перед написанием кода уточните с помощью данного алгоритма следующее:
- что вы хотите в целом делать
- зачем вы хотите делать
- что означают сущности, с которыми вы будете работать
И всеми возможными способами мучайте бизнес, чтобы расставить все точки над И.

Лучше потратить несколько дней на эти вопросы, нежели 3 месяца обучать модель и выкинуть её в окно (P.S. Джейсон Стейтем) 💪

Материалы взяты из книги Валерия Бабушкина 😯

Please open Telegram to view this post

VIEW IN TELEGRAM

🍌9👍7🌭2❤1

1.79K views09:05

Ebout Data Science | Дима Савелко

Дайджест ресурсов или как стать гуру в LLM, устройстве тензорах и DL парадигм

💪

1️⃣

LLM

🗯

На YouTube от 3Blue1Brown вышла понятная и короткая серия лекций LLM. В них рассказывают всю базу про их устройство, наглядно визуализируя основные механизмы.
➡️ Что такое GPT
➡️ Визуализация в трансформеров
➡️ Как работает механизм внимания, где ИИ хранит воспоминания
Вследствие этого обновил RoadMap по уничтожению LLM

2️⃣

Устройство PyTorch

👩‍💻

➡️ Доклад инженера из Facebook AI Research Эдварда Янга, который состоит из двух частей. Первая - рассматриваются различные типы данных, используемые в PyTorch, и особенности их внутренней реализации, вторая - раскрываются принципы написания собственного ядра на базе PyTorch.

➡️

The Tensor Cookbook - книга с математической базой по тензорам, там есть как и жёсткий матан, так и для людей с личной жизнью. Для людей, которые знают, что такое личная жизнь, то вам подойдут главы:

1.

Introduction

(определения, важные теоремы и общие понятия)
10.

Machine Learning Applications

(про то, как тензоры работают в привычной нам среде, оптимизацию лоссов и атеншен)
12.

Tensorgrad

(более глубоко про производные, градиенты и операции над тензорами)

3️⃣

DL-парадигмы

Ребята c Reddit пару выпустили книгу "Illustrated book to learn about Transformers & LLMs" с объяснением главных DL-парадигм в картинках. Там рассказывается про:

- База нейросетей: (перцептроны, backprop, dropout и тд)
- Эмбеддинги, токенизация, word2vec, RNN, LSTM, GRU
- Трансформеры: BERT, GTP, T5, self-attention, Encoder`ы, Decoder`ы и рекомендации по ускорению вычисления
- LLM: SFT, RLHF, промпт-инжиниринг
- бонусом рассказ про классические задачи: машинный перевод, sentiment extraction и RAG

‼️ Ещё больше материалов находится тут, также чекайте закреп, там много полезных ссылок, например RoadMap по уничтожению LLM

‼️

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15🍌6🍾2❤‍🔥1❤1👍1

2.06K viewsedited 10:14

Ebout Data Science | Дима Савелко

Оффер на 250к за месяц в СберДевайсы

💪

На моём менторстве был ученик с небольшим количеством опыта, и он пришёл с запросом найти новую работу. Спустя ОДИН месяц работы он получил оффер на 250к в СберДевайсы на жёсткую CV позицию.

Как мы с ним это сделали

❓

1️⃣

Я ему рассказал про всю базу получения оффера:
- как составлять резюме
- как вести себя с HR`ом
- как правильно готовиться к собесу
- где, как, какую и сколько информации учить
- как правильно торговаться
- как побороть страхи и не боятся ошибок и собесов

2️⃣

Сделал ему новое резюме, чтобы увеличить конверсию прохождения на HR-скриннинги

3️⃣

Провёл несколько мок-интервью по ClassicML, DL и резюме, подсветив его ошибки и дав

4️⃣

Помогал ему в теоретических и практических вопросах в Classic ML, DL и тд

По итогу моих и его усилий он прошёл несколько собесов, заучил всё про трансформеры и во снах вспоминал про изменяемые типы данных. Спустя все тяжести он стал гигачадом и получил оффер на 250к

🚶‍♀️

Конечно же, он сам бы мог пойти и искать работу, и я уверен, что нашёл бы. Но со мной его процесс ускорился в разы, помог убрать страхи и стать гигачадом, также я дал ему гарантию того, что он получит оффер, если будет прислушиваться к моим советам... Выводы делайте сами

💪

❗️

Ссылка на менторство

❗️

Please open Telegram to view this post

VIEW IN TELEGRAM

Teletype

Data Science Mentoring by Dima Savelko

Меня зовут Дима, и я ментор по Data Science / Machine Learning. Deep Learning Engineer (ClassicML, NLP/LLM) с 4-летним опытом коммерческой разработки.

🍌20🤡7⚡5❤1🔥1

2.02K viewsedited 11:34

Ebout Data Science | Дима Савелко

Как устроен этот ваш BERT

👀

В первую очередь, этот пост расчитан для новичков, для тех кто только входит в мир DS

✏️

Верхнеуровнего BERT превращает текст в цифры, то есть хавает "Я хочу пиццу", а на выходе даёт что-то типо [0.21, 0.19, 0.14, 0.12]. Эти цифры позволяют комьютеру "понимать" текст на комьютерном языке.

Теперь немного глубже. BERT основан на архитектуре, называемой трансформером. У трансформера две части: энкодер и декодер (1 картинка)

➡️

Энкодер берет текст и превращает его в числа (вектора). Это нужно для анализа текста и понимания его смысла.

➡️

Декодер берет числа и снова превращает их в текст. Например, такие модели используются для генерации ответов, как в ChatGPT.

BERT использует энкодер, что делает его топовым инструментом для таких задач как:
1️⃣ Определение тональности текста
2️⃣ Поиск похожих по смыслу предложений
3️⃣ Ответы на вопросы на основе текста

BERT обучался на двух ключевых задачах, которые помогли ему стать такой мощной моделью: (2 картинка)

1️⃣

Masked Language Modeling (MLM) — задача, при которой некоторые слова в предложении маскируются, и модель должна предсказать эти скрытые слова. Например, если мы берем предложение "Я [MASK] пиццу", модель должна угадать, что на месте [MASK] стоит слово "хочу". Это учит модель понимать контекст и связи между словами. Если угадала, то мы её хвалим, если нет, то пинаем по голове, шобы такого больше не было.

😕

2️⃣

Next Sentence Prediction (NSP) — задача предсказания следующего предложения. Модели дают два предложения, и она должна определить, логически ли они связаны. Например, если предложения: "Я хочу пиццу. Я съел деда.", модель должна понять, что они связаны по смыслу. Это учит BERT анализировать связи между предложениями и целыми текстами. Опять же, угадала - хвалим, не угадала - бьём.

💥

Модель произвела большой скачок в сфере, так как модель принесла 💪

1️⃣

Двустороннее (bidirectional) понимание контекста - Word2Vec, FastText, RNN не обладали таким же глубоким понимаем контекста, как BERT.

2️⃣

Transfer Learning - когда можешь взять эту базовую модель, заморить первые слои и обучить последние слои на свои задачи

3️⃣

Универсальность - модель способна обучаться на любых задачах связанной с текстом.

Ссылки для более глубоко понимания BERT:
- Transformer, explained in detail | Igor Kotenkov | NLP Lecture (in Russian) - советую посмотреть весь видос
- BERT Neural Network - EXPLAINED!
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- Оригинальная статья BERT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11🍌4🔥2

4.8K views12:01

2025/07/11 23:31:28
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>