tgoop.com »
United States »
Библиотека собеса по Data Science | вопросы с собеседований » Telegram Web
Когда входные значения (логиты) слишком велики по модулю, экспоненты в softmax могут привести к переполнению — например,
e^{1000}
становится слишком большим числом для компьютера.Вместо e^{z_i} считаем e^{z_i − max(z)}
Это не изменит результат, потому что одинаковое смещение в числителе и знаменателе сократится.
— Избегаем переполнения экспоненты
— Повышаем численную стабильность
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Media is too big
VIEW IN TELEGRAM
🙈 Что скрывает дисперсия: разгадка секрета точных ML-моделей
Представьте, что вы строите модель, которая прекрасно работает на тренировочных данных, но стоит подать ей новые примеры... и всё рушится. Знакомо? За этим почти всегда скрывается неправильное обращение с дисперсией.
🧐 Но что, если есть простая формула, способная:
• Мгновенно определить, насколько «разбросаны» ваши данные
• Значительно улучшить точность ваших ML-моделей
• Помочь обнаружить аномалии, которые вы раньше не замечали
В нашем вебинаре мы раскрываем все секреты дисперсии — без сложных терминов и занудных объяснений. Вы узнаете, почему дисперсия — как соль: без нее все пресно, а с переизбытком — несъедобно.
Хотите узнать, как находить идеальный баланс в своих моделях, причем тут Random Forest и много другого о Data Science?
➡️ Тогда смотрите бесплатный вебинар от Proglib: https://proglib.io/w/41b975da
Представьте, что вы строите модель, которая прекрасно работает на тренировочных данных, но стоит подать ей новые примеры... и всё рушится. Знакомо? За этим почти всегда скрывается неправильное обращение с дисперсией.
🧐 Но что, если есть простая формула, способная:
• Мгновенно определить, насколько «разбросаны» ваши данные
• Значительно улучшить точность ваших ML-моделей
• Помочь обнаружить аномалии, которые вы раньше не замечали
В нашем вебинаре мы раскрываем все секреты дисперсии — без сложных терминов и занудных объяснений. Вы узнаете, почему дисперсия — как соль: без нее все пресно, а с переизбытком — несъедобно.
Хотите узнать, как находить идеальный баланс в своих моделях, причем тут Random Forest и много другого о Data Science?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Оба метода помогают выбрать оптимальное количество кластеров (k), но делают это по-разному:
— Основан на
— При увеличении количества кластеров
— Нужно найти точку, в которой снижение становится
— Минус: нахождение локтя
— Для каждой точки рассчитывается
— Средняя оценка по всем точкам показывает
— Позволяет интерпретировать
— Часто даёт
— Метод локтя
— Метод силуэта — более
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Forwarded from Библиотека питониста | Python, Django, Flask
🖼 ТОП-5 структур данных для обработки изображений
Хотите разобраться, как обрабатывать изображения в компьютерном зрении или графике?
Всё начинается с правильных структур данных. Они помогают хранить и анализировать пиксели, их связи и расположение.
👉 В этой статье — подборка топ решений и советы, как их использовать.
Библиотека питониста
Хотите разобраться, как обрабатывать изображения в компьютерном зрении или графике?
Всё начинается с правильных структур данных. Они помогают хранить и анализировать пиксели, их связи и расположение.
Библиотека питониста
Please open Telegram to view this post
VIEW IN TELEGRAM
🆚 Как сравниваются методы перерасчёта градиента и focal loss при работе с несбалансированными классами
🔘 Focal loss добавляет коэффициент, который уменьшает вклад уже хорошо классифицированных примеров, тем самым фокусируя обучение на сложных, часто ошибочно классифицируемых объектах . Это особенно полезно, когда модель быстро обучается на «лёгких» примерах и игнорирует «трудные» .
🔘 Gradient re-scaling (пересчёт градиента с учётом частоты классов) нацелен на устранение дисбаланса между классами, регулируя вклад каждого класса в градиент . Часто это реализуется как взвешивание классов .
📍 Сравнение:
— Focal loss фокусируется насложности примеров, а не на частоте классов .
— Gradient re-scaling напрямую учитываетчастоту классов, но не различает лёгкие и трудные примеры внутри одного класса.
В задачах с сильным дисбалансом имеет смыслкомбинировать оба метода — использовать пересчёт градиентов по классам и применять focal loss, чтобы дополнительно усилить обучение на сложных примерах.
Библиотека собеса по Data Science
— Focal loss фокусируется на
— Gradient re-scaling напрямую учитывает
В задачах с сильным дисбалансом имеет смысл
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1
Для временных рядов тестовый набор обычно относится к более
⚠️ Подводный камень
Некоторые методы очистки могут
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Media is too big
VIEW IN TELEGRAM
Что объединяет успешный собес и продвинутый анализ данных? Оба требуют способности выделять главное из информационного шума!
В мире данных этот суперскилл называется методом главных компонент (PCA) — это как рентген для ваших данных, который мгновенно показывает всю суть, отбрасывая неважные детали.
Например, мы проанализировали 453 акции компаний из списка S&P 500 и выяснили, что всего одна главная компонента объясняет 38% всей динамики рынка. Как такое возможно?
Вы будете работать с реальными данными, научитесь выявлять скрытые закономерности и применять эти инсайты в своих проектах.
Стоимость: 3990 ₽
Не беспокойтесь, если теоретическая база пока хромает — вы можете заранее посмотреть запись нашего вебинара по основам по ссылке ниже.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🤔1
Стандартный автоэнкодер (AE) и вариационный автоэнкодер (VAE) оба используют нейросети для
— Детерминированный:
— Цель —
— Применения:
— Ограничения:
— Стохастический:
— Цель —
— Плюсы:
— Применения:
—
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🧮 Как избежать ловушки округления в Power BI
Твой отчет показывает разные цифры при одинаковой логике? Не спеши винить систему – это классический кейс с округлением в Power BI.
👊 Разбираемся, как типы данных влияют на точность и почему Currency может стать твоим врагом.
➡️ Подробнее в статье: https://proglib.io/sh/TcGmatdgNV
Библиотека дата-сайентиста
Твой отчет показывает разные цифры при одинаковой логике? Не спеши винить систему – это классический кейс с округлением в Power BI.
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Подходы вроде Xavier (Glorot) и Ге специально подбирают начальные веса так, чтобы
Идея в том, чтобы избежать
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1
🚀 Приручи алгоритмы: из формул в код за один воркшоп
Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.
Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.
🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.
🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.
🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.
На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.
А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.
⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽
Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.
➡️ Записаться на воркшоп: https://proglib.io/w/d295220d
Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.
Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.
🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.
🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.
🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.
На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.
А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.
⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽
Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.
➡️ Записаться на воркшоп: https://proglib.io/w/d295220d
Если метрики перестают расти, возможны несколько причин:
В таких случаях лучше поработать над
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
❓Как выбрать между filter, wrapper и embedded методами отбора признаков
⏩ Filter-методы — быстрые и простые . Подходят для предварительного отбора признаков, особенно когда нужно быстро уменьшить размерность до дальнейшего анализа .
⏩ Wrapper-методы — более точные , но затратные по вычислениям . Используются, когда важна максимальная производительность модели, и есть ресурсы на перебор комбинаций признаков .
⏩ Embedded-методы — работают вместе с обучением модели . Удобны, если модель поддерживает регуляризацию (например, Lasso, Decision Trees), так как отбор признаков происходит прямо во время обучения .
На практике часто применяюткомбинацию : сначала отфильтровывают явно нерелевантные признаки (filter) , потом wrapper или embedded на отобранных признаках .
Библиотека собеса по Data Science
На практике часто применяют
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Дисперсия — ключевой статистический показатель, который помогает оценить изменчивость данных. Для дата-сайентистов она критична при:
В этой статье разберём, как правильно использовать дисперсию в Data Science и как она влияет на работу алгоритмов, например, в модели Random Forest.
👉 Читайте, чтобы понять, как измерять и учитывать дисперсию: https://proglib.io/sh/GDKYJQdAI2
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Сильные колебания валидационной метрики могут ввести алгоритм
Вот несколько подходов:
Важно не
В реальных условиях нужно
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🔥 Завтра запускаем ML-ракету: последние места на борту
Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.
Что вас ждет:
📍 Работа с реальными данными — табличные датасеты и изображения
📍 Снижение размерности через PCA — научитесь отделять важное от второстепенного
📍 Обучение моделей — Random Forest и градиентный бустинг в действии
📍 Разбор метрик и гиперпараметров — как настроить модель на максимальную эффективность
📍 Написание кода на Python — прямо как реальных проектах
📍 Персональный code review от эксперта — бесценный фидбек для вашего роста
📍 Доступ в закрытый чат участников — нетворкинг и обмен опытом
Кто проводит воркшоп:
Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.
Стоимость участия: 3990₽
Когда: завтра, 21 апреля
👉 Забронировать место на воркшопе: https://proglib.io/w/d295220d
Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.
Что вас ждет:
Кто проводит воркшоп:
Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.
Стоимость участия: 3990₽
Когда: завтра, 21 апреля
👉 Забронировать место на воркшопе: https://proglib.io/w/d295220d
Please open Telegram to view this post
VIEW IN TELEGRAM
При использовании слоёв Batch Normalization среднее значение и дисперсия обычно вычисляются
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤4😢1
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2
Grid Search требует заранее задать набор значений для каждого гиперпараметра, поэтому важно
Обычно значения выбираются на основе:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3