tgoop.com »
United States »
Библиотека собеса по Data Science | вопросы с собеседований » Telegram Web
Что такое dropout и как он работает? Почему это важно?
Dropout — это метод, который на каждом этапе обучения случайным образом отключает определённый процент нейронов с вероятностью p. В результате, на каждой итерации обучения активны только 1-p нейронов, что помогает сети не зависеть исключительно от ограниченного числа нейронов для формирования признаков. Это создает регуляризирующий эффект, который регулируется гиперпараметром p.
Dropout — это метод, который на каждом этапе обучения случайным образом отключает определённый процент нейронов с вероятностью p. В результате, на каждой итерации обучения активны только 1-p нейронов, что помогает сети не зависеть исключительно от ограниченного числа нейронов для формирования признаков. Это создает регуляризирующий эффект, который регулируется гиперпараметром p.
Что такое иерархическая кластеризация и в каких случаях она применяется?
В отличие от обычной кластеризации, где все кластеры равноправны и располагаются на одном уровне, иерархическая кластеризация формирует вложенные кластеры, создавая древовидную структуру.
Алгоритм можно описать следующим образом:
▫️Сначала создаём столько кластеров, сколько объектов в выборке, каждый объект находится в своём собственном кластере.
▫️Затем итеративно объединяем два ближайших кластера, пока не будет достигнут критерий остановки.
В качестве критерия остановки можно использовать либо необходимое количество кластеров, либо условия, основанные на метриках расстояния между кластерами.
Полученная иерархическая структура анализируется с помощью дендрограммы. Иерархическую кластеризацию целесообразно применять в следующих случаях:
▪️если количество кластеров неизвестно,
▪️если требуется визуализировать структуру данных,
▪️если данные имеют естественную иерархическую организацию.
В отличие от обычной кластеризации, где все кластеры равноправны и располагаются на одном уровне, иерархическая кластеризация формирует вложенные кластеры, создавая древовидную структуру.
Алгоритм можно описать следующим образом:
▫️Сначала создаём столько кластеров, сколько объектов в выборке, каждый объект находится в своём собственном кластере.
▫️Затем итеративно объединяем два ближайших кластера, пока не будет достигнут критерий остановки.
В качестве критерия остановки можно использовать либо необходимое количество кластеров, либо условия, основанные на метриках расстояния между кластерами.
Полученная иерархическая структура анализируется с помощью дендрограммы. Иерархическую кластеризацию целесообразно применять в следующих случаях:
▪️если количество кластеров неизвестно,
▪️если требуется визуализировать структуру данных,
▪️если данные имеют естественную иерархическую организацию.
Когда не стоит использовать обобщённые линейные модели (GLM), такие как линейная и логистическая регрессии?
1️⃣ Если между переменными наблюдается значительная нелинейность. В таких случаях лучше рассмотреть альтернативные модели, способные учесть эти особенности.
2️⃣ Обобщённые линейные модели предполагают выполнение определённых условий: нормальность остатков, гомоскедастичность и отсутствие мультиколлинеарности. Если эти условия не соблюдаются, результаты могут оказаться ненадёжными.
3️⃣ GLM могут быть подвержены влиянию выбросов или экстремальных значений.
1️⃣ Если между переменными наблюдается значительная нелинейность. В таких случаях лучше рассмотреть альтернативные модели, способные учесть эти особенности.
2️⃣ Обобщённые линейные модели предполагают выполнение определённых условий: нормальность остатков, гомоскедастичность и отсутствие мультиколлинеарности. Если эти условия не соблюдаются, результаты могут оказаться ненадёжными.
3️⃣ GLM могут быть подвержены влиянию выбросов или экстремальных значений.
Forwarded from Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение
🤖🔧 ТОП-10 опенсорсных инструментов для работы с ИИ в 2025 году
Сделали детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году:
▪️DeepEval
▪️LangChain
▪️Flowise
▪️LiteLLM
▪️SWIRL
▪️Cognita
▪️LLMWare
▪️Letta
▪️W&B (Weights and Biases)
▪️ONNX Runtime
От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.
👉 Читать статью
Сделали детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году:
▪️DeepEval
▪️LangChain
▪️Flowise
▪️LiteLLM
▪️SWIRL
▪️Cognita
▪️LLMWare
▪️Letta
▪️W&B (Weights and Biases)
▪️ONNX Runtime
От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.
👉 Читать статью
Forwarded from Библиотека питониста | Python, Django, Flask
🐍📈 Python в 2024 году: что происходит с самым популярным языком
В 2023-2024 компания JetBrains провела масштабное исследование «внутренних» трендов в экосистеме Python и недавно поделилась результатами. Оказалось, что:
▪️Разработчики выбирают uv вместо Poetry;
▪️Контейнеры становятся самым популярным способом развертывания Python-приложений;
▪️41% питонистов имеют опыт работы с Python менее 2 лет.
Более подробно об этих и других трендах читайте в нашей статье 👈
В 2023-2024 компания JetBrains провела масштабное исследование «внутренних» трендов в экосистеме Python и недавно поделилась результатами. Оказалось, что:
▪️Разработчики выбирают uv вместо Poetry;
▪️Контейнеры становятся самым популярным способом развертывания Python-приложений;
▪️41% питонистов имеют опыт работы с Python менее 2 лет.
Более подробно об этих и других трендах читайте в нашей статье 👈
Как работает умножение списка?
Посмотрим на результат умножения списка [1,2,3] на 2:
[1,2,3] * 2
#=> [1, 2, 3, 1, 2, 3]
Содержание списка [1,2,3] повторяется дважды
Посмотрим на результат умножения списка [1,2,3] на 2:
[1,2,3] * 2
#=> [1, 2, 3, 1, 2, 3]
Содержание списка [1,2,3] повторяется дважды
Идеального контента для выходных не существует... или всё же?
Физик из Бразилии, Клаудио Пеллегрини, вычислил идеальную форму пивного бокала основываясь на математической модели, чтобы напиток дольше оставался холодным.
Выяснилось, что идеальная форма – это узкое основание, расширяющееся кверху, как у классических бокалов для пива. Это доказывает, что математика полезна не только в теории, но и в жизни.
А теперь представьте: вы на собеседовании на позицию Data Scientist. И вам дают задачу по оптимизации, и вы можете решить её за минуты. Работа – ваша!
Мы можем научить вас применять математику не только для решения задач, но и для карьерного роста. Освойте курс «Математика для Data Science» и начните путь в карьере аналитика в новом году!
🎄Начните свой 2025 со скидкой 35%. Это лучшее вложении уходящего года – https://proglib.io/w/093a99a7
Физик из Бразилии, Клаудио Пеллегрини, вычислил идеальную форму пивного бокала основываясь на математической модели, чтобы напиток дольше оставался холодным.
Выяснилось, что идеальная форма – это узкое основание, расширяющееся кверху, как у классических бокалов для пива. Это доказывает, что математика полезна не только в теории, но и в жизни.
А теперь представьте: вы на собеседовании на позицию Data Scientist. И вам дают задачу по оптимизации, и вы можете решить её за минуты. Работа – ваша!
Мы можем научить вас применять математику не только для решения задач, но и для карьерного роста. Освойте курс «Математика для Data Science» и начните путь в карьере аналитика в новом году!
🎄Начните свой 2025 со скидкой 35%. Это лучшее вложении уходящего года – https://proglib.io/w/093a99a7
Forwarded from Proglib.academy | IT-курсы
👨🏼💻💼 5 возможных причин провала проектов в Data Science
Рассказываем в нашей статье о самых частых проблемах в реализации проектов с большими данными, которые могут привести к провалу.
🔗 Ссылка на статью
Забирайте курс и не проваливайте свои проекты:
🔵 Математика для Data Science
Рассказываем в нашей статье о самых частых проблемах в реализации проектов с большими данными, которые могут привести к провалу.
Забирайте курс и не проваливайте свои проекты:
Please open Telegram to view this post
VIEW IN TELEGRAM
📊 Построение DWH и разработка дашбордов в Power BI: 5 проблем и их решение
В современном мире данные являются одним из ключевых ресурсов для принятия обоснованных решений и успешной работы компании. Поэтому создание и поддержание эффективного хранилища данных становится важной задачей для многих организаций.
В этой статье Ипатов Александр, backend-разработчик в компании USETECH, рассматривает на конкретном примере проблемы и их решение при построении DWH и дальнейшей разработке дашбордов в Power BI. Вас ждет история о том, как превратить хаос данных в работающую бизнес-аналитику.
👉 Читать статью
👉 Зеркало
В современном мире данные являются одним из ключевых ресурсов для принятия обоснованных решений и успешной работы компании. Поэтому создание и поддержание эффективного хранилища данных становится важной задачей для многих организаций.
В этой статье Ипатов Александр, backend-разработчик в компании USETECH, рассматривает на конкретном примере проблемы и их решение при построении DWH и дальнейшей разработке дашбордов в Power BI. Вас ждет история о том, как превратить хаос данных в работающую бизнес-аналитику.
👉 Читать статью
👉 Зеркало
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Как сделать модель более устойчивой к выбросам?
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика
Здесь можно подойти с двух сторон: преобразовать данные или особым образом построить модель.
Выбросы обычно определяются по отношению к распределению данных. Их можно удалить на этапе предварительной обработки, используя статистические методы. Самый простой подход — считать аномальными значения, которые находятся слишком далеко от среднего выборки. Иногда может помочь преобразование данных (например, логарифмическое преобразование).
Ещё один способ уменьшения влияния выбросов — использование средней абсолютной ошибки вместо среднеквадратичной ошибки. Что касается моделей, то устойчивыми к выбросам можно считать деревья решений.
#машинное_обучение
#статистика
Что бы вы хотели получить в качестве подарка в розыгрыше?
Anonymous Poll
14%
Книги по разработке
14%
IT-курсы
10%
Карьерные консультации, чтобы получить оффер мечты
31%
Компьютер или ноутбук
11%
Мощные комплектующие для ПК
1%
Игровая приставка
4%
Гаджеты для дома: робот-пылесос, проектор и т. д.
6%
Подписки на GitHub Copilot, JetBrains, LinkedIn Premium и т. д.
9%
Оплаченная поездка на IT-конференцию или хакатон
1%
Другой вариант (напишу в комментариях)
Forwarded from Библиотека тестировщика | QA, тестирование, quality assurance, manual testing, autotesting, ручное тестирование, автотесты
Даже самые целеустремлённые и дисциплинированные разработчики порой сталкиваются с периодами прокрастинации. Это состояние чаще вызвано глубокими причинами, чем просто нежеланием работать. Делимся личной историей разработчика, сумевшего преодолеть прокрастинацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎄 Начни 2025-й с апгрейдом навыков,
которые откроют двери в мир IT!
Ты можешь собрать свой персональный план обучения с помощью нашего новогоднего конструктора. Это шанс не просто начать год с полезных знаний, но и сделать инвестицию в своё будущее, которая окупится многократно.
🔗 Собери свой план и начни путь в IT
Почему это выгодно?
📚 Несколько программ по цене одной — максимальная эффективность: учишься сразу тому, что действительно нужно.
💾 Бессрочный доступ — все материалы всегда под рукой, чтобы учиться в своём темпе.
💸 Знания, которые окупятся — навыки, востребованные в любой точке мира.
Какие навыки ты можешь прокачать?
💡 Математика для Data Science + Алгоритмы и структуры данных
— Подготовка к собеседованиям в FAANG и поступлению в ШАД. Решай сложные задачи, работай с данными и моделями на профессиональном уровне.
💡 Алгоритмы и структуры данных + ML
— Улучшай своё алгоритмическое мышление и изучай базовые методы машинного обучения, чтобы создавать интеллектуальные приложения.
💡 Frontend Basic + Базовые модели ML
— Построй свою первую веб-страницу и погрузись в мир ML: от нейросетей до ML-бустинга.
💡 Архитектуры и шаблоны проектирования + Математика для Data Science
— Развивай аналитическое мышление и учись проектировать устойчивые системы.
💡 Алгоритмы и структуры данных + Frontend Basic
— Получи полный набор навыков: от оптимизации алгоритмов до создания современных веб-приложений.
Не упусти шанс сделать шаг в будущее! Новый год — это время обновлений, и твоя карьера может стать одним из них.
🔗 Составь свой IT-маршрут сейчас или выбери курс по новогодней скидке
которые откроют двери в мир IT!
Ты можешь собрать свой персональный план обучения с помощью нашего новогоднего конструктора. Это шанс не просто начать год с полезных знаний, но и сделать инвестицию в своё будущее, которая окупится многократно.
🔗 Собери свой план и начни путь в IT
Почему это выгодно?
📚 Несколько программ по цене одной — максимальная эффективность: учишься сразу тому, что действительно нужно.
💾 Бессрочный доступ — все материалы всегда под рукой, чтобы учиться в своём темпе.
💸 Знания, которые окупятся — навыки, востребованные в любой точке мира.
Какие навыки ты можешь прокачать?
💡 Математика для Data Science + Алгоритмы и структуры данных
— Подготовка к собеседованиям в FAANG и поступлению в ШАД. Решай сложные задачи, работай с данными и моделями на профессиональном уровне.
💡 Алгоритмы и структуры данных + ML
— Улучшай своё алгоритмическое мышление и изучай базовые методы машинного обучения, чтобы создавать интеллектуальные приложения.
💡 Frontend Basic + Базовые модели ML
— Построй свою первую веб-страницу и погрузись в мир ML: от нейросетей до ML-бустинга.
💡 Архитектуры и шаблоны проектирования + Математика для Data Science
— Развивай аналитическое мышление и учись проектировать устойчивые системы.
💡 Алгоритмы и структуры данных + Frontend Basic
— Получи полный набор навыков: от оптимизации алгоритмов до создания современных веб-приложений.
Не упусти шанс сделать шаг в будущее! Новый год — это время обновлений, и твоя карьера может стать одним из них.
🔗 Составь свой IT-маршрут сейчас или выбери курс по новогодней скидке
В каких случаях лучше не использовать momentum в оптимизации?
Добавление momentum к градиентному спуску позволяет повысить его устойчивость и избегать маленьких локальных минимумов/максимумов. Однако есть случаи, когда его использование может быть нецелесообразным.
В частности, когда модель склонна к переобучению, использование momentum может ускорить этот процесс. Кроме того, на участках, где функция ошибки имеет плато (то есть изменения градиента минимальны или отсутствуют), momentum может затруднить выход из этих областей.
В каждом из этих случаев стоит рассмотреть альтернативные методы оптимизации или тщательнее настраивать гиперпараметры модели для достижения оптимального результата.
Добавление momentum к градиентному спуску позволяет повысить его устойчивость и избегать маленьких локальных минимумов/максимумов. Однако есть случаи, когда его использование может быть нецелесообразным.
В частности, когда модель склонна к переобучению, использование momentum может ускорить этот процесс. Кроме того, на участках, где функция ошибки имеет плато (то есть изменения градиента минимальны или отсутствуют), momentum может затруднить выход из этих областей.
В каждом из этих случаев стоит рассмотреть альтернативные методы оптимизации или тщательнее настраивать гиперпараметры модели для достижения оптимального результата.
Как быть с категориальными предикторами при построении линейной регрессии?
Их, конечно, нужно привести к числовому виду. Как именно это сделать, нужно решать, исходя из вида категориальной переменной.
▫️ Номинальная.
У таких переменных нет естественного порядка, и они обычно представляют собой различные категории, такие как цвета, пол и т.д. Для кодирования номинальных переменных чаще всего используется метод one-hot кодирования. При этом каждая категория представляется отдельной бинарной переменной (столбцом), где 1 означает наличие этого признака, а 0 — его отсутствие.
▫️ Порядковая.
Такие переменные имеют естественный порядок, например, оценки уровня образования или уровни удовлетворённости. Для таких переменных можно использовать порядковое кодирование, где каждая категория получает числовое значение, отражающее её ранг. Например, «низкий», «средний» и «высокий» уровень удовлетворенности можно закодировать как 1, 2 и 3 соответственно.
#машинное_обучение
Их, конечно, нужно привести к числовому виду. Как именно это сделать, нужно решать, исходя из вида категориальной переменной.
▫️ Номинальная.
У таких переменных нет естественного порядка, и они обычно представляют собой различные категории, такие как цвета, пол и т.д. Для кодирования номинальных переменных чаще всего используется метод one-hot кодирования. При этом каждая категория представляется отдельной бинарной переменной (столбцом), где 1 означает наличие этого признака, а 0 — его отсутствие.
▫️ Порядковая.
Такие переменные имеют естественный порядок, например, оценки уровня образования или уровни удовлетворённости. Для таких переменных можно использовать порядковое кодирование, где каждая категория получает числовое значение, отражающее её ранг. Например, «низкий», «средний» и «высокий» уровень удовлетворенности можно закодировать как 1, 2 и 3 соответственно.
#машинное_обучение
Расскажите, что вы знаете о генеративно-состязательных сетях (GAN)?
Генеративно-состязательные сети представляют собой обширный класс генеративных моделей, которые обучаются в паре с другой сетью, стремящейся отличить сгенерированные объекты от реальных.
Для иллюстрации принципа работы GAN часто используют аналогию с фальшивомонетчиком и полицейским. В этой метафоре фальшивомонетчик пытается создать купюры, которые не сможет распознать полицейский, в то время как полицейский, в свою очередь, учится различать подделки от настоящих денег.
GAN состоят из двух основных компонентов: генератора (фальшивомонетчика) и дискриминатора (полицейского). Генератор обучается создавать данные, максимально похожие на те, что содержатся в обучающем наборе, тогда как дискриминатор выполняет роль классификатора, пытаясь различить реальные данные и те, что были сгенерированы. Каждому реальному образцу и его подделке присваивается вероятность, отражающая степень их принадлежности к реальным данным.
Генеративно-состязательные сети представляют собой обширный класс генеративных моделей, которые обучаются в паре с другой сетью, стремящейся отличить сгенерированные объекты от реальных.
Для иллюстрации принципа работы GAN часто используют аналогию с фальшивомонетчиком и полицейским. В этой метафоре фальшивомонетчик пытается создать купюры, которые не сможет распознать полицейский, в то время как полицейский, в свою очередь, учится различать подделки от настоящих денег.
GAN состоят из двух основных компонентов: генератора (фальшивомонетчика) и дискриминатора (полицейского). Генератор обучается создавать данные, максимально похожие на те, что содержатся в обучающем наборе, тогда как дискриминатор выполняет роль классификатора, пытаясь различить реальные данные и те, что были сгенерированы. Каждому реальному образцу и его подделке присваивается вероятность, отражающая степень их принадлежности к реальным данным.
Какие метрики для оценки схожести текстов вам известны?
Метрики близости текстов можно условно разделить на два типа: лексические и семантические.
🔹 Лексические
— Сходство Жаккара (Jaccard similarity)
Это простая метрика, которая вычисляется следующим образом: берутся две последовательности A и B, определяются общие элементы, и их количество делится на общее количество элементов в обеих последовательностях.
🔹 Семантические
— Косинусное сходство (cosine similarity)
Эта метрика измеряет косинус угла между двумя векторами, которые представляют тексты в векторном пространстве (часто используется векторизация TF-IDF).
— Евклидово расстояние (euclidean distance)
Измеряет кратчайшее расстояние между двумя точками в евклидовой геометрии. Для этого также требуется предварительная векторизация текстов.
Метрики близости текстов можно условно разделить на два типа: лексические и семантические.
🔹 Лексические
— Сходство Жаккара (Jaccard similarity)
Это простая метрика, которая вычисляется следующим образом: берутся две последовательности A и B, определяются общие элементы, и их количество делится на общее количество элементов в обеих последовательностях.
🔹 Семантические
— Косинусное сходство (cosine similarity)
Эта метрика измеряет косинус угла между двумя векторами, которые представляют тексты в векторном пространстве (часто используется векторизация TF-IDF).
— Евклидово расстояние (euclidean distance)
Измеряет кратчайшее расстояние между двумя точками в евклидовой геометрии. Для этого также требуется предварительная векторизация текстов.