tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
🦆 Освоение DuckDB для тех, кто привык к pandas или Polars
Вы, возможно, слышали о впечатляющей надежности и производительности DuckDB. Возможно, вы хотите его попробовать, НО ПОГОДИТЕ! Вы — дата-сайентист и привыкли к pandas или Polars, а не к SQL. Вы умеете пользоваться SELECT, JOIN и GROUP BY, но не многим больше.
И теперь у вас вопрос: возможно ли использовать SQL для выполнения таких задач, как:
✔️ Центрирование переменной (т.е. вычитание её среднего значения)?
✔️ Ресемплирование по времени?
✔️ Вычисление скользящих статистик?
Не только возможно, но и довольно просто! Давайте разберёмся, как реализовать основные операции с датафреймами в SQL.
Вы, возможно, слышали о впечатляющей надежности и производительности DuckDB. Возможно, вы хотите его попробовать, НО ПОГОДИТЕ! Вы — дата-сайентист и привыкли к pandas или Polars, а не к SQL. Вы умеете пользоваться SELECT, JOIN и GROUP BY, но не многим больше.
И теперь у вас вопрос: возможно ли использовать SQL для выполнения таких задач, как:
✔️ Центрирование переменной (т.е. вычитание её среднего значения)?
✔️ Ресемплирование по времени?
✔️ Вычисление скользящих статистик?
Не только возможно, но и довольно просто! Давайте разберёмся, как реализовать основные операции с датафреймами в SQL.
👍8❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 Топ-5 библиотек для объяснения ML моделей
🟢 SHAP (Shapley Additive Explanations)
Один из самых популярных методов объяснения модели на основе вкладов признаков.
🟢 LIME (Local Interpretable Model-agnostic Explanations)
Модель-агностичный подход, который обучает локальную интерпретируемую модель вокруг конкретного предсказания.
🟢 Eli5 (Explain Like I’m Five)
Упрощённое объяснение сложных ML-моделей, поддержка scikit-learn, Keras и других фреймворков.
🟢 AI Explainability 360 (AIX360)
Библиотека от IBM для объяснения моделей на различных типах данных: табличных, текстовых, изображениях и временных рядах.
🟢 InterpretML
Инструмент от Microsoft, который включает как интерпретируемые «прозрачные» модели, так и объяснители для «чёрных ящиков».
🟢 SHAP (Shapley Additive Explanations)
Один из самых популярных методов объяснения модели на основе вкладов признаков.
🟢 LIME (Local Interpretable Model-agnostic Explanations)
Модель-агностичный подход, который обучает локальную интерпретируемую модель вокруг конкретного предсказания.
🟢 Eli5 (Explain Like I’m Five)
Упрощённое объяснение сложных ML-моделей, поддержка scikit-learn, Keras и других фреймворков.
🟢 AI Explainability 360 (AIX360)
Библиотека от IBM для объяснения моделей на различных типах данных: табличных, текстовых, изображениях и временных рядах.
🟢 InterpretML
Инструмент от Microsoft, который включает как интерпретируемые «прозрачные» модели, так и объяснители для «чёрных ящиков».
🔥6👍3❤1
TSFRESH: автоматическое извлечение признаков из временных рядов
📌 TSFRESH (Time Series Feature extraction based on scalable hypothesis tests) — это мощная библиотека для автоматического извлечения признаков из временных рядов.
🔹 Использует алгоритмы из статистики, анализа временных рядов, обработки сигналов и нелинейной динамики.
🔹 Позволяет анализировать не только временные ряды в классическом понимании, но и любые последовательности событий.
🔹 Включает встроенный механизм отбора релевантных признаков.
Ссылка на проект: https://clc.to/TntpNw
📌 TSFRESH (Time Series Feature extraction based on scalable hypothesis tests) — это мощная библиотека для автоматического извлечения признаков из временных рядов.
🔹 Использует алгоритмы из статистики, анализа временных рядов, обработки сигналов и нелинейной динамики.
🔹 Позволяет анализировать не только временные ряды в классическом понимании, но и любые последовательности событий.
🔹 Включает встроенный механизм отбора релевантных признаков.
Ссылка на проект: https://clc.to/TntpNw
👍7❤1
🚀 Что должны уметь супергерои Data Science?
Data Science — это такая область, где требуется баланс между программированием, математикой и исследовательской работой. В разных компаниях ожидания от дата-саентистов могут сильно различаться: кто-то требует глубоких знаний в математике, а кто-то больше акцентирует внимание на навыках разработки. В любом случае, хороший код — это основа работы каждого супергероя DS.
Хотите узнать, как развивать навыки дата-саентиста, работать с командой и интегрировать решения с коммерческой и продуктовой разработкой?
Ответ в статье: https://clc.to/3o7TpA
Data Science — это такая область, где требуется баланс между программированием, математикой и исследовательской работой. В разных компаниях ожидания от дата-саентистов могут сильно различаться: кто-то требует глубоких знаний в математике, а кто-то больше акцентирует внимание на навыках разработки. В любом случае, хороший код — это основа работы каждого супергероя DS.
Хотите узнать, как развивать навыки дата-саентиста, работать с командой и интегрировать решения с коммерческой и продуктовой разработкой?
Ответ в статье: https://clc.to/3o7TpA
❤1
🤖 AI + собеседования = новый тренд?
Недавний опрос показал, что каждый десятый россиянин уже использует AI, чтобы подготовиться к собеседованию!
🔹 Лидеры — ChatGPT и GigaChat: помогают оформить резюме и сопроводительное письмо.
🔹 AI для тренировки интервью пока используют реже.
🔹 60% уверены, что нейросети реально помогают.
🔹 Но есть опасения, что AI может завышать реальные навыки.
💥 И вот пример, как AI уже меняет рынок труда:
Чунгин Ли, студент Колумбийского университета, создал InterviewCoder — AI-приложение для прохождения технических собеседований.
✔️ Стартап приносит $30K в месяц!
✔️ Он протестировал его на собеседовании в Amazon и получил офер!
✔️ Рассказал об этом в Twitter, собрал кучу просмотров, но…
✔️ Amazon разозлился, пожаловался в его университет, и теперь Чунгина могут отчислить.
Как думаете, это гениальный лайфхак или обман работодателей?
Недавний опрос показал, что каждый десятый россиянин уже использует AI, чтобы подготовиться к собеседованию!
🔹 Лидеры — ChatGPT и GigaChat: помогают оформить резюме и сопроводительное письмо.
🔹 AI для тренировки интервью пока используют реже.
🔹 60% уверены, что нейросети реально помогают.
🔹 Но есть опасения, что AI может завышать реальные навыки.
💥 И вот пример, как AI уже меняет рынок труда:
Чунгин Ли, студент Колумбийского университета, создал InterviewCoder — AI-приложение для прохождения технических собеседований.
✔️ Стартап приносит $30K в месяц!
✔️ Он протестировал его на собеседовании в Amazon и получил офер!
✔️ Рассказал об этом в Twitter, собрал кучу просмотров, но…
✔️ Amazon разозлился, пожаловался в его университет, и теперь Чунгина могут отчислить.
Как думаете, это гениальный лайфхак или обман работодателей?
👍6❤1😁1
✅ Промпт для обучения модели классификации
Хотите быстро натренировать ML-модель для классификации? Используйте этот промпт:
Попробуйте и расскажите, какие результаты получили!
Библиотека дата-сайентиста #буст
Хотите быстро натренировать ML-модель для классификации? Используйте этот промпт:
I have a dataset that contains [describe the dataset: type, structure, source, and key features]. The dataset consists of [number of rows] rows and [number of columns] columns. The features include [list of key features], and the target variable is [target feature].
Please build a machine learning model that predicts [target feature] using appropriate preprocessing, feature engineering, and model selection.
Попробуйте и расскажите, какие результаты получили!
Библиотека дата-сайентиста #буст
👍3❤1
Forwarded from Proglib.academy | IT-курсы
🧮🔠 Математика в действии: решаем хитрые задачи по прогнозированию, оптимизации и логике
Статья, которая поможет развить навыки решения задач с помощью математики.
➡️ Вот что вас ждет
1️⃣ Прогнозирование численности населения — используем цепи Маркова для предсказания миграций между городом и пригородами.
2️⃣ Минимизация затрат — находим минимальное скалярное произведение векторов для оптимального распределения задач между работниками.
3️⃣ Машина времени — решаем задачу максимального числа пересекающихся временных интервалов с помощью заметающей прямой.
4️⃣ Алгоритм Целлера — вычисляем день недели по дате. Проверка на практике.
🔵 Хочешь прокачаться в математике для ML? Тогда разбирайся с этими задачами и не упусти вебинар: «Математика для ML: от теории к практике».
👉 Читать статью
Статья, которая поможет развить навыки решения задач с помощью математики.
👉 Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3😁2
😍 Подборка 25 полезных и бесплатных ресурсов для аналитиков
Если ты сомневаешься, стоит ли тратить время на освоение статистических методов и других сложных тем аналитики, начни с бесплатных курсов. Это отличный способ:
👍 Получить крепкую базу знаний, которая поможет понять, стоит ли углубляться дальше.
👍 Получить сертификаты, которые могут быть полезны для твоего резюме, особенно если опыта пока нет.
Ссылка на ресурсы: https://clc.to/4p3g-g
Библиотека дата-сайентиста #буст
Если ты сомневаешься, стоит ли тратить время на освоение статистических методов и других сложных тем аналитики, начни с бесплатных курсов. Это отличный способ:
👍 Получить крепкую базу знаний, которая поможет понять, стоит ли углубляться дальше.
👍 Получить сертификаты, которые могут быть полезны для твоего резюме, особенно если опыта пока нет.
Ссылка на ресурсы: https://clc.to/4p3g-g
Библиотека дата-сайентиста #буст
👍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 How to: как настроить Gradient Boosting
Не выбирайте слишком много гиперпараметров. Достаточно этих пяти:
✔️ learning rate, глубина деревьев, количество деревьев, subsample ratio, L1/L2-регуляризация.
Учитывайте взаимосвязь параметров:
✔️ Меньший learning rate → нужно больше деревьев.
✔️ Глубокие деревья → нужен меньший learning rate.
Как настраивать:
✔️ Фиксируем 500–1000 деревьев.
✔️ Тюним learning rate, глубину и другие параметры.
✔️ Используем раннюю остановку (15–20 итераций без улучшений).
Полезные рекомендации:
✔️ Learning rate: 0.001–0.05, по умолчанию 0.01.
✔️ Размер датасета: для маленьких → деревья 1–3, для больших → 4–6.
✔️ Регуляризация: L2 — для коррелированных фич, L1 — для отбора важных.
✔️ subsample: 0.1–0.7, по умолчанию 0.5.
✔️ k-fold CV обязателен, для временных рядов — nested sliding CV.
🔥 Какой совет был полезен? Делитесь!
Библиотека дата-сайентиста #буст
Не выбирайте слишком много гиперпараметров. Достаточно этих пяти:
✔️ learning rate, глубина деревьев, количество деревьев, subsample ratio, L1/L2-регуляризация.
Учитывайте взаимосвязь параметров:
✔️ Меньший learning rate → нужно больше деревьев.
✔️ Глубокие деревья → нужен меньший learning rate.
Как настраивать:
✔️ Фиксируем 500–1000 деревьев.
✔️ Тюним learning rate, глубину и другие параметры.
✔️ Используем раннюю остановку (15–20 итераций без улучшений).
Полезные рекомендации:
✔️ Learning rate: 0.001–0.05, по умолчанию 0.01.
✔️ Размер датасета: для маленьких → деревья 1–3, для больших → 4–6.
✔️ Регуляризация: L2 — для коррелированных фич, L1 — для отбора важных.
✔️ subsample: 0.1–0.7, по умолчанию 0.5.
✔️ k-fold CV обязателен, для временных рядов — nested sliding CV.
🔥 Какой совет был полезен? Делитесь!
Библиотека дата-сайентиста #буст
👍10❤1🥰1🤩1
Отобрали для вас полезные и проверенные каналы для программистов — в них вы найдете все самое интересное, от технических новостей до практических гайдов.
IT Job Hub | Работа и вакансии в IT — избранные IT-вакансии
Библиотека программиста — новости из мира IT и технологий
Книги для программистов — самые годные книги по любым языкам и стекам
IT-мемы — мемы про жизу айтишника
Proglib Academy — обучение и курсы, чтобы стать топовым специалистом
Азбука айтишника — азы из мира разработки
Библиотека нейросетей — лайфхаки и промпты для разных задач, баттлы нейронок и новости из мира ИИ
Библиотека фронтендера — все о JS, React, Angular и не только
Библиотека мобильного разработчика — лайфхаки и новости из мира Swift и Kotlin
Библиотека хакера — уязвимости, атаки, бэкдоры и как от них защититься
Библиотека тестировщика — самое интересное о том, как крашить код
🦫 Go
Библиотека Go-разработчика
Библиотека задач по Go
Библиотека Go для собеса
Вакансии по Go
#️⃣ C#
Библиотека шарписта
Библиотека задач по C#
Библиотека собеса по C#
Вакансии по C#
🔧 DevOps
Библиотека devops’а
Библиотека задач по DevOps
Библиотека собеса по DevOps
Вакансии по DevOps & SRE
🐘 PHP
Библиотека пхпшника
Библиотека задач по PHP
Библиотека PHP для собеса
Вакансии по PHP, Symfony, Laravel
🐍 Python
Библиотека питониста
Библиотека Python для собеса
Библиотека задач по Python
Вакансии по питону, Django, Flask
☕️ Java
Библиотека джависта
Библиотека задач по Java
Библиотека Java для собеса
Вакансии по Java
📊 Data Science
Библиотека дата-сайентиста
Библиотека задач по Data Science
Библиотека Data Science для собеса
Вакансии по Data Science
🎮 C++
Библиотека C/C++ разработчика
Библиотека задач по C++
Библиотека C++ для собеса
Вакансии по C++
Подписывайтесь на интересные вам каналы и сохраняйте пост в закладки, чтобы не потерять 🔑
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
🤔 Математика vs библиотеки: что важнее для Data Scientist?
Представьте задачу, которую нужно решить быстро. В одном случае вы углубляетесь в алгоритмы и теоремы, в другом — используете библиотеки для быстрого решения.
Что важнее в реальной работе: глубокое понимание математики или способность быстро применять библиотеки?
👍 — Математика решает, без неё в DS никуда
❤️ — Достаточно библиотек, главное — практика
🔥 — Комбинированный подход: баланс важен
Библиотека дата-сайентиста #междусобойчик
Представьте задачу, которую нужно решить быстро. В одном случае вы углубляетесь в алгоритмы и теоремы, в другом — используете библиотеки для быстрого решения.
Что важнее в реальной работе: глубокое понимание математики или способность быстро применять библиотеки?
👍 — Математика решает, без неё в DS никуда
❤️ — Достаточно библиотек, главное — практика
🔥 — Комбинированный подход: баланс важен
Библиотека дата-сайентиста #междусобойчик
🔥57👍15❤3
🔹 Фишка Shapiq: Shapley Interactions для машинного обучения
Shapiq — новая библиотека, которая расширяет возможности популярной библиотеки SHAP, добавляя возможность количественного анализа взаимодействий признаков, данных или слабых моделей в ансамблях. Это позволяет глубже понять, как модель принимает решения.
Удобный способ визуализации взаимодействий признаков (до второго порядка) — графовые диаграммы. На таком графике:
🔹 Узлы представляют значимость отдельных признаков.
🔹 Ребра показывают силу их взаимодействий.
🔹 Размер узлов и рёбер пропорционален абсолютным значениям атрибуций и взаимодействий.
Пример кода:
🔗 Репозиторий: https://clc.to/JSHqLA
Библиотека дата-сайентиста #буст
Shapiq — новая библиотека, которая расширяет возможности популярной библиотеки SHAP, добавляя возможность количественного анализа взаимодействий признаков, данных или слабых моделей в ансамблях. Это позволяет глубже понять, как модель принимает решения.
Удобный способ визуализации взаимодействий признаков (до второго порядка) — графовые диаграммы. На таком графике:
🔹 Узлы представляют значимость отдельных признаков.
🔹 Ребра показывают силу их взаимодействий.
🔹 Размер узлов и рёбер пропорционален абсолютным значениям атрибуций и взаимодействий.
Пример кода:
shapiq.network_plot(first_order_values=interaction_values.get_n_order_values(1),second_order_values=interaction_values.get_n_order_values(2))
# или
interaction_values.plot_network()
🔗 Репозиторий: https://clc.to/JSHqLA
Библиотека дата-сайентиста #буст
❤1👍1🔥1
🔍 Концепция дня: LIME в ML
Прогнозировать — круто, но понимать, почему модель приняла решение, ещё важнее!
LIME (Local Interpretable Model-agnostic Explanations) помогает объяснять работу моделей, даже если они сложные.
Как это работает?
1. Берём данные и их предсказание.
2. Генерируем похожие данные, меняя признаки.
3. Получаем предсказания модели.
4. Обучаем простую линейную модель, чтобы выделить важные признаки.
Для чего подходит?
✔️ Таблицы → добавляем шум к непрерывным признакам или меняем категориальные значения.
✔️ Текст → случайным образом удаляем слова.
✔️ Изображения → создаём суперпиксели и отключаем их для оценки вклада.
Библиотека дата-сайентиста #буст
Прогнозировать — круто, но понимать, почему модель приняла решение, ещё важнее!
LIME (Local Interpretable Model-agnostic Explanations) помогает объяснять работу моделей, даже если они сложные.
Как это работает?
1. Берём данные и их предсказание.
2. Генерируем похожие данные, меняя признаки.
3. Получаем предсказания модели.
4. Обучаем простую линейную модель, чтобы выделить важные признаки.
Для чего подходит?
✔️ Таблицы → добавляем шум к непрерывным признакам или меняем категориальные значения.
✔️ Текст → случайным образом удаляем слова.
✔️ Изображения → создаём суперпиксели и отключаем их для оценки вклада.
Библиотека дата-сайентиста #буст
❤5🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
А вы говорите «спасибо» ChatGPT?
❤️ — Конечно, вдруг пощадит при восстании машин.
⚡ — Нет, пусть учится писать короче, понятнее, как человек.
Библиотека дата-сайентиста #развлекалово
❤️ — Конечно, вдруг пощадит при восстании машин.
⚡ — Нет, пусть учится писать короче, понятнее, как человек.
Библиотека дата-сайентиста #развлекалово
❤34⚡9😁4💯1
Forwarded from Библиотека джависта | Java, Spring, Maven, Hibernate
Сегодня отмечаем вклад девушек-разработчиков, аналитиков, тестировщиков, тимлидов и всех, кто влюблён в код. Без вас IT не было бы таким, каким мы его знаем. С праздником, коллеги 💐
Женщины оставили огромный след в истории IT. Если вам кажется, что программирование — это исключительно «мужская территория», взгляните, вот лишь несколько легендарных женщин:
🔹 Ада Лавлейс — автор первой компьютерной программы ещё в 19 веке.
🔹 Грейс Хоппер — создала первый компилятор и популяризировала термин «баг».
🔹 Барбара Лисков — её принцип Liskov Substitution является основой ООП, в том числе в Java.
🔹 Эдит Кларк — первая женщина-инженер, внесшая вклад в вычислительные методы в энергетике.
🔹 Маргарет Гамильтон — разработала софт для посадки «Аполлона-11» на Луну.
А это только малая часть. В статье собраны ещё больше вдохновляющих историй.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍2🔥1🥰1🤩1