Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6411

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❓

Вопросы подписчиков: как запомнить детали ML-алгоритмов для собеседований?

Сегодня делимся вопросом от нашего подписчика, который готовится к собеседованию на позицию в топовую компанию.

💬 Вот что он пишет:

«Я сейчас готовлюсь к собеседованиям, но сталкиваюсь с проблемой в технических раундах по ML. Изучаю ISLR, делаю заметки, но не могу эффективно запомнить все детали алгоритмов. Прошло много времени с тех пор, как я углубленно изучал алгоритмы машинного обучения в университете. Как мне лучше готовиться к собеседованиям по ML, чтобы уверенно отвечать на вопросы? Как укрепить знания и эффективно запомнить алгоритмы?»

➡️ Какие у вас есть стратегии для запоминания алгоритмов и концепций ML?

➡️ Как закрепить материал и не перегрузиться?

💡 Поделитесь советами и личным опытом в комментариях!
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2🔥2

1.96K viewsedited 17:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🛠 Команда дня: ускоряем динамический инференс

▶️ Проблема: у модели меняется размер входов — обычно это мешает трассировке и оптимизации.

✅ Решение: torch.jit.trace умеет кэшировать разные формы входов. TorchScript сохраняет шаблоны и переиспользует их, ускоряя инференс без потерь гибкости.

Пример:

import torch
from torch import nn

# Простая нейросеть
model = nn.Sequential(
    nn.Linear(128, 64),
    nn.ReLU(),
    nn.Linear(64, 10)
)

# Пример входа для трассировки
example_input = torch.randn(1, 128)

# Трассировка модели — включаем TorchScript
traced_model = torch.jit.trace(model, example_input)

# Первый вызов с новым размером — форма кэшируется
output1 = traced_model(torch.randn(32, 128))

# Второй вызов с такой же формой — используется кэш
output2 = traced_model(torch.randn(32, 128))

# Новый батч — снова кэшируется
output3 = traced_model(torch.randn(64, 128))

➡️

Что это даёт:
• Ускорение инференса за счёт shape specialization
• Гибкость — не нужно фиксировать размер входа
• TorchScript автоматически переиспользует кэш при повторении формы

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2⚡1👏1

1.79K viewsedited 07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека программиста | программирование, кодинг, разработка

🧠⚡️👟 Странные, но эффективные лайфхаки для продуктивности

Иногда самые действенные способы повысить продуктивность звучат как полный бред. Но это работает! Пользователи Reddit делятся своими «тупо-звучащими-но-реально-помогающими» секретами, которые помогут тебе наконец-то перестать прокрастинировать и начать делать дела.

ТОП-советы от пользователей Reddit — в нашей статье.

🐸

Библиотека программиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

1.71K views10:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐶

Лучшие материалы по Data Science в одной подборке

Собрали топовые материалы, которые наши подписчики сохраняют чаще всего.

Эту подборку мы будем регулярно пополнять, поэтому сохраняйте тонну пользы, чтобы не потерять!

1. 25 самых важных математических определений в Data Science

2. Machine Learning Crash Course — бесплатный курс от Google обновился

3. SQL для дата-сайентиста за 6 недель

4. PandasAI — библиотека для исследования данных с помощью естественного языка

5. Какие навыки нужны Data Scientist'у и как их освоить

6. Ликбез по теореме Байеса

7. Подробный гайд по описательной статистике

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

2.29K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека дата-сайентиста #развлекалово

😁8💯2

2.05K views08:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Холивар: Jupyter Notebook — «мертв» или «живее всех живых»?

С каждым годом всё больше говорят, что Jupyter — «игрушка для новичков», «ад для reproducibility», «debug невозможен», и ему нет места в продакшне. Но с другой стороны — это удобство, интерактивность и быстрое прототипирование.

😡 Одна из проблем, с которой сталкиваются многие — это слияние ноутбуков и git-конфликты, которые могут превращать работу в настоящий кошмар. Если вам это знакомо, значит, вы просто ещё не попробовали nbdime.

Это набор утилит, которые делают сравнение и слияние ноутбуков человеческим:
• nbdiff — сравнение ноутбуков прямо в терминале
• nbdiff-web — визуальное сравнение с рендером ячеек
• nbmerge — трёхсторонний merge с автоматическим разрешением конфликтов
• nbmerge-web — тот же merge, но в браузере
• nbshow — удобный просмотр ноутбука в консоли

📌 Если до этого вы просто коммитили .ipynb «как получится» — попробуйте, это может изменить ваше мнение о Jupyter.

А теперь по-честному: используете ли Jupyter в 2025?
Давайте обсужим в комментариях!

⤵️

Инструкция о том, как оставить комментарий: https://www.tgoop.com/dsproglib/6244

❤️ — Без Jupyter не обойтись, он мой главный инструмент
👍 — Ушёл на другие решения, Jupyter — это прошлый век
🤔 — Не могу выбрать, использую и Jupyter, и другие инструменты

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤30🤔9👍3

2.22K views12:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕 Свежие новости из мира AI и Data Science

🔥 Модели, релизы и технологии:
— Scikit-learn, UMAP и HDBSCAN теперь работают на GPU — ускорение без единой строчки изменений в коде
— Свежий релиз PyTorch 2.7 — новые возможности для оптимизации, работы с графами и улучшения API
— Периодическая таблица машинного обучения от MIT — удобная визуализация ключевых алгоритмов и методов

🧠 Статьи, исследования и лучшие практики:
— Как в Авито предсказывают категории объявлений по описанию — разбор ML-решений в реальном продукте
— Mixture of Experts: когда нейросеть учится делегировать — о динамическом распределении задач между частями модели
— Организация датасетов с ClearML — практическое руководство для ML-команд
— Пайплайн распознавания номеров транспортных средств: как это устроено — кейс от МТС о построении полного конвейера

👍 Cоветы:
— Как перестать кидать Jupyter-ноутбуки по почте — гид по эффективной коллаборации с данными и моделями

Библиотека дата-сайентиста #свежак

❤2

2.26K views12:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

2.12K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

214 voters2.08K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍💻

Топ-вакансий для дата-сайентистов за неделю

Power BI разработчик — от 125 000 ₽, удалёнка

Data Engineer — от 350 000 до‍ 440 000 ₽, удалёнка

TL Data Scientist — до 459 000 ₽, удалёнка

Senior Data Analyst, удалёнка

Senior Data Scientist (Rec. System), удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

2.25K views10:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Вышел Apache Airflow 3.0 — крупнейшее обновление за последнее время

После месяцев активной работы сообщества мир увидел релиз Apache Airflow 3.0 — важный шаг вперёд для оркестрации данных.

Что нового:
➡️ Сервисно-ориентированная архитектура — разворачивайте только нужные компоненты, без монолита.
➡️ Планирование на основе данных — теперь можно нативно определять и отслеживать объекты данных.
➡️ Событийное управление — запускайте DAG-и не только по расписанию, но и в ответ на события.
➡️ Версионирование DAG-ов — история выполнения сохраняется даже при изменении кода.
➡️ Новый UI на React — современный, удобный, полностью переработанный веб-интерфейс.

👉 Подробнее: https://clc.to/1KZxhQ

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤5👍2

2.73K views18:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔍

Datacompy — библиотека для быстрого сравнения DataFrame'ов

Datacompy — мощная Python-библиотека для валидации и сравнения данных.
Идеально подходит для работы с Pandas, Polars и Spark.

Что умеет:
🟠 Сравнивает строки и столбцы между DataFrame'ами
🟠 Генерирует подробные отчёты о различиях
🟠 Гибкая настройка: ключи сравнения, допуски, регистр

Преимущества:
🟠 Лёгкая интеграция в пайплайны и тесты
🟠 Подходит для больших данных и распределённых вычислений
🟠 Контроль качества данных в ETL и миграциях

➡️

Подробнее: https://clc.to/6ZBRkA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍1🔥1

2.11K viewsedited 06:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 IT Breaking Memes — 30 000 ₽ за самую смешную IT-новость

Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!

👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.

🏆 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе

Пример:
Реальная новость: «Гугл создала модель для общения с дельфинами».

Смешная альтернатива: «Нейросеть от Гугл обрабатывает видеопоток с камеры в свинарнике. ИИ следит, сколько свинья находится возле кормушки, не отталкивают ли ее собратья. Недокормленных докармливают, а переевшие пропускают следующую кормешку».

📅 Сроки: с 29 апреля по 11 мая включительно

Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8

Ждем ваших новостей!

👍2

2.06K views13:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение pinned a photo

13:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

🐍✨ Пиши как профи: 10 Python-лайфхаков для новичков

Лайфхаки от разработчиков, обжёгшихся до вас

➡️ Что вас ждет внутри:
— почему if x == True: — это преступление
— как списковые включения экономят часы
— зачем линтер важнее кофе
— и почему def func(start_list=[]) может испортить тебе вечер
— как не сойти с ума от зависимостей (и что делать с виртуальными окружениями)
— секретный power move: dir(), help() и другие встроенные суперсилы

И всё это без занудства и «книг для чайников». Просто, по делу, с примерами и личным опытом от бывалых питонистов

📎

Статья

🔵 Начинайте свой путь в программировании и прокачивайте свои навыки с нашим курсом «Основы программирования на Python»

Proglib Academy #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

1.57K views18:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Промпт для анализа и оптимизации пайплайнов обработки данных

Этот промпт поможет оптимизировать пайплайны данных для повышения эффективности, автоматизации процессов и улучшения качества данных, используемых в проектах.

🧾 Промпт:

Prompt: [опишите текущий пайплайн обработки данных]

I want you to help me analyze and optimize my data processing pipeline. The pipeline involves [data collection, cleaning, feature engineering, storage, etc.]. Please follow these steps:

1. Data Collection:
- Evaluate the current method of data collection and suggest improvements to increase data quality and speed.
- If applicable, recommend better APIs, data sources, or tools for more efficient data collection.

2. Data Cleaning:
- Check if the data cleaning process is efficient. Are there any redundant steps or unnecessary transformations?
- Suggest tools and libraries (e.g., pandas, PySpark) for faster and more scalable cleaning.
- If data contains errors or noise, recommend methods to identify and handle them (e.g., outlier detection, missing value imputation).

3. Feature Engineering:
- Evaluate the current feature engineering process. Are there any potential features being overlooked that could improve the model’s performance?
- Recommend automated feature engineering techniques (e.g., FeatureTools, tsfresh).
- Suggest any transformations or feature generation techniques that could make the data more predictive.

4. Data Storage & Access:
- Suggest the best database or storage system for the current project (e.g., SQL, NoSQL, cloud storage).
- Recommend methods for optimizing data retrieval times (e.g., indexing, partitioning).
- Ensure that the data pipeline is scalable and can handle future data growth.

5. Data Validation:
- Recommend methods to validate incoming data in real-time to ensure quality.
- Suggest tools for automated data validation during data loading or transformation stages.

6. Automation & Monitoring:
- Recommend tools or platforms for automating the data pipeline (e.g., Apache Airflow, Prefect).
- Suggest strategies for monitoring data quality throughout the pipeline, ensuring that any anomalies are quickly detected and addressed.

7. Performance & Efficiency:
- Evaluate the computational efficiency of the pipeline. Are there any bottlenecks or areas where processing time can be reduced?
- Suggest parallelization techniques or distributed systems that could speed up the pipeline.
- Provide recommendations for optimizing memory usage and reducing latency.

8. Documentation & Collaboration:
- Ensure the pipeline is well-documented for future maintainability. Recommend best practices for documenting the pipeline and the data flow.
- Suggest collaboration tools or platforms for teams working on the pipeline to ensure smooth teamwork and version control.

📌 Что получите на выходе:
• Анализ пайплайна обработки данных: поиск проблем и предложений для улучшения
• Рекомендации по автоматизации и мониторингу: улучшение рабочих процессов с помощью инструментов автоматизации
• Рекомендации по хранению и доступу: оптимизация хранения и извлечения данных
• Оптимизация и улучшение производительности: уменьшение времени обработки данных и повышение эффективности

Библиотека дата-сайентиста #буст

❤3👍2

2.06K views07:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека дата-сайентиста #развлекалово

😁10👍1

1.84K views18:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

✅

How to: работать с 11 типами переменных в данных

В анализе данных и машинном обучении важно понимать, с какими типами переменных вы имеете дело — это помогает правильно интерпретировать данные, строить модели и избегать ошибок.

👇 Разберём 11 ключевых типов переменных.

➡️

Независимые и зависимые переменные:
🔵Независимые переменные (или предикторы/фичи) — это признаки, которые используются в качестве входных данных для предсказания результата.
🔵 Зависимая переменная — это результат, который предсказывается. Её также называют целевой переменной, ответом или выходной переменной.
🔵 Пример: предсказываем уровень дохода (зависимая переменная) по возрасту, образованию и стажу (независимые переменные).

➡️

Спутывающие и коррелированные переменные:
🔵 Спутывающие переменные влияют и на независимую, и на зависимую переменную, искажают причинно-следственные связи.
🔵 Коррелированные переменные могут быть связаны между собой, но это не означает наличие причинной связи.
🔵 Важно: «Корреляция ≠ причинность».
🔵 Пример: продажи мороженого и кондиционеров растут одновременно не из-за связи между ними, а из-за жары (спутывающая переменная).

➡️

Контрольные переменные:
🔵 Не являются объектом исследования, но учитываются, чтобы избежать искажения результатов.
🔵 Пример: при исследовании влияния образования на доход контролируют возраст и регион.

➡️

Латентные (скрытые) переменные:
🔵 Не наблюдаются напрямую, но влияют на данные. Выводятся опосредованно через другие признаки.
🔵 Пример: кластеры пользователей (предпочтения, поведение) — латентны, но можно выявить с помощью кластеризации.

➡️

Переменные взаимодействия:
🔵 Отражают влияние комбинации двух или более переменных.
🔵 Пример: взаимодействие плотности населения и дохода может выявить различия в потреблении по регионам.

➡️

Стационарные и нестационарные переменные:
🔵 Стационарные: статистики (среднее, дисперсия) не меняются со временем.
🔵 Нестационарные: имеют тренды, сезонность, нарушают предположения многих моделей.
🔵 Пример: цены акций — нестационарны, их нужно преобразовать перед анализом (например, логарифм, разности).

➡️

Отставшие переменные:
🔵 Переменные, которые представляют собой значения с предыдущих временных точек.
🔵 Продажи в прошлом месяце — отставшая переменная для прогноза продаж в следующем.

➡️

Утечка переменных:
🔵 Эти переменные предоставляют информацию о целевой переменной, которая была бы недоступна во время предсказания. Это приводит к чрезмерно оптимистичной производительности модели на обучающих данных, но она плохо обобщается на новые данные.
🔵 Пример: дата оформления страховки появляется в обучении, но при предсказании она ещё неизвестна.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3❤‍🔥1

1.97K views06:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

🤯 Как простая задачка поставила в тупик программистов

На собеседовании задали простой вопрос:

«В мешке числа от 1 до 100. Одно пропало. Как найти его? А если пропали два числа? Три? Или вообще k чисел?»

Эта задачка превратилась в одно из самых обсуждаемых тем на Stack Overflow.

➡️ Что внутри статьи:
— Как найти 1 пропущенное число (формула + код).
— Как находить 2 и больше пропущенных чисел (оптимальные алгоритмы).
— Алгоритм Мински–Трахтенберга–Зиппеля.
— Симметрические многочлены и тождества Ньютона (и зачем они нужны).
— Примеры кода на Python для всех случаев.

Если хочешь понять, как красиво решать задачи уровня собесов — обязательно прочитай статью.

👉 Переходи к статье

🔵 Чтобы получить оффер-мечты в Data Science, забирайте наш курс → «Математика для Data Science»

Proglib Academy #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2

1.37K views10:42

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥

Холивар: ML/DS-стажировка в 2025 — или ты full-stack инженер, или мимо

В 2025 году всё больше студентов, увлечённых машинным обучением и анализом данных, сталкиваются с неожиданным поворотом: стажировки в ML/DS требуют не только знаний по моделям, но и полного стека разработки.

👀 Типичная вакансия на «ML-интерн»:

«Ищем стажёра по машинному обучению. Требования: знание Python, PyTorch, SQL, Django/Flask, React, Docker, AWS, CI/CD, MLOps, REST API, системный дизайн, опыт с Spark и Kafka. Плюсом будет умение писать собственный компилятор.»

Простыми словами: «Ты не просто строишь модели — ты их разворачиваешь, деплоишь, мониторишь и желательно — делаешь это вслепую на Kubernetes.»

🎯 Вопрос к сообществу:
1. Это адекватные ожидания от стажёров в ML/DS? Или индустрия потеряла берега?
2. Является ли full-stack разработка теперь обязательным скиллом для входа в ML?

Опрос для стажёров и джунов. Какой путь выбрали вы:
❤️ — Только ML/DS: алгоритмы, модели, датасеты — без продакшна
👍 — Full-stack + ML: backend, frontend, DevOps — потому что по-другому не берут
🔥 — Забили и ушли в продукт/аналитику
😁 — Пока учусь и в лёгком шоке от требований

👇

Делитесь мнением: это нормальное развитие профессии — или перегибы рынка, которые пугают новичков?
Инструкция о том, как оставить комментарий: https://www.tgoop.com/dsproglib/6244

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤22😁20👍14🔥10🌚1

1.88K views18:02

2025/07/14 12:01:26
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>