tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
💀 Джуны: game over или новый уровень сложности
Рынок труда меняется: рекрутеры всё чаще ищут только сеньоров, AI автоматизирует задачи, которые раньше поручали джунам, а число выпускников буткемпов и курсов продолжает расти. Кажется, что для новичков всё закрыто…
Но так ли это на самом деле?
🤔 В новом материале разбираемся, что происходит с IT-рынком, почему джуниорам стало сложнее пробиться, и главное — какие стратегии работают в новых условиях.
Читайте:
➡️ Почему джуны — не «ненужные»
➡️ Как искусственный интеллект меняет роль начинающих
➡️ Какие навыки реально нужны на старте
➡️ Как адаптироваться, если только входите в профессию
👌 Ссылка на материал: https://proglib.io/sh/CXgFTZzRdc
Библиотека дата-сайентиста #буст
Рынок труда меняется: рекрутеры всё чаще ищут только сеньоров, AI автоматизирует задачи, которые раньше поручали джунам, а число выпускников буткемпов и курсов продолжает расти. Кажется, что для новичков всё закрыто…
Но так ли это на самом деле?
🤔 В новом материале разбираемся, что происходит с IT-рынком, почему джуниорам стало сложнее пробиться, и главное — какие стратегии работают в новых условиях.
Читайте:
👌 Ссылка на материал: https://proglib.io/sh/CXgFTZzRdc
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
💔AI vs Developer: who wins?
Бигтех уже режет найм разработчиков. Вайб-кодинг повсюду. Джуны не нужны. Но так ли это на самом деле?
Мы хотим разобраться, как ИИ влияет на рынок труда в IT. В реальности, а не в головах CEO или HR. Поэтому приглашаем пройти опрос.
Результаты нашего исследования позволят выяснить, сколько разработчиков потеряли работу из-за ИИ? Какие навыки сейчас ценятся больше всего? Кто зарабатывает больше — те, кто использует ИИ или игнорирует?
👾 Расскажите свою историю, чтобы помочь комьюнити: https://clc.to/aFntFw
Бигтех уже режет найм разработчиков. Вайб-кодинг повсюду. Джуны не нужны. Но так ли это на самом деле?
Мы хотим разобраться, как ИИ влияет на рынок труда в IT. В реальности, а не в головах CEO или HR. Поэтому приглашаем пройти опрос.
Результаты нашего исследования позволят выяснить, сколько разработчиков потеряли работу из-за ИИ? Какие навыки сейчас ценятся больше всего? Кто зарабатывает больше — те, кто использует ИИ или игнорирует?
👾 Расскажите свою историю, чтобы помочь комьюнити: https://clc.to/aFntFw
💦 River — библиотека для машинного обучения на лету
Если вы работаете с потоковыми данными или большими объёмами информации, которые поступают непрерывно, вам не всегда подойдёт классический подход к обучению моделей.
✅ River — это Python-библиотека для онлайн-обучения моделей машинного обучения. Она позволяет обновлять модель на лету, без необходимости переобучения на полном датасете.
Поддерживает:
— KNN, деревья решений, наивные байесовские модели
— Рекомендательные системы
— Линейные модели, ансамбли и многое другое
Подходит для:
— рекомендательных систем
— предсказания аномалий
— адаптивной аналитики
— мониторинга и real-time решений
🔗 Ссылка на GitHub: https://clc.to/k07Nfg
Библиотека дата-сайентиста #буст
Если вы работаете с потоковыми данными или большими объёмами информации, которые поступают непрерывно, вам не всегда подойдёт классический подход к обучению моделей.
Поддерживает:
— KNN, деревья решений, наивные байесовские модели
— Рекомендательные системы
— Линейные модели, ансамбли и многое другое
Подходит для:
— рекомендательных систем
— предсказания аномалий
— адаптивной аналитики
— мониторинга и real-time решений
🔗 Ссылка на GitHub: https://clc.to/k07Nfg
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Не пропустите событие лета для DS-комьюнити
23 июня, 19:00 Мск — бесплатный вебинар с Никитой Зелинским «AI-агенты для DS: обзор курса и практические кейсы»
😤 Пока все обсуждают, «как бы внедрить LLM», мы покажем, как строить полноценных AI-агентов, которые делают работу вместо тебя. За час Никита разложит по полочкам:
— архитектуру курса и ключевые модули
— частые ошибки студентов, о которых не принято говорить вслух
— реальные юзкейсы: от чат-ассистентов до систем поддержки решений в проде
➡️ Что почитать от Никиты до Веба:
— Как adversarial-атаки живут даже при смене модели (и почему «подвинуть кровати в борделе» не спасёт)
— Самый быстрый пакетный менеджер uv и эксперимент «pip vs uv»
— 17 методов XAI и 20 метрик на NIPS’24: как не утонуть в «объяснимости»
⚡️ Хотели задать Никите свой каверзный вопрос? Ловите шанс: только в прямом эфире — отвечаем на всё, что обычно «остаётся за кадром».
⏰ МЕСТ МАЛО регистрация закроется, как только забьём комнату. Действуй сейчас → https://clc.to/1iGw6Q
23 июня, 19:00 Мск — бесплатный вебинар с Никитой Зелинским «AI-агенты для DS: обзор курса и практические кейсы»
— архитектуру курса и ключевые модули
— частые ошибки студентов, о которых не принято говорить вслух
— реальные юзкейсы: от чат-ассистентов до систем поддержки решений в проде
— Как adversarial-атаки живут даже при смене модели (и почему «подвинуть кровати в борделе» не спасёт)
— Самый быстрый пакетный менеджер uv и эксперимент «pip vs uv»
— 17 методов XAI и 20 метрик на NIPS’24: как не утонуть в «объяснимости»
⚡️ Хотели задать Никите свой каверзный вопрос? Ловите шанс: только в прямом эфире — отвечаем на всё, что обычно «остаётся за кадром».
⏰ МЕСТ МАЛО регистрация закроется, как только забьём комнату. Действуй сейчас → https://clc.to/1iGw6Q
Please open Telegram to view this post
VIEW IN TELEGRAM
🎬 Что посмотреть: 10 инструментов и техник Polars, которые прокачают ваши навыки в Data Science
В новом эпизоде подкаста Talk Python To Me рассказывают, почему Polars — отличная современная альтернатива Pandas для работы с данными.
Обсуждаем полезные библиотеки и расширения для Polars, которые делают работу удобнее и эффективнее.
Например:
✅ Patito — сочетание Pydantic и Polars для валидации данных
✅ polars\_encryption — добавление AES-шифрования для отдельных колонок
Если вы работаете с данными или хотите прокачать навыки в Data Science — этот эпизод точно для вас!
👉 Ссылка: https://clc.to/CjS-OA
Библиотека дата-сайентиста #буст
В новом эпизоде подкаста Talk Python To Me рассказывают, почему Polars — отличная современная альтернатива Pandas для работы с данными.
Обсуждаем полезные библиотеки и расширения для Polars, которые делают работу удобнее и эффективнее.
Например:
Если вы работаете с данными или хотите прокачать навыки в Data Science — этот эпизод точно для вас!
👉 Ссылка: https://clc.to/CjS-OA
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Юлия, мидл дата-сайнтист, делится опытом использования AI для анализа данных, автоматизации процессов и построения моделей машинного обучения.
Какие AI-инструменты помогают вам в работе? Пишите в комментариях 👇
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Яндекс начал внедрять в свои сервисы рекомендательные системы нового поколения — на базе больших генеративных моделей.
Это модели с трансформерной архитектурой, заточенной под анализ последовательных действий пользователя (user behavior modeling). Они учитывают в разы больше обезличенного контекста: от последовательности событий до типа взаимодействия.
Подход к обучению модели строился на двух принципах. Во-первых, исследователи смотрели целиком на всю анонимизированную историю пользователя. При этом добавляя глубину контекста взаимодействия: в какое время оно происходило, на каком устройстве был пользователь, на какой страничке продукта.
Историю пользователя можно разложить на некоторую последовательность троек вида (context, item, feedback), где context — это контекст взаимодействия, item — объект, с которым взаимодействует пользователь, а feedback — реакция пользователя на взаимодействие.
Во-вторых, определили две новых задачи задачи обучения. Первая — Next Item Prediction: предсказать, с каким айтемом будет взаимодействовать пользователь. Вторая — Feedback Prediction, предсказывание обратной связи. Подробнее почитать о том, как в компании совместили это в единую задачу обучения, можно на Хабре.
➡️ Что уже получилось
🔵Яндекс Музыка ещё в 2023 году внедрила в рекомендации генеративные нейросети, но новая модель в несколько раз больше. Новые модели в Яндекс Музыке работают онлайн - моментально реагируя на действия пользователей. В результате, повысилось и разнообразие рекомендаций и стало на 20% больше лайков на впервые услышанные в Моей волне треки.
🔵 В Яндекс Маркете алгоритмы теперь учитывают почти два года истории действий. Рекомендации стали учитывать сезонные паттерны — например, напоминать про баскетбольный мяч весной, если полгода назад вы интересовались кроссовками.
На сегодняшний день компания — одна из немногих в мире, кто разработал и внедрил такие системы в продакшн.
Это модели с трансформерной архитектурой, заточенной под анализ последовательных действий пользователя (user behavior modeling). Они учитывают в разы больше обезличенного контекста: от последовательности событий до типа взаимодействия.
Подход к обучению модели строился на двух принципах. Во-первых, исследователи смотрели целиком на всю анонимизированную историю пользователя. При этом добавляя глубину контекста взаимодействия: в какое время оно происходило, на каком устройстве был пользователь, на какой страничке продукта.
Историю пользователя можно разложить на некоторую последовательность троек вида (context, item, feedback), где context — это контекст взаимодействия, item — объект, с которым взаимодействует пользователь, а feedback — реакция пользователя на взаимодействие.
Во-вторых, определили две новых задачи задачи обучения. Первая — Next Item Prediction: предсказать, с каким айтемом будет взаимодействовать пользователь. Вторая — Feedback Prediction, предсказывание обратной связи. Подробнее почитать о том, как в компании совместили это в единую задачу обучения, можно на Хабре.
➡️ Что уже получилось
🔵Яндекс Музыка ещё в 2023 году внедрила в рекомендации генеративные нейросети, но новая модель в несколько раз больше. Новые модели в Яндекс Музыке работают онлайн - моментально реагируя на действия пользователей. В результате, повысилось и разнообразие рекомендаций и стало на 20% больше лайков на впервые услышанные в Моей волне треки.
🔵 В Яндекс Маркете алгоритмы теперь учитывают почти два года истории действий. Рекомендации стали учитывать сезонные паттерны — например, напоминать про баскетбольный мяч весной, если полгода назад вы интересовались кроссовками.
На сегодняшний день компания — одна из немногих в мире, кто разработал и внедрил такие системы в продакшн.
Для работы с данными нужны базовые математические знания. В первой статье нашего путеводителя разбираем ключевые символы и термины Data Science.
В выпуске:
• действительные и комплексные числа,
• векторы и матрицы,
• компактная запись сумм и произведений (сигма- и пи-нотация),
• обзор логарифмов.
Начинаем с основ, чтобы уверенно двигаться к сложным темам!
▶️ Читайте по ссылке: https://proglib.io/sh/pSwegRq1o0
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Особенно — при дисбалансе классов.
Accuracy (точность классификации) — доля правильно предсказанных объектов:
accuracy = (TP + TN) / (TP + TN + FP + FN)
Но… эта метрика вводит в заблуждение, когда классы несбалансированы.
Допустим, модель предсказывает мошенничество (fraud) по транзакциям:
# Модель всегда говорит не мошенничество
y_pred = [0] * 1000
y_true = [0]*995 + [1]*5
from sklearn.metrics import accuracy_score
accuracy_score(y_true, y_pred) # → 0.995
📈 Accuracy = 99.5%. Но модель никогда не находит мошенников. Она бесполезна.
💬 А вы что используете в своих задачах с дисбалансом классов? Бывали ситуации, где accuracy сыграла с вами злую шутку?
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
😱 Уже завтра — вебинар про AI-агентов! Мест почти не осталось
На вебинаре вы получите то, чего нет в открытых источниках — живой разбор, примеры и прямой диалог с экспертом. Но только если придёте.
➡️ Что будет:
— покажем структуру курса и ключевые модули
— обсудим вопросы, которые обычно остаются за кадром
— разберём реальные кейсы: как применять AI-агентов — от чат-ботов до систем поддержки решений
📅 Уже 23 июня в 19:00 МСК
🎙️ Ведёт Никита Зелинский — эксперт в AI и DS
👉 Зарегистрируйтесь заранее, чтобы не забыть:
https://clc.to/_lDV0Q
🫢 Для тех, кто дочитал до конца →промокод lucky, он даст −5.000₽ на курс
На вебинаре вы получите то, чего нет в открытых источниках — живой разбор, примеры и прямой диалог с экспертом. Но только если придёте.
➡️ Что будет:
— покажем структуру курса и ключевые модули
— обсудим вопросы, которые обычно остаются за кадром
— разберём реальные кейсы: как применять AI-агентов — от чат-ботов до систем поддержки решений
📅 Уже 23 июня в 19:00 МСК
🎙️ Ведёт Никита Зелинский — эксперт в AI и DS
👉 Зарегистрируйтесь заранее, чтобы не забыть:
https://clc.to/_lDV0Q
🫢 Для тех, кто дочитал до конца →
📦 Polars 1.31: динамическая работа с типами данных в LazyFrame
Свежий релиз Polars приносит важное обновление: DataType Expressions, которые позволяют лениво определять типы данных выражений и колонок. Теперь можно строить более гибкие и повторно используемые запросы, не вызывая
Раньше невозможно было «на лету» привести тип данных столбца, не зная его заранее. Теперь это можно сделать с помощью новой функции:
Примеры использования:
Также появились удобные методы для работы с
—
—
—
➡️ Это MVP-функциональность, поэтому для некоторых выражений (например,
📚 Документация и детали: https://clc.to/uxiJPQ
Библиотека дата-сайентиста #свежак
Свежий релиз Polars приносит важное обновление: DataType Expressions, которые позволяют лениво определять типы данных выражений и колонок. Теперь можно строить более гибкие и повторно используемые запросы, не вызывая
.collect_schema()
.Раньше невозможно было «на лету» привести тип данных столбца, не зная его заранее. Теперь это можно сделать с помощью новой функции:
pl.dtype_of("column_name") # вернет DataTypeExpr
Примеры использования:
lf = pl.scan_parquet("path/to/file")
lf.with_columns(
a = pl.col("b").cast(pl.dtype_of("c"))
).collect()
Также появились удобные методы для работы с
DataTypeExpr
:—
.supertype_with()
—
.equals()
/ .not_equals()
—
.repr()
shrink_dtype
, reshape
) пока будет выбрасываться ошибка.📚 Документация и детали: https://clc.to/uxiJPQ
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍 Свежие новости из мира AI и Data Science
🚀 Модели, платформы и агенты
— Gemini 2.5 обновлён — Google расширяет линейку: появились Flash, Pro и Flash-Lite Preview
— OpenAI: практическое руководство по агентам — как выстраивать агентную архитектуру с защитами, обратной связью и менеджером
— Midjourney запускает видео-модель — генерация 5-секундных роликов из изображений уже в браузере
🛡 Исследования и безопасность
— SHADE-Arena от Anthropic — бенчмарк для выявления скрытого вредоносного поведения моделей в сложных задачах
— Новая речь Дженсена Хуана (NVIDIA) — ключевые тренды: AI-заводы, агентные системы, новая волна вычислений
— Альтман vs Meta* — зачем Meta* предлагала \$100M бонусы и что OpenAI планирует дальше
🔍 Практика и статьи
— Генерация синтетических документов
— ML-пайплайн от А до Я
— Как обучать модели прогнозировать грозы
— Обнаружение аномалий во временных рядах
— Тест LLM на RTX 3090 vs 2×5060 Ti
🧑💻 Для развития
— Зачем писать промпты в 2025-м — даже если вы не программист
— Как начать изучать DS/ML сейчас
— Karpathy: Software Is Changing Again — краткий доклад о будущем ИТ в эпоху ИИ
* признанной экстремистской на территории Российской Федерации
Библиотека дата-сайентиста #свежак
🚀 Модели, платформы и агенты
— Gemini 2.5 обновлён — Google расширяет линейку: появились Flash, Pro и Flash-Lite Preview
— OpenAI: практическое руководство по агентам — как выстраивать агентную архитектуру с защитами, обратной связью и менеджером
— Midjourney запускает видео-модель — генерация 5-секундных роликов из изображений уже в браузере
🛡 Исследования и безопасность
— SHADE-Arena от Anthropic — бенчмарк для выявления скрытого вредоносного поведения моделей в сложных задачах
— Новая речь Дженсена Хуана (NVIDIA) — ключевые тренды: AI-заводы, агентные системы, новая волна вычислений
— Альтман vs Meta* — зачем Meta* предлагала \$100M бонусы и что OpenAI планирует дальше
🔍 Практика и статьи
— Генерация синтетических документов
— ML-пайплайн от А до Я
— Как обучать модели прогнозировать грозы
— Обнаружение аномалий во временных рядах
— Тест LLM на RTX 3090 vs 2×5060 Ti
🧑💻 Для развития
— Зачем писать промпты в 2025-м — даже если вы не программист
— Как начать изучать DS/ML сейчас
— Karpathy: Software Is Changing Again — краткий доклад о будущем ИТ в эпоху ИИ
* признанной экстремистской на территории Российской Федерации
Библиотека дата-сайентиста #свежак