tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
Качество и количество данных — ключ к успеху в машинном обучении. Но что эффективнее, дешевле и «правильнее» для улучшения модели?
• Экономия времени: повороты, отражения, шумы (например, с помощью библиотеки Albumentations) создают тысячи новых примеров за минуты.
• Борется с переобучением: модель учится на разнообразных вариациях данных.
• Доступно даже с маленьким датасетом: из 1000 изображений можно сделать 10 000.
• Аугментация не всегда отражает реальные сценарии, и модель может «выучить» искусственные артефакты.
• Реалистичность: модель видит настоящие данные, а не сгенерированные вариации.
• Лучше для сложных задач: например, в медицинском ML синтетические данные могут быть недостаточно точными.
• Долгосрочная выгода: качественный датасет можно использовать для разных проектов.
• Сбор данных дорогой (например, разметка изображений может стоить $1–5 за пример) и занимает много времени.
• Начало: использование аугментации для быстрого наращивания объёма данных.
• Со временем: добавление реальных данных для улучшения качества модели.
• Баланс: экономия на разметке при сохранении реалистичности.
• Риски: необходимость грамотного балансирования, чтобы избежать перегрузки модели «фальшивыми» данными.
Давайте обсудим в комментариях!
👍 Аугментация — потому что быстро и дёшево
❤️ Сбор данных — реальные данные рулят
🔥 Гибрид — зачем выбирать, если можно всё?
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤7👍2❤🔥1
🚀 Модели и релизы:
— NemoTron-H — новые гибридные Mamba-модели от NVIDIA, обученные на 20T токенов
— Google DeepMind представил Gemini 2.5 Pro Experimental — доступен в Google AI Studio и приложении Gemini
— Google DeepMind опубликовал технический отчёт о Gemma 3 — 27B параметров, оптимизирован для многозадачности и многозначности
— OpenAI добавил генерацию изображений в GPT-4o и Sora — интеграция текстового и визуального AI
📊 Аналитика и исследования:
— Hugging Face Real-Time Endpoint Analytics — теперь с обновлениями в реальном времени для мониторинга AI-инференса
— OpenAI и MIT исследовали эмоциональное влияние ChatGPT — редкие, но глубокие взаимодействия, снижение благополучия у активных пользователей.
— Как дистилляция меняет AI-индустрию — ускорение моделей без потери качества
— Галлюцинации в языковых моделях — причины, типы и способы борьбы
🔒 Безопасность и интеграция:
— NIST выпустил финальное руководство по безопасности AI — рекомендации по защите AI-систем от атак
— OpenAI внедрил Anthropic MCP в Agents SDK — упрощает интеграцию сторонних инструментов
📚 Что почитать:
— Модели машинного обучения: что могут спросить на интервью
— Частые ловушки в ML-экспериментах
— От скриптов к сервисам: 10 книг для Data Science-разработки
— Подборка книг по нейросетям и рекомендательным системам
— Советы по эффективному обучению ML-моделей
— Reinforcement Learning: детальный обзор
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?
Давайте разберём основные методы:
🔥 Высокая температура → креативный, но хаотичный текст.
❄️ Низкая температура → логичный, но скучный текст.
💡 Какой метод лучше?
✓ Если нужен фактологичный ответ — лучше beam search
✓Для творческих текстов — sampling
✓ Для баланса между качеством и разнообразием — contrastive search
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
🔹 Конференции:
• ECIR 2025 — Европейская конференция по информационному поиску
6–10 апреля | Лукка, Италия
• CHI 2025 — Конференция по взаимодействию человека и компьютера
26 апреля — 1 мая | Иокогама, Япония
• ICLR 2025 — Международная конференция по представлениям обучения
24–28 апреля | Сингапур
🔹 Релизы фреймворков для ИИ:
• TensorFlow 2.20.0 — ожидается около 12 апреля
• PyTorch 2.7 — запланирован на апрель
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🎭 Dev Memes: 1 апреля, а баги всё те же
Сегодня день официально разрешённого троллинга — и мы не могли пройти мимо. Собрали подборку мемов для Дата-сайентиста, которые вызывают лёгкое желание уволиться.
👉 Всё это — из нашего мемного канала «Библиотека IT-мемов»
Библиотека дата-сайентиста
Сегодня день официально разрешённого троллинга — и мы не могли пройти мимо. Собрали подборку мемов для Дата-сайентиста, которые вызывают лёгкое желание уволиться.
👉 Всё это — из нашего мемного канала «Библиотека IT-мемов»
Библиотека дата-сайентиста
😁4❤2
🌯 Чем ближе к вокзалу, тем хуже кебаб — научный прорыв века
На французском Reddit появилась гипотеза: чем ближе к вокзалу, тем хуже кебаб. Это утверждение потребовало проверки, и один энтузиаст решил разобраться, вооружившись свободным временем и шутливым настроением. Нобелевка и job-офферы, конечно, уже на горизонте!
🔬 Методология:
Для анализа выбрали Париж: гипотеза родом оттуда, вокзалов и кебабных там полно, а пешеходные маршруты идеально подходят для «научных» прогулок.
🔗 Подробности исследования — https://clc.to/dKOPyQ
Библиотека дата-сайентиста #буст
На французском Reddit появилась гипотеза: чем ближе к вокзалу, тем хуже кебаб. Это утверждение потребовало проверки, и один энтузиаст решил разобраться, вооружившись свободным временем и шутливым настроением. Нобелевка и job-офферы, конечно, уже на горизонте!
🔬 Методология:
Для анализа выбрали Париж: гипотеза родом оттуда, вокзалов и кебабных там полно, а пешеходные маршруты идеально подходят для «научных» прогулок.
🔗 Подробности исследования — https://clc.to/dKOPyQ
Библиотека дата-сайентиста #буст
😁3🔥2❤1
🪄 Визуальные вычисления в Power BI: прокачиваем условное форматирование
Теперь настраивать условное форматирование в Power BI можно без сложных DAX-формул!
Разбираем, как новые визуальные вычисления помогают создавать динамичные, адаптивные и стильные отчеты, которые мгновенно реагируют на изменения данных.
⭐️ Пора сделать отчеты действительно интерактивными!
🔗 Ссылка на статью: https://proglib.io/sh/lsb0fEuYSv
Библиотека дата-сайентиста
Теперь настраивать условное форматирование в Power BI можно без сложных DAX-формул!
Разбираем, как новые визуальные вычисления помогают создавать динамичные, адаптивные и стильные отчеты, которые мгновенно реагируют на изменения данных.
⭐️ Пора сделать отчеты действительно интерактивными!
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Как быстро разобраться в сложных данных, выделить ключевые закономерности и донести инсайты до команды? Этот промпт поможет вам анализировать данные глубже и принимать обоснованные решения:
💬 Промпт:
Analyze [dataset/feature] and identify key trends, correlations, and anomalies. Summarize the most important insights in a way that can be easily explained to non-technical stakeholders. Suggest potential next steps or hypotheses that should be tested further. If possible, recommend a visualization that best represents the findings.
• Четкое понимание трендов, скрытых закономерностей и аномалий
• Способы объяснить сложные данные простым языком для бизнеса
• Идеи для дальнейшего исследования и проверки гипотез
• Рекомендации по лучшим визуализациям для наглядного представления данных
• Используйте промпт для первичного анализа данных перед презентацией
• Проверяйте гипотезы перед постановкой экспериментов
• Готовьте краткие и понятные отчеты для команды и руководства
• Экспериментируйте с разными визуализациями, чтобы сделать инсайты еще понятнее
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
Готовим крутой обзор ноутбуков для кодеров в 2025-м и хотим собрать реальный фидбек от тех, кто в теме.
Какой ноутбук — ваш незаменимый помощник в работе?
Поделитесь:
⭐️ Модель и характеристики вашего ноутбука
⭐️ Что нравится и что не очень в повседневной работе
⭐️ На что обратить внимание при выборе ноутбука для анализа данных
⭐️ Как он вам в целом
Лучшие советы попадут в нашу статью. Давайте создадим полезный гайд для коллег!
Ждем ваших комментариев!
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
Если вы думаете, что Dropout просто обнуляет часть нейронов, это лишь половина правды. Есть ещё один важный шаг, который делает обучение стабильным.
— Представьте, что у нас есть 100 нейронов в предыдущем слое, все с активацией 1.
— Все веса соединений с нейроном A в следующем слое равны 1.
— Dropout = 50% — половина нейронов отключается во время обучения.
— Во время обучения: половина нейронов выключена, так что вход нейрона A ≈ 50.
— Во время inference: Dropout не применяется, вход A = 100.
Во время обучения нейрон получает меньший вход, чем во время inference. Это создаёт дисбаланс и может ухудшить обобщающую способность сети.
Чтобы это исправить, Dropout масштабирует оставшиеся активации во время обучения на коэффициент
1/(1-p)
, где p
— доля отключённых нейронов.— Dropout = 50% (
p = 0.5
).— Вход 50 масштабируется:
50 / (1 - 0.5) = 100
.Теперь во время обучения вход нейрона A примерно соответствует тому, что он получит при inference. Это делает поведение сети стабильным.
import torch
import torch.nn as nn
dropout = nn.Dropout(p=0.5)
tensor = torch.ones(100)
# Обучение (train mode)
print(dropout(tensor).sum()) # ~100 (масштабировано)
# Вывод (eval mode)
dropout.eval()
print(dropout(tensor).sum()) # 100 (без Dropout)
В режиме обучения оставшиеся значения увеличиваются, в режиме inference — нет.
Dropout не просто отключает нейроны — он ещё масштабирует оставшиеся активации, чтобы модель обучалась корректно.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4❤🔥1
«Kaggle — это песочница для студентов, а реальные проекты — для взрослых дата-сайентистов. Если ты только и делаешь, что гонишься за медальками, ты не профи, а геймер!»
• Обучение: сотни датасетов и задач — от регрессии до компьютерного зрения.
• Соревновательный дух: топ-1% на лидерборде — это как Олимпийская медаль.
• Сообщество: готовые ноутбуки, идеи и код от лучших умов.
• Но: идеальные датасеты и метрики часто далеки от реальных проблем, а переобучение ради 0.001 — это не про бизнес.
• Практика: данные грязные, требования меняются, а результат нужен вчера.
• Бизнес-ценность: модель не для галочки, а для прибыли или спасения жизней.
• Полный цикл: от сбора данных до деплоя — настоящий опыт.
• Но: рутина, дедлайны и отсутствие чистой «магии ML» могут выгореть.
Давайте спорить в комментариях!
Инструкция о том, как оставить комментарий: https://www.tgoop.com/dsproglib/6244
👍 Kaggle — лучший тренажёр для мозга
❤️ Реальные проекты — тут рождается настоящий DS
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19👍11😁1💯1