Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 5982

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

🤖 Машинное обучение для начинающих: основные понятия, задачи и сфера применения

Читайте в нашей статье детальное описание основных принципов, понятий и разновидностей машинного обучения.

➡️

Статья

Забирайте курс по машинному обучению и прокачивайтесь:

🔵

Базовые модели ML и приложения

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

1.83K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🦑 Игра в кальмара... для дата-сайентиста

Итак, представьте: вы только что были наняты в качестве дата-сайентиста загадочной организацией Squid Game. Вам пообещали полностью удалённую работу, на которой вы сможете достичь синергии с генеративным ИИ. Однако оказалось, что на самом деле вам нужно быть, скорее, продуктовым аналитиком (а формат работы гибридный — 5 дней в офисе, 2 опционально удалённо).

🔫 Пока вы не успели начать жаловаться, к вашей голове приставили пушку и заставляют писать SQL-запросы. Именно в этом и заключается суть образовательной игры SQL Squid Game — решайте задачки и проходите испытания.

👉 Ссылка на игру

❤5😁4👏1

2.35K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

☕Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ

🔥2👍1

2.04K views06:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚗 Moral Machine — делаем нравственный выбор для беспилотного автомобиля

Этика искусственного интеллекта — широкая область, пытающаяся задать рамки поведения «умных» систем, в том числе машин с автопилотом. Moral Machine — это исследование, построенное на известной этической дилемме — проблеме вагонетки.

👀 Вам показывают ситуацию и два варианта действий для беспилотного авто. Необходимо выбрать тот вариант, который кажется вам более верным с этической точки зрения. В конце вы можете сравнить свои выборы с чужими.

👉 Пройти тест

🔥4

2.08K viewsedited 09:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Что такое дистилляция знаний?

Дистилляция знаний — это метод передачи знаний от модели-учителя к модели-ученику. В первую очередь, это касается нейросетей.

❓Зачем это нужно?
Представьте, что вы можете улучшить производительность модели, при этом не расходуя огромные ресурсы на сложное обучение. Так, с помощью дистилляции знаний удалось добиться хорошего качества предсказания на ImageNet от ViT без использования дополнительных данных.

✍️ Как это делается?

Один из конкретных способов — Хинтоновская дистилляция знаний. Её суть заключается в следующем: большая заранее обученная модель-учитель выдаёт предсказания, которые служат в качестве новой разметки, а компактная модель-ученик пытается воспроизвести эти предсказания. Таким образом, ученик перенимает не только итоговые ответы, но и более глубокие представления структуры данных.

Примером применения Хинтоновской дистилляции является модель DistilBERT, которая сохраняет 97% качества модели BERT, используя при этом на 40% меньше параметров.

👍11

2.05K views18:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

💡 Data Drift и как его «поймать»

🧠 Что такое KL divergence
KL divergence измеряет, насколько одно распределение данных отличается от другого.

🤔 Как применяется в мониторинге
После развертывания модели KL divergence помогает измерить разницу между распределением данных на тренировке (референс) и в продакшене. Если значение превышает установленный порог, это сигнализирует о возможной деградации модели.

🔹Преимущество
Чувствителен к небольшим изменениям в данных, что позволяет быстро обнаружить даже слабые признаки дрейфа.
🔸Ограничение
Может выдавать ложные срабатывания, реагируя на шум или выбросы.

Используете KL divergence или знаете другие подходы для отслеживания дрейфа? Пишите в комментариях 👇

#datadrift #KLDivergence #monitoring #machinelearning

👍9❤1

2.08K viewsedited 07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

📊 Нужны ли дополнительные данные для модели

Если производительность модели почти не улучшается, несмотря на feature engineering и смену моделей, возможно, данных недостаточно.

Но сбор новых данных — это трудоёмко. Вот как проверить, помогут ли они:
1. Разделите обучающую выборку на k равных частей (7–12 обычно достаточно).
2. Поочерёдно обучайте модель: на 1 части, затем на 2, затем на 3, и так далее.
3. Оцените каждую модель на валидационной выборке.
4. Постройте график, который покажет зависимость производительности от объема данных.

📈 Линия растёт? Добавление данных улучшит модель.
📉 Линия стабильна? Собранные данные исчерпали потенциал.

Простой способ избежать лишней работы!

#данные #modeloptimization

🔥13👍6❤1

2.71K viewsedited 18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Cosmograph для Python — GPU-ускоренный инструмент для интерактивной визуализации графов

Cosmograph — это мощное веб-приложение для анализа больших графов и векторных представлений (эмбеддингов) машинного обучения.

Возможности
⛓️ Панорамирование, масштабирование, подсветка и выбор узлов.
⚙️ API для изменения макета, цвета, размера и других параметров.
📦 Простая установка через pip install cosmograph.

Проект

#визуализация #графы #Jupyter

👍8❤4😁1

1.97K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🌍 Отчет «Будущее рабочих мест» от Всемирного экономического форума

Рынок труда меняется быстрее, чем мы могли себе представить, благодаря технологическим достижениям, таким как ИИ и Большие данные.

Основные выводы
📊 86% компаний ожидают, что технологии ИИ и обработки информации преобразят их бизнес к 2030 году.

📈 Самые востребованные профессии к 2030 году:
1. Специалисты по Большим данным
2. Финтех-инженеры
3. Эксперты по ИИ и машинному обучению
4. Разработчики ПО и приложений
5. Специалисты по кибербезопасности

📉 Профессии, которые теряют актуальность:
1. Клерки и кассиры
2. Административные помощники
3. Работники печатной отрасли
4. Бухгалтеры

Ваше мнение?

👍7😁6🤔2

1.92K views11:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

👍5🥰2❤1

1.7K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

483 voters1.67K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

🥰1

1.81K views20:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❓ Golang vs Python: Что выбрать для проекта

Python 🐍 — лучший выбор для Data Science 📊 и Machine Learning 🤖. Это динамично типизированный язык с огромной экосистемой библиотек (Pandas, NumPy, TensorFlow), что делает его идеальным для анализа данных и разработки моделей. Однако Python относительно медленный, так как это интерпретируемый язык.

Go (Golang) 🚀 — статически типизированный, компилируемый язык с высокой производительностью ⚡. Он идеально подходит для разработки веб-сервисов 🌐, конкурентных программ 💻 и системных инструментов 🔧 благодаря легковесным горутинам. Но его экосистема для Data Science менее развита.

Когда выбрать Python:
- Для анализа данных и разработки моделей.
- Для быстрого прототипирования.

Когда выбрать Go:
- Для высокопроизводительных веб-сервисов.
- Для системных инструментов и программ с высокой конкуренцией.

Выбор зависит от задач проекта! 🤷‍♂️

#Python #Golang

👍4🥱2

1.86K views07:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🔢 7 способов кодирования категориальных данных

При работе с категориальными данными в машинном обучении, выбор способа их преобразования имеет решающее значение.

1. One-Hot Encoding
Каждая категория превращается в отдельный бинарный столбец.
Пример: Цвета → Зеленый: [1, 0, 0], Красный: [0, 1, 0].

2. Dummy Encoding
Как One-Hot, но один столбец исключается, чтобы избежать дублирования информации.

3. Effect Encoding
Категории кодируются бинарно, но ряды с нулями заменяются на -1 для создания баланса.

4. Label Encoding
Каждой категории присваивается уникальное числовое значение.
Пример: Зеленый = 1, Красный = 2, Черный = 3.

5. Ordinal Encoding
Порядковое кодирование, где категории ранжируются по важности.
Пример: XS = 1, S = 2, M = 3, L = 4.

6. Count Encoding
Категории заменяются частотой их встречаемости в данных.

7. Binary Encoding
Категории преобразуются в бинарный код.
Пример: Зеленый = 01, Красный = 10.

Какой метод вы используете чаще всего? 👇

#Encoding

👍12❤1

1.91K viewsedited 18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 Что такое калибровка моделей

Калибровка модели измеряет, насколько предсказанные вероятности соответствуют реальной результативности. Например, если модель предсказывает вероятность 70%, она должна быть правильной 70% времени для схожих предсказаний.

Почему это важно
Два одинаково точных (90%) модели могут давать разные уровни уверенности. Одна может иметь правдоподобные вероятности, а другая — чрезмерно уверенные предсказания. В реальных приложениях важно иметь надежные вероятности, а не просто точность.

Проблемы калибровки:
- Переоценка: модель дает слишком высокие вероятности.
- Недооценка: модель дает слишком низкие вероятности.
- Комбинированная ошибка: модель то переоценивает, то недооценяет.

Подбробнее

#калибровкамоделей

👍5❤1

1.82K viewsedited 07:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧹 Важность очистки данных: вызовы и решения

Очистка данных — это сложная и многогранная задача, особенно когда речь идет о больших наборах данных. Чем больше данных, тем сложнее их очистить. В статье рассматриваются ключевые моменты: как балансировать между удалением и заменой пропущенных значений, почему важно понимать, почему данные отсутствуют.

👩‍💻 Узнайте, как эффективно подходить к очистке данных и как это влияет на качество ваших исследований!

👉 Статья

#данные #очисткаданных

🔥5👍3

1.82K viewsedited 11:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🐍🃏 Как написать пасьянс на Python

Пасьянс «Косынка» — одна из самых популярных карточных игр.

👍 В этой статье мы разберем, как реализовать «Косынку» с использованием библиотеки Tkinter: детально рассмотрим логику игры, настройки интерфейса, а также визуализацию и обработку перемещений карт.

🤓 Статья

#игрынаPython

👍3

1.56K views13:55

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

1.82K views18:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

❤6

464 voters1.91K views18:08

2025/07/08 17:56:50
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>