Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 5726

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Привет, друзья! 👋

Мы готовим статью о том, как эффективно изучать программирование, и хотим услышать ваше мнение! 🤓💻 Поделитесь своим опытом, и самые полезные советы войдут в нашу публикацию.

2.01K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какой метод обучения программированию оказался для вас наиболее эффективным? 🚀

Anonymous Poll

18%

Онлайн-курсы

16%

Самообучение по книгам

51%

Практика на реальных проектах

Обучение с наставником

Другое (напишите в комментариях)

195 voters2.11K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какой совет вы бы дали начинающим программистам? 💡
Поделитесь своими мыслями в комментариях!

👍2

1.99K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

2.13K views20:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

👀

NBtools — инструмент для мониторинга запущенных Jupyter Notebooks

🔘Основной утилитой является nbstat, которая отображает использование ресурсов для каждого процесса.
🔘Также есть следующие инструменты: pylint_notebook для проверки кода на ошибки и exec_notebook для программного выполнения notebooks.
🔘Кроме того, доступны функции для управления GPU и предотвращения ошибок, связанных с их использованием.

🔗

Ссылка на документацию проекта

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9

2.53K views07:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 ТОП-10 необходимых для специалиста по Big Data навыков

Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.

✍️ Big Data — это термин, используемый для обозначения значительного объема как структурированных, так и неструктурированных данных, который слишком велик для обработки традиционными методами.

👉 Читать все подробности в статье

👍3

11.3K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎓

Infinity-MM — мультимодальный датасет, который позволяет эффективно обучать модели

Исследователи собрали набор данных инструкций, состоящий из десятков миллионов образцов. Благодаря фильтрации и удалению дубликатов, этот датасет отличается высоким качеством и разнообразием.

✔️Авторы уже обучили на Infinity-MM маленькую модель Aquila-VL-2B, которая в итоге показала лучший результат в мультимодальном бенчмарке MMStar.

🔗

Ссылка на датасет на Hugging Face

🔗

Ссылка на статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

2.44K views07:34

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 Data Formulator — фреймворк от Microsoft для создания богатых визуализаций

🔹Позволяет преобразовывать данные и визуализировать их итеративно с помощью ИИ;
🔹Доступен прямо в GitHub Codespaces;
🔹Позволяет комбинировать командные интерфейсы и текстовые подсказки, чтобы задавать параметры графиков.

🔗 Ссылка на репозиторий

👍4

2.39K views11:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎅 Какой подарок вы бы хотели на НГ? Пишите в комментариях👇

Да, начинать готовиться к Новому году никогда не рано😉

#интерактив

2.55K views18:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

🔑 Теперь API-ключи Gemini автоматически импортируются в Colab из Google AI Studio

🔸Импорт есть во вкладке Secrets;
🔸Экспорт есть в Google AI Studio, когда кликаешь на «Get code» и «Open in Colab».

❤5👍2

2.52K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

📊 Путеводитель по Big Data для начинающих: методы и техники анализа больших данных

Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель в статье по ссылке.

🔗

Ссылка

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.03K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👆 История о том, как PhD по статистике работу искал

На Reddit пользователь рассказал, как искал работу в DS. У него не было опыта работы, но зато была докторская степень по статистике, полученная в известном частном университете США.

👀 Он подал 40 заявок на различные позиции, из которых:

▪️22 остались без ответа (обозначены как Ghosted),
▪️15 были отклонены,
▪️2 отозваны самим кандидатом,
▪️1 завершилась предложением о работе, которое было принято.

❤9😢8👾2

2.4K views07:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

🤫

ШАД: как начать свой путь

Забираем полезную информацию для тех, кто только начал свой путь:

➡️ Лазейки через магистратуры
Например, в УрФУ абитуриенты, не прошедшие в ШАД, могут учиться по траектории «Анализ данных», и при хороших оценках с первого семестра быть зачисленными в ШАД.

➡️ Сетап с преподавателем
Многие преподы ШАДа ведут занятия в других вузах и иногда ищут студентов. Можно связаться с заведующим кафедрой, где числится ваш потенциальный «наставник», попроситься как вольный слушатель или даже рассчитывать на неформальное зачисление.

➡️ Филиалы ШАДа
У ШАДа есть отделения в СПб, Минске, Новосибирске и других городах, где конкурс немного легче, чем в Москве. Формат экзаменов схож, но с более мягкими проходными баллами. Онлайн-лекции и некоторые занятия проводят местные преподаватели.

➡️ Магистратура по современным компьютерным наукам
Программа от ВШЭ и Яндекса — фактически два года учёбы в ШАД с отсрочкой. Поступление: экзамен с задачами, как на первом этапе отбора в ШАД, плюс часовое собеседование по математике, алгоритмам и мотивации. Портфолио с проектами — большой плюс.

➡️ Фаст трек для Яндексов
Годовая программа для сотрудников Яндекса: закрываешь 4 предмета, пишешь мотивационное письмо и получаешь диплом ШАДа с доступом к инфраструктуре. Задания по прошлому опыту берутся из вступительных для магистратуры СКН.

Хочу быстро освоить математику для ШАД. Какой курс порекомендуете?

🔵

Математика для Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🤔2🤩1

2.27K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✖️🔢 latexify — библиотека для красивого вывода формул

Вот основные функции:

▪️компилирует код Python или AST в формат LaTeX
▪️предоставляет классы для IPython для красивого отображения формул.

🔗 Ссылка на репозиторий

👍18❤3

2.56K views07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Как оценивать важность признаков и зачем это делать? Например, для случайного леса

Оценка важности признаков в машинном обучении помогает понять, какие из них больше всего влияют на результат модели. Это полезно, чтобы интерпретировать поведение модели, улучшить её производительность, а также сократить количество признаков, минимизируя вычислительные затраты и предотвращая переобучение.

Вот специфичные для случайного леса методы:

▪️ Оценка количества разбиений по данному признаку.
В процессе построения деревьев случайный лес принимает решения на основе разбиений по различным признакам. Чем чаще признак используется для разбиения, тем более он важен для модели, так как чаще помогает разделять классы или предсказывать значения.

▪️ Суммарный information gain.
Это общая величина уменьшения неоднородности (например, по критерию Джини или энтропии) при разбиениях, основанных на данном признаке. Если признак приводит к большому приросту информации, он считается значимым, так как повышает предсказательную способность модели.

А вот универсальный способ оценки — permutation importance. Этот метод заключается в перемешивании значений одного признака после того, как модель обучена, и последующей оценке влияния этого признака на качество модели. Если, после перемешивания значений, качество модели резко падает, значит, признак был важен. Этот метод хорошо работает для любых моделей, так как он не зависит от внутренней структуры алгоритма.

#машинное_обучение

❤2👍2

2.13K views18:40

2025/07/14 09:53:27
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>