Telegram Web
Привет, друзья! 👋

Мы готовим статью о том, как эффективно изучать программирование, и хотим услышать ваше мнение! 🤓💻 Поделитесь своим опытом, и самые полезные советы войдут в нашу публикацию.
Какой совет вы бы дали начинающим программистам? 💡
Поделитесь своими мыслями в комментариях!
👍2
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
This media is not supported in your browser
VIEW IN TELEGRAM
👀 NBtools — инструмент для мониторинга запущенных Jupyter Notebooks

🔘Основной утилитой является nbstat, которая отображает использование ресурсов для каждого процесса.
🔘Также есть следующие инструменты: pylint_notebook для проверки кода на ошибки и exec_notebook для программного выполнения notebooks.
🔘Кроме того, доступны функции для управления GPU и предотвращения ошибок, связанных с их использованием.

🔗 Ссылка на документацию проекта
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
📊 ТОП-10 необходимых для специалиста по Big Data навыков

Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.

✍️ Big Data — это термин, используемый для обозначения значительного объема как структурированных, так и неструктурированных данных, который слишком велик для обработки традиционными методами.

👉 Читать все подробности в статье
👍3
🎓 Infinity-MM — мультимодальный датасет, который позволяет эффективно обучать модели

Исследователи собрали набор данных инструкций, состоящий из десятков миллионов образцов. Благодаря фильтрации и удалению дубликатов, этот датасет отличается высоким качеством и разнообразием.

✔️Авторы уже обучили на Infinity-MM маленькую модель Aquila-VL-2B, которая в итоге показала лучший результат в мультимодальном бенчмарке MMStar.

🔗 Ссылка на датасет на Hugging Face
🔗 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
📊 Data Formulator — фреймворк от Microsoft для создания богатых визуализаций

🔹Позволяет преобразовывать данные и визуализировать их итеративно с помощью ИИ;
🔹Доступен прямо в GitHub Codespaces;
🔹Позволяет комбинировать командные интерфейсы и текстовые подсказки, чтобы задавать параметры графиков.

🔗 Ссылка на репозиторий
👍4
🎅 Какой подарок вы бы хотели на НГ? Пишите в комментариях👇

Да, начинать готовиться к Новому году никогда не рано😉

#интерактив
This media is not supported in your browser
VIEW IN TELEGRAM
🔑 Теперь API-ключи Gemini автоматически импортируются в Colab из Google AI Studio

🔸Импорт есть во вкладке Secrets;
🔸Экспорт есть в Google AI Studio, когда кликаешь на «Get code» и «Open in Colab».
5👍2
📊 Путеводитель по Big Data для начинающих: методы и техники анализа больших данных

Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель в статье по ссылке.

🔗 Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
2
👆 История о том, как PhD по статистике работу искал

На Reddit пользователь рассказал, как искал работу в DS. У него не было опыта работы, но зато была докторская степень по статистике, полученная в известном частном университете США.

👀 Он подал 40 заявок на различные позиции, из которых:

▪️22 остались без ответа (обозначены как Ghosted),
▪️15 были отклонены,
▪️2 отозваны самим кандидатом,
▪️1 завершилась предложением о работе, которое было принято.
9😢8👾2
🤫 ШАД: как начать свой путь

Забираем полезную информацию для тех, кто только начал свой путь:

➡️ Лазейки через магистратуры
Например, в УрФУ абитуриенты, не прошедшие в ШАД, могут учиться по траектории «Анализ данных», и при хороших оценках с первого семестра быть зачисленными в ШАД.

➡️ Сетап с преподавателем
Многие преподы ШАДа ведут занятия в других вузах и иногда ищут студентов. Можно связаться с заведующим кафедрой, где числится ваш потенциальный «наставник», попроситься как вольный слушатель или даже рассчитывать на неформальное зачисление.

➡️ Филиалы ШАДа
У ШАДа есть отделения в СПб, Минске, Новосибирске и других городах, где конкурс немного легче, чем в Москве. Формат экзаменов схож, но с более мягкими проходными баллами. Онлайн-лекции и некоторые занятия проводят местные преподаватели.

➡️ Магистратура по современным компьютерным наукам
Программа от ВШЭ и Яндекса — фактически два года учёбы в ШАД с отсрочкой. Поступление: экзамен с задачами, как на первом этапе отбора в ШАД, плюс часовое собеседование по математике, алгоритмам и мотивации. Портфолио с проектами — большой плюс.

➡️ Фаст трек для Яндексов
Годовая программа для сотрудников Яндекса: закрываешь 4 предмета, пишешь мотивационное письмо и получаешь диплом ШАДа с доступом к инфраструктуре. Задания по прошлому опыту берутся из вступительных для магистратуры СКН.

Хочу быстро освоить математику для ШАД. Какой курс порекомендуете?
🔵 Математика для Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🤔2🤩1
✖️🔢 latexify — библиотека для красивого вывода формул

Вот основные функции:

▪️компилирует код Python или AST в формат LaTeX
▪️предоставляет классы для IPython для красивого отображения формул.

🔗 Ссылка на репозиторий
👍183
Как оценивать важность признаков и зачем это делать? Например, для случайного леса

Оценка важности признаков в машинном обучении помогает понять, какие из них больше всего влияют на результат модели. Это полезно, чтобы интерпретировать поведение модели, улучшить её производительность, а также сократить количество признаков, минимизируя вычислительные затраты и предотвращая переобучение.

Вот специфичные для случайного леса методы:

▪️ Оценка количества разбиений по данному признаку.
В процессе построения деревьев случайный лес принимает решения на основе разбиений по различным признакам. Чем чаще признак используется для разбиения, тем более он важен для модели, так как чаще помогает разделять классы или предсказывать значения.

▪️ Суммарный information gain.
Это общая величина уменьшения неоднородности (например, по критерию Джини или энтропии) при разбиениях, основанных на данном признаке. Если признак приводит к большому приросту информации, он считается значимым, так как повышает предсказательную способность модели.

А вот универсальный способ оценки — permutation importance. Этот метод заключается в перемешивании значений одного признака после того, как модель обучена, и последующей оценке влияния этого признака на качество модели. Если, после перемешивания значений, качество модели резко падает, значит, признак был важен. Этот метод хорошо работает для любых моделей, так как он не зависит от внутренней структуры алгоритма.

#машинное_обучение
2👍2
2025/07/14 09:53:27
Back to Top
HTML Embed Code: