Telegram Web
📊 ТОП-10 необходимых для специалиста по Big Data навыков

Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.

✍️ Big Data — это термин, используемый для обозначения значительного объема как структурированных, так и неструктурированных данных, который слишком велик для обработки традиционными методами.

👉 Читать все подробности в статье
👍3
🎓 Infinity-MM — мультимодальный датасет, который позволяет эффективно обучать модели

Исследователи собрали набор данных инструкций, состоящий из десятков миллионов образцов. Благодаря фильтрации и удалению дубликатов, этот датасет отличается высоким качеством и разнообразием.

✔️Авторы уже обучили на Infinity-MM маленькую модель Aquila-VL-2B, которая в итоге показала лучший результат в мультимодальном бенчмарке MMStar.

🔗 Ссылка на датасет на Hugging Face
🔗 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
📊 Data Formulator — фреймворк от Microsoft для создания богатых визуализаций

🔹Позволяет преобразовывать данные и визуализировать их итеративно с помощью ИИ;
🔹Доступен прямо в GitHub Codespaces;
🔹Позволяет комбинировать командные интерфейсы и текстовые подсказки, чтобы задавать параметры графиков.

🔗 Ссылка на репозиторий
👍4
🎅 Какой подарок вы бы хотели на НГ? Пишите в комментариях👇

Да, начинать готовиться к Новому году никогда не рано😉

#интерактив
This media is not supported in your browser
VIEW IN TELEGRAM
🔑 Теперь API-ключи Gemini автоматически импортируются в Colab из Google AI Studio

🔸Импорт есть во вкладке Secrets;
🔸Экспорт есть в Google AI Studio, когда кликаешь на «Get code» и «Open in Colab».
5👍2
📊 Путеводитель по Big Data для начинающих: методы и техники анализа больших данных

Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель в статье по ссылке.

🔗 Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
2
👆 История о том, как PhD по статистике работу искал

На Reddit пользователь рассказал, как искал работу в DS. У него не было опыта работы, но зато была докторская степень по статистике, полученная в известном частном университете США.

👀 Он подал 40 заявок на различные позиции, из которых:

▪️22 остались без ответа (обозначены как Ghosted),
▪️15 были отклонены,
▪️2 отозваны самим кандидатом,
▪️1 завершилась предложением о работе, которое было принято.
9😢8👾2
🤫 ШАД: как начать свой путь

Забираем полезную информацию для тех, кто только начал свой путь:

➡️ Лазейки через магистратуры
Например, в УрФУ абитуриенты, не прошедшие в ШАД, могут учиться по траектории «Анализ данных», и при хороших оценках с первого семестра быть зачисленными в ШАД.

➡️ Сетап с преподавателем
Многие преподы ШАДа ведут занятия в других вузах и иногда ищут студентов. Можно связаться с заведующим кафедрой, где числится ваш потенциальный «наставник», попроситься как вольный слушатель или даже рассчитывать на неформальное зачисление.

➡️ Филиалы ШАДа
У ШАДа есть отделения в СПб, Минске, Новосибирске и других городах, где конкурс немного легче, чем в Москве. Формат экзаменов схож, но с более мягкими проходными баллами. Онлайн-лекции и некоторые занятия проводят местные преподаватели.

➡️ Магистратура по современным компьютерным наукам
Программа от ВШЭ и Яндекса — фактически два года учёбы в ШАД с отсрочкой. Поступление: экзамен с задачами, как на первом этапе отбора в ШАД, плюс часовое собеседование по математике, алгоритмам и мотивации. Портфолио с проектами — большой плюс.

➡️ Фаст трек для Яндексов
Годовая программа для сотрудников Яндекса: закрываешь 4 предмета, пишешь мотивационное письмо и получаешь диплом ШАДа с доступом к инфраструктуре. Задания по прошлому опыту берутся из вступительных для магистратуры СКН.

Хочу быстро освоить математику для ШАД. Какой курс порекомендуете?
🔵 Математика для Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🤔2🤩1
✖️🔢 latexify — библиотека для красивого вывода формул

Вот основные функции:

▪️компилирует код Python или AST в формат LaTeX
▪️предоставляет классы для IPython для красивого отображения формул.

🔗 Ссылка на репозиторий
👍183
Как оценивать важность признаков и зачем это делать? Например, для случайного леса

Оценка важности признаков в машинном обучении помогает понять, какие из них больше всего влияют на результат модели. Это полезно, чтобы интерпретировать поведение модели, улучшить её производительность, а также сократить количество признаков, минимизируя вычислительные затраты и предотвращая переобучение.

Вот специфичные для случайного леса методы:

▪️ Оценка количества разбиений по данному признаку.
В процессе построения деревьев случайный лес принимает решения на основе разбиений по различным признакам. Чем чаще признак используется для разбиения, тем более он важен для модели, так как чаще помогает разделять классы или предсказывать значения.

▪️ Суммарный information gain.
Это общая величина уменьшения неоднородности (например, по критерию Джини или энтропии) при разбиениях, основанных на данном признаке. Если признак приводит к большому приросту информации, он считается значимым, так как повышает предсказательную способность модели.

А вот универсальный способ оценки — permutation importance. Этот метод заключается в перемешивании значений одного признака после того, как модель обучена, и последующей оценке влияния этого признака на качество модели. Если, после перемешивания значений, качество модели резко падает, значит, признак был важен. Этот метод хорошо работает для любых моделей, так как он не зависит от внутренней структуры алгоритма.

#машинное_обучение
2👍2
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍1
🧑‍💻 Data Science Interview Questions & Exercises

Это подборка вопросов и ответов для собеседования на позицию дата-сайентиста.

Охватывает темы:
▪️основы машинного обучения;
▪️глубокое обучение и нейросети;
▪️статистика и теория верояностей;
▪️А/Б-тестирование;
▪️NLP.

🔗 Ссылка
👍9
🧬 DeepMind опубликовала код для инференса AlphaFold 3

AlphaFold 3 — это модель для предсказания структуры белков.

Этот репозиторий содержит весь необходимый код для того, чтобы запустить инференс модели. Для работы также необходимо запросить доступ к весам AlphaFold 3, заполнив эту форму.

👉 Инструкция, как получить своё первое предсказание с помощью AlphaFold 3
👍4
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
1
✍️ Подробный гайд по описательной статистике

Рассказывает о:

🔹мерах центральной тенденции;
🔹дисперсии;
🔹формах распределения;
🔹разных типах графиков в matplotlib и seaborn.

🔗 Ссылка на гайд
👍7
2025/07/10 08:15:45
Back to Top
HTML Embed Code: