Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
Всем привет!

Вы когда-нибудь задумывались, как выглядит дата-инжиниринг в топовых мировых компаниях? Например, в одном из крупнейших стриминговых сервисов?

В апреле Netflix провели первый открытый форум для дата инженеров, чтобы поделиться своим опытом и взглядом на современные разработки, насущные проблемы и перспективы в области обработки данных.

Нашел рекап этого форума, очень интересно! Захотелось поделиться с вами ⚡️

👉 Читать на Medium
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Модели построения DWH

Эту тему я поднимал на вебинаре, который мы проводили с Евгением Ермаковым (если пропустили, полную запись можно найти тут). Хочу вернуться к ней еще раз, потому что нашел классную статью на Second Brain.

В ней модели Inmon и Kimpball сравниваются и противопоставляются — можно оценить преимущества и недостатки и разобраться в процессах. Тем, кто только начинает свой путь в дата-инжиниринге, будет полезно:

📝 Inmon vs Kimball: Data Warehousing Approaches
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет, в этом посте собрал для вас самые распространенные мифы о дата-инженерах. Поделитесь, думали так же когда-то?
Чаптер дата-инженера: что это такое на примере Билайна

Всем привет! Предлагаю сегодня почитать, как работают с данными и как устроена жизнь в чаптере дата-инженеров и разработчиков в билайне.

Несколько лет назад, когда компания пошла в цифровизацию и концепцию data driven, когда возникла потребность в формировании экспертизы по инжинирингу данных, – тогда и был сформирован чаптер дата-инженеров и разработчиков.
➡️ Читать статью — по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сталкивались с чаптерами в реальных проектах?
Anonymous Poll
15%
Да
34%
Нет
51%
А что это?
This media is not supported in your browser
VIEW IN TELEGRAM
Привет!

Скидки — это всегда приятно, поэтому мы в Слëрме решили порадовать вас и тоже устроить ЧËРНЫЙ ПОНЕДЕЛЬНИК.

👉 скидка 50% на всё курсы по промокоду BLACK_MONDAY сегодня до 23:59

➡️ скопируйте промокод
➡️ переходите в каталог курсов
➡️ вводите промокод на этапе оформления

Немного об условиях акции:

🔸скидка доступная только физическим лицам и только при оплате банковской картой
🔸скидка не распространяется на курсы с открытым листом ожидания
🔸скидка не применяется при рассрочке
🔸скидка не работает с комплектами курсов и другими специальными предложениями

Как мне кажется, это отличный повод прокачать хард-скиллы и выйти на новый уровень в профессии. Подключайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет!

Давненько мы с вами не виделись. Загрузка сейчас довольно большая, особенно на курсе — мы со студентами заканчиваем модуль по Apache Spark (тому самому, который не любят все дата-инженеры 😅)

До конца недели можно досдать практическое задание (построить витрину данных, представляющую собой набор агрегатов по месяцам на основе лога таможни), и мы уже переходим к реляционным базам данных.

И раз уж тема зашла про спарк — принес вам крутой кейс от сбера по работе с таблицами с сотнями терабайт данных:

👉 Часть первая
👉 Часть вторая

Ребятам удалось сократить процесс обновления с 9-12 часов до 30-40 минут — это точно стоит почитать 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
Инструменты Data Quality

Качество данных — это фундамент успешной работы с ними. Проблема заключается в том, что качество данных субъективно и ситуативно, и универсальных решений, которые подошли бы для любого проекта, нет.

Функциональные возможности инструментов DQ:
🔸Мониторинг (Observability)
🔸Профилирование данных (Profiling)
🔸Подготовка данных (Parsing, standardizing, cleansing)
🔸Data Fixing
🔸Поддержка DataOps

Примеры инструментов, которые закрывают основные задачи DQ:
➡️ Informatica Data Quality (IDQ)
➡️ SAP Data Services
➡️ Ataccama ONE
➡️ Oracle Enterprise Data Quality
➡️ Microsoft Data Quality Services
➡️ SAS Data Quality
➡️ DQLabs Platform

С какими из них сталкивались?
Please open Telegram to view this post
VIEW IN TELEGRAM
Что инженер данных должен уметь в Kubernetes?

➡️ Запускать Apache Spark
➡️ Деплоить распределенные файловые системы и базы данных
➡️ Разворачивать сервинг ML-моделей на KServe, Seldon Core, Bento+Yatai

В Слёрме есть целых три флагманских курса по кубам — базовый, продвинутый и для разработчиков. Очень рекомендую присмотреться к третьему — в нем кубы разбираются именно с точки зрения приложения.

Внутри:

🔸7 недель обучения
🔸7 встреч со спикерами
🔸76 часов практики и работы со стендами
🔸Итоговая сертификация
🌟 Подготовительные видеокурсы по основам Ansible и Docker в подарок.

Старт потока — 9 декабря.
Полная программа курса — по ссылке ⬅️
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое Data Swamp, и как с ним жить?

В мире больших данных мы все чаще сталкиваемся с терминами «data lake» и «data swamp». И если первый хорошо знаком большинству инженеров и аналитиков, то второй нередко остается за завесой неопределенности.

👉 Data Swamp — это «заболоченное» хранилище данных, в котором информация накапливается хаотично, без должной структуры и управления. В отличие от data lake, который представляет собой управляемое и четко организованное хранилище, data swamp — это беспорядок, в котором крайне сложно искать нужные данные.

Причины возникновения data swamp:

🔸 отсутствие систематизации и каталогизации данных
🔸 хаотичная загрузка данных без контроля качества и проверок
🔸 разрозненная структура данных, отсутствие общих стандартов и правил
Please open Telegram to view this post
VIEW IN TELEGRAM
Думаю, не нужно подробно объяснять, почему это проблема. Неполные, дублированные и даже противоречивые данные мешают аналитике, приводят к искаженным выводам, снижают эффективность работы дата-специалистов и замедляют бизнес-процессы.

Не допустить превращения data lake в data swamp можно с помощью стандартизации данных, контроля их качества, каталогизации и регулярных аудитов. Но что делать, если проблема уже возникла?

1️⃣ Анализ текущего состояния: проводим аудит всех данных, чтобы понять, какие из них полезны, а какие можно удалить или переработать
2️⃣ Очистка данных: удаляем дублирующиеся и устаревшие данные
3️⃣ Организация и реструктуризация: разрабатываем новую структуру хранения и переносим только чистые и релевантные данные
4️⃣ Внедрение инструментов управления для автоматизации процессов управления данными и мониторинга

Data Swamp — это не трагедия, конечно, но предупреждение всем, кто работает с данными. Потому что без тщательного планирования и управления даже самый продвинутый data lake может превратиться в болото, которое придется разгребать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Mesh: ожидание vs реальность

В последние годы концепция Data Mesh завоевала популярность, обещая революционизировать подход к управлению данными. Ожидания от нее довольно высокие:

🔸 Самодостаточные команды: каждая команда владеет своими доменными данными и развивает их независимо
🔸 Легкость масштабирования: архитектура распределенных доменов упрощает рост и поддержание системы
🔸 Сокращение зависимости от центральных дата-команд: минимизация «бутылочного горлышка»

На практике само понятие Data Mesh определено довольно плохо, и разные команды понимают под этим разное. В итоге мы сталкиваемся с неравномерным уровнем экспертизы, сложностями с координацией и управлением процессами.

Концепция, в целом, полезная, но, с моей точки зрения требует более глубокого изучения для применения на практике.
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем привет!

До Нового года осталось 3 недели — самое время позаботиться о праздничном настроении. Мои коллеги, Кирилл Борисов, Вячеслав Федосеев и Всеволод Севостьянов решили взять инициативу в свои руки и устроить удаленный новогодний корпоратив для всех друзей Слёрма.

В программе:

Подводим итоги уходящего года: делимся провалами и факапами
Загадываем желания: мечтаем о фичах, которые хотим в работе
Шутим шутки: придумываем подписи к IT-мемам
Дарим подарки авторам лучших историй: промокоды на скидку и доступы к мини-курсам.

Дресс-код: заряженное настроение и желание поделиться своими историями. Горячие и холодные напитки приветствуются 🥂

➡️ Когда: 17 декабря в 19:00 мск
Занять место у ёлки — через бота ⬅️
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Привет!

До нового года ровно 2 недели, а это значит, что пора создавать праздничное настроение.

Новогодний корпоратив Слёрма начнется уже через час, приглашаю всех своих подписчиков присоединиться к этому маленькому празднику.

В программе:
🔹итоги 2024 года и планы на 2025
🔹шутки, мемы и неформальное общение
🔹подарки самым активным участникам: промокоды на скидку и бесплатные мини-курсы

Откладывайте свои дела, наливайте в бокал любимый напиток и подключайтесь!

Ссылки будут в боте 👈
Please open Telegram to view this post
VIEW IN TELEGRAM
Внимание! Внимание! С платформы 2024 отправляется поезд Слёрм Экспресс

🎫 Занимайте места в вагонах согласно своей профессии. Место найдется для каждого!

Есть вагоны для:
🔸 инженеров;
🔸 разработчиков;
🔸 DevOps-специалистов.

Внутри каждого вагона — мешки с подарками. В них вы найдете комплекты видеокурсов, а в некоторых даже интенсивные потоки — в общем, всё, что нужно для мощного буста в карьере в 2025 году.

Понравившийся мешок можно забрать себе, а можно подарить другу — мест в поезде хватит всем!

➡️ Забрать билет на Слёрм Экспресс — ЗДЕСЬ.
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем привет!

Команда проекта «Где дата, Коль?» вместе с ментором Николаем Марковым уходит на каникулы.

Не прощаемся! Мы обязательно вернёмся с новыми постами, полезными материалами по дата-инжинирингу, и (кто знает?) — может быть даже со вторым сезоном реалити 😎

Следите за обновлениями в официальном телеграм-канале Слёрма ➡️ @slurmnews

До новых встреч!
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/01/22 06:25:45
Back to Top
HTML Embed Code: