Всем привет!
Вы когда-нибудь задумывались, как выглядит дата-инжиниринг в топовых мировых компаниях? Например, в одном из крупнейших стриминговых сервисов?
В апреле Netflix провели первый открытый форум для дата инженеров, чтобы поделиться своим опытом и взглядом на современные разработки, насущные проблемы и перспективы в области обработки данных.
Нашел рекап этого форума, очень интересно! Захотелось поделиться с вами⚡️
👉 Читать на Medium
Вы когда-нибудь задумывались, как выглядит дата-инжиниринг в топовых мировых компаниях? Например, в одном из крупнейших стриминговых сервисов?
В апреле Netflix провели первый открытый форум для дата инженеров, чтобы поделиться своим опытом и взглядом на современные разработки, насущные проблемы и перспективы в области обработки данных.
Нашел рекап этого форума, очень интересно! Захотелось поделиться с вами
Please open Telegram to view this post
VIEW IN TELEGRAM
Medium
A Recap of the Data Engineering Open Forum at Netflix
A summary of sessions at the first Data Engineering Open Forum at Netflix on April 18th, 2024
Media is too big
VIEW IN TELEGRAM
Модели построения DWH
Эту тему я поднимал на вебинаре, который мы проводили с Евгением Ермаковым (если пропустили, полную запись можно найти тут). Хочу вернуться к ней еще раз, потому что нашел классную статью на Second Brain.
В ней модели Inmon и Kimpball сравниваются и противопоставляются — можно оценить преимущества и недостатки и разобраться в процессах. Тем, кто только начинает свой путь в дата-инжиниринге, будет полезно:
📝 Inmon vs Kimball: Data Warehousing Approaches
Эту тему я поднимал на вебинаре, который мы проводили с Евгением Ермаковым (если пропустили, полную запись можно найти тут). Хочу вернуться к ней еще раз, потому что нашел классную статью на Second Brain.
В ней модели Inmon и Kimpball сравниваются и противопоставляются — можно оценить преимущества и недостатки и разобраться в процессах. Тем, кто только начинает свой путь в дата-инжиниринге, будет полезно:
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет, в этом посте собрал для вас самые распространенные мифы о дата-инженерах. Поделитесь, думали так же когда-то?
Чаптер дата-инженера: что это такое на примере Билайна
Всем привет! Предлагаю сегодня почитать, как работают с данными и как устроена жизнь в чаптере дата-инженеров и разработчиков в билайне.
Несколько лет назад, когда компания пошла в цифровизацию и концепцию data driven, когда возникла потребность в формировании экспертизы по инжинирингу данных, – тогда и был сформирован чаптер дата-инженеров и разработчиков.
➡️ Читать статью — по ссылке.
Всем привет! Предлагаю сегодня почитать, как работают с данными и как устроена жизнь в чаптере дата-инженеров и разработчиков в билайне.
Несколько лет назад, когда компания пошла в цифровизацию и концепцию data driven, когда возникла потребность в формировании экспертизы по инжинирингу данных, – тогда и был сформирован чаптер дата-инженеров и разработчиков.
Please open Telegram to view this post
VIEW IN TELEGRAM
Чаптер дата-инженеров: что это такое и зачем он билайну
Чаптер дата-инженеров: что это такое и зачем он билайну — новая статья из рубрики «Новые технологии» | билайн now
Чаптер дата-инженеров: что это такое и зачем он билайну.📰 Рубрика «Новые технологии». билайн now — медиапортал Билайн: мнения экспертов, новости компании и отраслевые тенденции. 📈
This media is not supported in your browser
VIEW IN TELEGRAM
Привет!
Скидки — это всегда приятно, поэтому мы в Слëрме решили порадовать вас и тоже устроить ЧËРНЫЙ ПОНЕДЕЛЬНИК.
👉 скидка 50% на всё курсы по промокоду
➡️ скопируйте промокод
➡️ переходите в каталог курсов
➡️ вводите промокод на этапе оформления
Немного об условиях акции:
🔸 скидка доступная только физическим лицам и только при оплате банковской картой
🔸 скидка не распространяется на курсы с открытым листом ожидания
🔸 скидка не применяется при рассрочке
🔸 скидка не работает с комплектами курсов и другими специальными предложениями
Как мне кажется, это отличный повод прокачать хард-скиллы и выйти на новый уровень в профессии. Подключайтесь!
Скидки — это всегда приятно, поэтому мы в Слëрме решили порадовать вас и тоже устроить ЧËРНЫЙ ПОНЕДЕЛЬНИК.
BLACK_MONDAY
сегодня до 23:59Немного об условиях акции:
Как мне кажется, это отличный повод прокачать хард-скиллы и выйти на новый уровень в профессии. Подключайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет!
Давненько мы с вами не виделись. Загрузка сейчас довольно большая, особенно на курсе — мы со студентами заканчиваем модуль по Apache Spark (тому самому, который не любят все дата-инженеры 😅)
До конца недели можно досдать практическое задание (построить витрину данных, представляющую собой набор агрегатов по месяцам на основе лога таможни), и мы уже переходим к реляционным базам данных.
И раз уж тема зашла про спарк — принес вам крутой кейс от сбера по работе с таблицами с сотнями терабайт данных:
👉 Часть первая
👉 Часть вторая
Ребятам удалось сократить процесс обновления с 9-12 часов до 30-40 минут — это точно стоит почитать🔥
Давненько мы с вами не виделись. Загрузка сейчас довольно большая, особенно на курсе — мы со студентами заканчиваем модуль по Apache Spark (тому самому, который не любят все дата-инженеры 😅)
До конца недели можно досдать практическое задание (построить витрину данных, представляющую собой набор агрегатов по месяцам на основе лога таможни), и мы уже переходим к реляционным базам данных.
И раз уж тема зашла про спарк — принес вам крутой кейс от сбера по работе с таблицами с сотнями терабайт данных:
Ребятам удалось сократить процесс обновления с 9-12 часов до 30-40 минут — это точно стоит почитать
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Изменить сохранения Spark! Часть первая: разделяй и… сортируй
Автор: Иван Калининский, участник профессионального сообщества Сбера SberProfi DWH/BigData. Профессиональное сообщество SberProfi DWH/BigData отвечает за развитие компетенций...
Инструменты Data Quality
Качество данных — это фундамент успешной работы с ними. Проблема заключается в том, что качество данных субъективно и ситуативно, и универсальных решений, которые подошли бы для любого проекта, нет.
Функциональные возможности инструментов DQ:
🔸 Мониторинг (Observability)
🔸 Профилирование данных (Profiling)
🔸 Подготовка данных (Parsing, standardizing, cleansing)
🔸 Data Fixing
🔸 Поддержка DataOps
Примеры инструментов, которые закрывают основные задачи DQ:
➡️ Informatica Data Quality (IDQ)
➡️ SAP Data Services
➡️ Ataccama ONE
➡️ Oracle Enterprise Data Quality
➡️ Microsoft Data Quality Services
➡️ SAS Data Quality
➡️ DQLabs Platform
С какими из них сталкивались?
Качество данных — это фундамент успешной работы с ними. Проблема заключается в том, что качество данных субъективно и ситуативно, и универсальных решений, которые подошли бы для любого проекта, нет.
Функциональные возможности инструментов DQ:
Примеры инструментов, которые закрывают основные задачи DQ:
С какими из них сталкивались?
Please open Telegram to view this post
VIEW IN TELEGRAM
Что инженер данных должен уметь в Kubernetes?
➡️ Запускать Apache Spark
➡️ Деплоить распределенные файловые системы и базы данных
➡️ Разворачивать сервинг ML-моделей на KServe, Seldon Core, Bento+Yatai
В Слёрме есть целых три флагманских курса по кубам — базовый, продвинутый и для разработчиков. Очень рекомендую присмотреться к третьему — в нем кубы разбираются именно с точки зрения приложения.
Внутри:
🔸 7 недель обучения
🔸 7 встреч со спикерами
🔸 76 часов практики и работы со стендами
🔸 Итоговая сертификация
🌟 Подготовительные видеокурсы по основам Ansible и Docker в подарок.
Старт потока — 9 декабря.
Полная программа курса — по ссылке⬅️
В Слёрме есть целых три флагманских курса по кубам — базовый, продвинутый и для разработчиков. Очень рекомендую присмотреться к третьему — в нем кубы разбираются именно с точки зрения приложения.
Внутри:
Старт потока — 9 декабря.
Полная программа курса — по ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое Data Swamp, и как с ним жить?
В мире больших данных мы все чаще сталкиваемся с терминами «data lake» и «data swamp». И если первый хорошо знаком большинству инженеров и аналитиков, то второй нередко остается за завесой неопределенности.
👉 Data Swamp — это «заболоченное» хранилище данных, в котором информация накапливается хаотично, без должной структуры и управления. В отличие от data lake, который представляет собой управляемое и четко организованное хранилище, data swamp — это беспорядок, в котором крайне сложно искать нужные данные.
Причины возникновения data swamp:
🔸 отсутствие систематизации и каталогизации данных
🔸 хаотичная загрузка данных без контроля качества и проверок
🔸 разрозненная структура данных, отсутствие общих стандартов и правил
В мире больших данных мы все чаще сталкиваемся с терминами «data lake» и «data swamp». И если первый хорошо знаком большинству инженеров и аналитиков, то второй нередко остается за завесой неопределенности.
Причины возникновения data swamp:
Please open Telegram to view this post
VIEW IN TELEGRAM
Думаю, не нужно подробно объяснять, почему это проблема. Неполные, дублированные и даже противоречивые данные мешают аналитике, приводят к искаженным выводам, снижают эффективность работы дата-специалистов и замедляют бизнес-процессы.
Не допустить превращения data lake в data swamp можно с помощью стандартизации данных, контроля их качества, каталогизации и регулярных аудитов. Но что делать, если проблема уже возникла?
1️⃣ Анализ текущего состояния: проводим аудит всех данных, чтобы понять, какие из них полезны, а какие можно удалить или переработать
2️⃣ Очистка данных: удаляем дублирующиеся и устаревшие данные
3️⃣ Организация и реструктуризация: разрабатываем новую структуру хранения и переносим только чистые и релевантные данные
4️⃣ Внедрение инструментов управления для автоматизации процессов управления данными и мониторинга
Data Swamp — это не трагедия, конечно, но предупреждение всем, кто работает с данными. Потому что без тщательного планирования и управления даже самый продвинутый data lake может превратиться в болото, которое придется разгребать.
Не допустить превращения data lake в data swamp можно с помощью стандартизации данных, контроля их качества, каталогизации и регулярных аудитов. Но что делать, если проблема уже возникла?
Data Swamp — это не трагедия, конечно, но предупреждение всем, кто работает с данными. Потому что без тщательного планирования и управления даже самый продвинутый data lake может превратиться в болото, которое придется разгребать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Mesh: ожидание vs реальность
В последние годы концепция Data Mesh завоевала популярность, обещая революционизировать подход к управлению данными. Ожидания от нее довольно высокие:
🔸 Самодостаточные команды: каждая команда владеет своими доменными данными и развивает их независимо
🔸 Легкость масштабирования: архитектура распределенных доменов упрощает рост и поддержание системы
🔸 Сокращение зависимости от центральных дата-команд: минимизация «бутылочного горлышка»
На практике само понятие Data Mesh определено довольно плохо, и разные команды понимают под этим разное. В итоге мы сталкиваемся с неравномерным уровнем экспертизы, сложностями с координацией и управлением процессами.
Концепция, в целом, полезная, но, с моей точки зрения требует более глубокого изучения для применения на практике.
В последние годы концепция Data Mesh завоевала популярность, обещая революционизировать подход к управлению данными. Ожидания от нее довольно высокие:
На практике само понятие Data Mesh определено довольно плохо, и разные команды понимают под этим разное. В итоге мы сталкиваемся с неравномерным уровнем экспертизы, сложностями с координацией и управлением процессами.
Концепция, в целом, полезная, но, с моей точки зрения требует более глубокого изучения для применения на практике.
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем привет!
До Нового года осталось 3 недели — самое время позаботиться о праздничном настроении. Мои коллеги, Кирилл Борисов, Вячеслав Федосеев и Всеволод Севостьянов решили взять инициативу в свои руки и устроить удаленный новогодний корпоратив для всех друзей Слёрма.
В программе:
✨ Подводим итоги уходящего года: делимся провалами и факапами
✨ Загадываем желания: мечтаем о фичах, которые хотим в работе
✨ Шутим шутки: придумываем подписи к IT-мемам
✨ Дарим подарки авторам лучших историй: промокоды на скидку и доступы к мини-курсам.
Дресс-код: заряженное настроение и желание поделиться своими историями. Горячие и холодные напитки приветствуются 🥂
➡️ Когда: 17 декабря в 19:00 мск
Занять место у ёлки — через бота⬅️
До Нового года осталось 3 недели — самое время позаботиться о праздничном настроении. Мои коллеги, Кирилл Борисов, Вячеслав Федосеев и Всеволод Севостьянов решили взять инициативу в свои руки и устроить удаленный новогодний корпоратив для всех друзей Слёрма.
В программе:
Дресс-код: заряженное настроение и желание поделиться своими историями. Горячие и холодные напитки приветствуются 🥂
Занять место у ёлки — через бота
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Привет!
До нового года ровно 2 недели, а это значит, что пора создавать праздничное настроение.
Новогодний корпоратив Слёрма начнется уже через час, приглашаю всех своих подписчиков присоединиться к этому маленькому празднику.
В программе:
🔹 итоги 2024 года и планы на 2025
🔹 шутки, мемы и неформальное общение
🔹 подарки самым активным участникам: промокоды на скидку и бесплатные мини-курсы
Откладывайте свои дела, наливайте в бокал любимый напиток и подключайтесь!
Ссылки будут в боте👈
До нового года ровно 2 недели, а это значит, что пора создавать праздничное настроение.
Новогодний корпоратив Слёрма начнется уже через час, приглашаю всех своих подписчиков присоединиться к этому маленькому празднику.
В программе:
Откладывайте свои дела, наливайте в бокал любимый напиток и подключайтесь!
Ссылки будут в боте
Please open Telegram to view this post
VIEW IN TELEGRAM
Внимание! Внимание! С платформы 2024 отправляется поезд Слёрм Экспресс
🎫 Занимайте места в вагонах согласно своей профессии. Место найдется для каждого!
Есть вагоны для:
🔸 инженеров;
🔸 разработчиков;
🔸 DevOps-специалистов.
Внутри каждого вагона — мешки с подарками. В них вы найдете комплекты видеокурсов, а в некоторых даже интенсивные потоки — в общем, всё, что нужно для мощного буста в карьере в 2025 году.
Понравившийся мешок можно забрать себе, а можно подарить другу — мест в поезде хватит всем!
➡️ Забрать билет на Слёрм Экспресс — ЗДЕСЬ.
🎫 Занимайте места в вагонах согласно своей профессии. Место найдется для каждого!
Есть вагоны для:
Внутри каждого вагона — мешки с подарками. В них вы найдете комплекты видеокурсов, а в некоторых даже интенсивные потоки — в общем, всё, что нужно для мощного буста в карьере в 2025 году.
Понравившийся мешок можно забрать себе, а можно подарить другу — мест в поезде хватит всем!
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем привет!
Команда проекта «Где дата, Коль?» вместе с ментором Николаем Марковым уходит на каникулы.
Не прощаемся! Мы обязательно вернёмся с новыми постами, полезными материалами по дата-инжинирингу, и (кто знает?) — может быть даже со вторым сезоном реалити 😎
Следите за обновлениями в официальном телеграм-канале Слёрма➡️ @slurmnews
До новых встреч!
Команда проекта «Где дата, Коль?» вместе с ментором Николаем Марковым уходит на каникулы.
Не прощаемся! Мы обязательно вернёмся с новыми постами, полезными материалами по дата-инжинирингу, и (кто знает?) — может быть даже со вторым сезоном реалити 😎
Следите за обновлениями в официальном телеграм-канале Слёрма
До новых встреч!
Please open Telegram to view this post
VIEW IN TELEGRAM