- Telegram Web

Где дата, Коль?

Всем привет!

Вы когда-нибудь задумывались, как выглядит дата-инжиниринг в топовых мировых компаниях? Например, в одном из крупнейших стриминговых сервисов?

В апреле Netflix провели первый открытый форум для дата инженеров, чтобы поделиться своим опытом и взглядом на современные разработки, насущные проблемы и перспективы в области обработки данных.

Нашел рекап этого форума, очень интересно! Захотелось поделиться с вами ⚡️

👉

Читать на Medium

Please open Telegram to view this post

VIEW IN TELEGRAM

Medium

A Recap of the Data Engineering Open Forum at Netflix

A summary of sessions at the first Data Engineering Open Forum at Netflix on April 18th, 2024

309 views13:35

Модели построения DWH

Эту тему я поднимал на вебинаре, который мы проводили с Евгением Ермаковым (если пропустили, полную запись можно найти тут). Хочу вернуться к ней еще раз, потому что нашел классную статью на Second Brain.

В ней модели Inmon и Kimpball сравниваются и противопоставляются — можно оценить преимущества и недостатки и разобраться в процессах. Тем, кто только начинает свой путь в дата-инжиниринге, будет полезно:

📝

Inmon vs Kimball: Data Warehousing Approaches

Please open Telegram to view this post

VIEW IN TELEGRAM

408 views12:02

Где дата, Коль?

Привет, в этом посте собрал для вас самые распространенные мифы о дата-инженерах. Поделитесь, думали так же когда-то?

373 views13:58

Где дата, Коль?

Чаптер дата-инженера: что это такое на примере Билайна

Всем привет! Предлагаю сегодня почитать, как работают с данными и как устроена жизнь в чаптере дата-инженеров и разработчиков в билайне.

Несколько лет назад, когда компания пошла в цифровизацию и концепцию data driven, когда возникла потребность в формировании экспертизы по инжинирингу данных, – тогда и был сформирован чаптер дата-инженеров и разработчиков.
➡️ Читать статью — по ссылке.

Please open Telegram to view this post

VIEW IN TELEGRAM

Чаптер дата-инженеров: что это такое и зачем он билайну

Чаптер дата-инженеров: что это такое и зачем он билайну — новая статья из рубрики «Новые технологии» | билайн now

Чаптер дата-инженеров: что это такое и зачем он билайну.📰 Рубрика «Новые технологии». билайн now — медиапортал Билайн: мнения экспертов, новости компании и отраслевые тенденции. 📈

406 views10:26

Где дата, Коль?

Сталкивались с чаптерами в реальных проектах?

Anonymous Poll

41 voters416 views10:26

Где дата, Коль?

This media is not supported in your browser

VIEW IN TELEGRAM

Привет!

Скидки — это всегда приятно, поэтому мы в Слëрме решили порадовать вас и тоже устроить ЧËРНЫЙ ПОНЕДЕЛЬНИК.

👉

скидка 50% на всё курсы по промокоду BLACK_MONDAY сегодня до 23:59

➡️ скопируйте промокод
➡️ переходите в каталог курсов
➡️ вводите промокод на этапе оформления

Немного об условиях акции:

🔸скидка доступная только физическим лицам и только при оплате банковской картой
🔸скидка не распространяется на курсы с открытым листом ожидания
🔸скидка не применяется при рассрочке
🔸скидка не работает с комплектами курсов и другими специальными предложениями

Как мне кажется, это отличный повод прокачать хард-скиллы и выйти на новый уровень в профессии. Подключайтесь!

Please open Telegram to view this post

VIEW IN TELEGRAM

319 views12:31

Где дата, Коль?

Привет!

Давненько мы с вами не виделись. Загрузка сейчас довольно большая, особенно на курсе — мы со студентами заканчиваем модуль по Apache Spark (тому самому, который не любят все дата-инженеры 😅)

До конца недели можно досдать практическое задание (построить витрину данных, представляющую собой набор агрегатов по месяцам на основе лога таможни), и мы уже переходим к реляционным базам данных.

И раз уж тема зашла про спарк — принес вам крутой кейс от сбера по работе с таблицами с сотнями терабайт данных:

👉

Часть первая

👉

Часть вторая

Ребятам удалось сократить процесс обновления с 9-12 часов до 30-40 минут — это точно стоит почитать 🔥

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Изменить сохранения Spark! Часть первая: разделяй и… сортируй

Автор: Иван Калининский, участник профессионального сообщества Сбера SberProfi DWH/BigData. Профессиональное сообщество SberProfi DWH/BigData отвечает за развитие компетенций...

348 views11:45

Где дата, Коль?

Инструменты Data Quality

Качество данных — это фундамент успешной работы с ними. Проблема заключается в том, что качество данных субъективно и ситуативно, и универсальных решений, которые подошли бы для любого проекта, нет.

Функциональные возможности инструментов DQ:
🔸Мониторинг (Observability)
🔸Профилирование данных (Profiling)
🔸Подготовка данных (Parsing, standardizing, cleansing)
🔸Data Fixing
🔸Поддержка DataOps

Примеры инструментов, которые закрывают основные задачи DQ:
➡️ Informatica Data Quality (IDQ)
➡️ SAP Data Services
➡️ Ataccama ONE
➡️ Oracle Enterprise Data Quality
➡️ Microsoft Data Quality Services
➡️ SAS Data Quality
➡️ DQLabs Platform

С какими из них сталкивались?

Please open Telegram to view this post

VIEW IN TELEGRAM

267 views13:25

Где дата, Коль?

О чем рассказать подробнее?

Anonymous Poll

24%

Informatica Data Quality (IDQ)

Oracle Enterprise Data Quality

20%

Microsoft Data Quality Services

25 voters295 views13:26

Где дата, Коль?

Что инженер данных должен уметь в Kubernetes?

➡️

Запускать Apache Spark

➡️

Деплоить распределенные файловые системы и базы данных

➡️

Разворачивать сервинг ML-моделей на KServe, Seldon Core, Bento+Yatai

В Слёрме есть целых три флагманских курса по кубам — базовый, продвинутый и для разработчиков. Очень рекомендую присмотреться к третьему — в нем кубы разбираются именно с точки зрения приложения.

Внутри:

🔸7 недель обучения
🔸7 встреч со спикерами
🔸76 часов практики и работы со стендами
🔸Итоговая сертификация

🌟

Подготовительные видеокурсы по основам Ansible и Docker в подарок.

Старт потока — 9 декабря.
Полная программа курса — по ссылке

⬅️

Please open Telegram to view this post

VIEW IN TELEGRAM

386 viewsedited 11:21

Где дата, Коль?

Что такое Data Swamp, и как с ним жить?

В мире больших данных мы все чаще сталкиваемся с терминами «data lake» и «data swamp». И если первый хорошо знаком большинству инженеров и аналитиков, то второй нередко остается за завесой неопределенности.

👉 Data Swamp — это «заболоченное» хранилище данных, в котором информация накапливается хаотично, без должной структуры и управления. В отличие от data lake, который представляет собой управляемое и четко организованное хранилище, data swamp — это беспорядок, в котором крайне сложно искать нужные данные.

Причины возникновения data swamp:

🔸 отсутствие систематизации и каталогизации данных
🔸 хаотичная загрузка данных без контроля качества и проверок
🔸 разрозненная структура данных, отсутствие общих стандартов и правил

Please open Telegram to view this post

VIEW IN TELEGRAM

268 views10:42

Где дата, Коль?

Думаю, не нужно подробно объяснять, почему это проблема. Неполные, дублированные и даже противоречивые данные мешают аналитике, приводят к искаженным выводам, снижают эффективность работы дата-специалистов и замедляют бизнес-процессы.

Не допустить превращения data lake в data swamp можно с помощью стандартизации данных, контроля их качества, каталогизации и регулярных аудитов. Но что делать, если проблема уже возникла?

1️⃣ Анализ текущего состояния: проводим аудит всех данных, чтобы понять, какие из них полезны, а какие можно удалить или переработать
2️⃣ Очистка данных: удаляем дублирующиеся и устаревшие данные
3️⃣ Организация и реструктуризация: разрабатываем новую структуру хранения и переносим только чистые и релевантные данные
4️⃣ Внедрение инструментов управления для автоматизации процессов управления данными и мониторинга

Data Swamp — это не трагедия, конечно, но предупреждение всем, кто работает с данными. Потому что без тщательного планирования и управления даже самый продвинутый data lake может превратиться в болото, которое придется разгребать.

Please open Telegram to view this post

VIEW IN TELEGRAM

355 views10:42

Где дата, Коль?

Data Mesh: ожидание vs реальность

В последние годы концепция Data Mesh завоевала популярность, обещая революционизировать подход к управлению данными. Ожидания от нее довольно высокие:

🔸 Самодостаточные команды: каждая команда владеет своими доменными данными и развивает их независимо
🔸 Легкость масштабирования: архитектура распределенных доменов упрощает рост и поддержание системы
🔸 Сокращение зависимости от центральных дата-команд: минимизация «бутылочного горлышка»

На практике само понятие Data Mesh определено довольно плохо, и разные команды понимают под этим разное. В итоге мы сталкиваемся с неравномерным уровнем экспертизы, сложностями с координацией и управлением процессами.

Концепция, в целом, полезная, но, с моей точки зрения требует более глубокого изучения для применения на практике.

Please open Telegram to view this post

VIEW IN TELEGRAM

320 views07:59

Где дата, Коль?

Всем привет!

До Нового года осталось 3 недели — самое время позаботиться о праздничном настроении. Мои коллеги, Кирилл Борисов, Вячеслав Федосеев и Всеволод Севостьянов решили взять инициативу в свои руки и устроить удаленный новогодний корпоратив для всех друзей Слёрма.

В программе:

✨ Подводим итоги уходящего года: делимся провалами и факапами
✨ Загадываем желания: мечтаем о фичах, которые хотим в работе
✨ Шутим шутки: придумываем подписи к IT-мемам
✨ Дарим подарки авторам лучших историй: промокоды на скидку и доступы к мини-курсам.

Дресс-код: заряженное настроение и желание поделиться своими историями. Горячие и холодные напитки приветствуются 🥂

➡️

Когда: 17 декабря в 19:00 мск
Занять место у ёлки — через бота

⬅️

Please open Telegram to view this post

VIEW IN TELEGRAM

278 views11:39

Где дата, Коль?

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Привет!

До нового года ровно 2 недели, а это значит, что пора создавать праздничное настроение.

Новогодний корпоратив Слёрма начнется уже через час, приглашаю всех своих подписчиков присоединиться к этому маленькому празднику.

В программе:
🔹итоги 2024 года и планы на 2025
🔹шутки, мемы и неформальное общение
🔹подарки самым активным участникам: промокоды на скидку и бесплатные мини-курсы

Откладывайте свои дела, наливайте в бокал любимый напиток и подключайтесь!

Ссылки будут в боте

👈

Please open Telegram to view this post

VIEW IN TELEGRAM

269 views15:00

Где дата, Коль?

Внимание! Внимание! С платформы 2024 отправляется поезд Слёрм Экспресс

🎫 Занимайте места в вагонах согласно своей профессии. Место найдется для каждого!

Есть вагоны для:
🔸 инженеров;
🔸 разработчиков;
🔸 DevOps-специалистов.

Внутри каждого вагона — мешки с подарками. В них вы найдете комплекты видеокурсов, а в некоторых даже интенсивные потоки — в общем, всё, что нужно для мощного буста в карьере в 2025 году.

Понравившийся мешок можно забрать себе, а можно подарить другу — мест в поезде хватит всем!

➡️

Забрать билет на Слёрм Экспресс — ЗДЕСЬ.

Please open Telegram to view this post

VIEW IN TELEGRAM

306 views14:21

Где дата, Коль?

Всем привет!

Команда проекта «Где дата, Коль?» вместе с ментором Николаем Марковым уходит на каникулы.

Не прощаемся! Мы обязательно вернёмся с новыми постами, полезными материалами по дата-инжинирингу, и (кто знает?) — может быть даже со вторым сезоном реалити 😎

Следите за обновлениями в официальном телеграм-канале Слёрма

➡️

@slurmnews

До новых встреч!

Please open Telegram to view this post

VIEW IN TELEGRAM

243 views12:22

2025/01/22 06:25:45
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>