ZASQL_PYTHON Telegram 216
Как бы я сейчас построил свое обучение в продуктовой аналитике / аналитике данных?

👁 Если вы ждали этот пост, ставьте реакции, пишите комментарии. В следующем посте расскажу о своих планах на ближайший год

Всем привет! Сегодня напишу о том, что бы я изменил в своем обучении, если я бы вкатывался сейчас. Давайте перейдем к самому простому, как мне кажется, это стек. Базово на аналитика данных / аналитика предлагается следующее:

🐍 Python - для обработки данных, ETL-процессов, первичной визуализации, построения ML моделей, работа с тем же Spark / Hadoop для работы с большим объемом данных.
💻 SQL - работа с СУБД, по сути данные это наш хлеб. Любые логи, записи по пользователям / клиентам, различные фичи пользователей. По моему мнению, аналитик ОБЯЗАН уметь работать с SQL, без этого никуда. Поскольку первично если собирается неправильно получится следующее: garbage in garbage out
📊 Визуализация - бизнесу нужно интерпретировать данные в удобном формате, для этого используют дашборды. Это понятно + на основе них аналитик может понимать в удобном формате как можно генерить гипотезы. Для этого подойдут Superset, Yandex DataLens, Tableu, PowerBI, FineBI и др.

Что ж, с этим разобрались, базово это выглядит так, но если углубляться в мой стек, который я использовал в 💙 - это Gitlab, Hadoop, Airflow, SQL (ClickHouse, Vertica, MS SQL, PostgreSQL), Python, Superset.

Далее, все зависит от специфики. Если для вас достаточно быть ETL-разработчиком, можно остановиться на этом, владея базовым видением, но можно пойти дальше в сторону изучения продукта, различных тенденций и что самое главное понимания как ответить на главные вопросы бизнесу. Что мы делаем? Зачем мы это делаем? Как в будущем это отразиться на нас?

Сюда наслаивается и развитие продуктового мышления, и статистика с эконометрикой и ML, и A/B тесты, различные продвинутые методы и др.

К роадмапу (помните, что 🗯 ваш друг):

0. SQL - лучший бесплатный курс по SQL ever от 🔥. Если пользователь ClickHouse, можно документацию на русском глянуть, достаточно хорошо описано. Если пользователь Vertica 😬, то можно также документацию на английском

1. Про Python у меня был пост, можно глянуть тут

2. По визуализации можно зайти в соответствующие чаты и читать документацию. По Superset документация и соответствующий чат в телеграме. По Yandex DataLens есть курс от ❤️

3. Статистика и теория вероятностей. У ФЭН ВШЭ есть хороший курс с систематизацией того, как выводятся методы, которые мы привыкли видеть. Систематизация на уровне дисциплины без упрощения. Если вдруг оказалось сложным и непонятным, можно ВЕРХНЕУРОВНЕВО вернуться к любимому Анатолию Карпову и основам статистики на степике

4. Прикладная статистика, эконометрика, уход в АБ тесты и продвинутые методы. С курсом от ВШЭ (там кстати есть Python в блоке статистики) очень хорошо сочетаются следующие курсы: Прикладная статистика от МФТИ и ААА в открытом доступе (предыдущий пост). И также курс по эконометрике от ВШЭ от Бориса Демешева на R

4* Если вдруг предыдущий пункт оказывается непосильным, подрубаем ChatGPT, ведем конспектики и смотрим Глеба Михайлова с его практическим руководством к АБ + подкрепляем статьями на Хабр. Могу отдельным постом выложить какие статьи я читаю, для чего и т.д., как систематизирую знания.

4.1. Продвинутые методы A/B тестирования. Предыдущие посты были про любимый CUPED. Сюда наслаиваются еще и дельта-методы, стратификации, линеаризации, SPRT, VWE и др. Про это также будет отдельный пост.

5. Продуктовое мышление. Для прокачки этого можно посмотреть различные мок-интервью, чего очень много. Авито, видео. Продуктовые кейсы на собеседовании, иерархии метрик и так далее. Есть над чем подумать. Еще сюда

6. Работа с большими данными. Если вы дойдете до этого, то советую ознакомиться с документацией Spark, в частности работа с Pyspark (плейлист на YouTube) основы работы с Hadoop. Здесь вы поймете какие есть ограничения при работе, будете работать над ускорением расчетов, оптимизацией и другое.
Please open Telegram to view this post
VIEW IN TELEGRAM
1106🔥4422👍16🤯3



tgoop.com/zasql_python/216
Create:
Last Update:

Как бы я сейчас построил свое обучение в продуктовой аналитике / аналитике данных?

👁 Если вы ждали этот пост, ставьте реакции, пишите комментарии. В следующем посте расскажу о своих планах на ближайший год

Всем привет! Сегодня напишу о том, что бы я изменил в своем обучении, если я бы вкатывался сейчас. Давайте перейдем к самому простому, как мне кажется, это стек. Базово на аналитика данных / аналитика предлагается следующее:

🐍 Python - для обработки данных, ETL-процессов, первичной визуализации, построения ML моделей, работа с тем же Spark / Hadoop для работы с большим объемом данных.
💻 SQL - работа с СУБД, по сути данные это наш хлеб. Любые логи, записи по пользователям / клиентам, различные фичи пользователей. По моему мнению, аналитик ОБЯЗАН уметь работать с SQL, без этого никуда. Поскольку первично если собирается неправильно получится следующее: garbage in garbage out
📊 Визуализация - бизнесу нужно интерпретировать данные в удобном формате, для этого используют дашборды. Это понятно + на основе них аналитик может понимать в удобном формате как можно генерить гипотезы. Для этого подойдут Superset, Yandex DataLens, Tableu, PowerBI, FineBI и др.

Что ж, с этим разобрались, базово это выглядит так, но если углубляться в мой стек, который я использовал в 💙 - это Gitlab, Hadoop, Airflow, SQL (ClickHouse, Vertica, MS SQL, PostgreSQL), Python, Superset.

Далее, все зависит от специфики. Если для вас достаточно быть ETL-разработчиком, можно остановиться на этом, владея базовым видением, но можно пойти дальше в сторону изучения продукта, различных тенденций и что самое главное понимания как ответить на главные вопросы бизнесу. Что мы делаем? Зачем мы это делаем? Как в будущем это отразиться на нас?

Сюда наслаивается и развитие продуктового мышления, и статистика с эконометрикой и ML, и A/B тесты, различные продвинутые методы и др.

К роадмапу (помните, что 🗯 ваш друг):

0. SQL - лучший бесплатный курс по SQL ever от 🔥. Если пользователь ClickHouse, можно документацию на русском глянуть, достаточно хорошо описано. Если пользователь Vertica 😬, то можно также документацию на английском

1. Про Python у меня был пост, можно глянуть тут

2. По визуализации можно зайти в соответствующие чаты и читать документацию. По Superset документация и соответствующий чат в телеграме. По Yandex DataLens есть курс от ❤️

3. Статистика и теория вероятностей. У ФЭН ВШЭ есть хороший курс с систематизацией того, как выводятся методы, которые мы привыкли видеть. Систематизация на уровне дисциплины без упрощения. Если вдруг оказалось сложным и непонятным, можно ВЕРХНЕУРОВНЕВО вернуться к любимому Анатолию Карпову и основам статистики на степике

4. Прикладная статистика, эконометрика, уход в АБ тесты и продвинутые методы. С курсом от ВШЭ (там кстати есть Python в блоке статистики) очень хорошо сочетаются следующие курсы: Прикладная статистика от МФТИ и ААА в открытом доступе (предыдущий пост). И также курс по эконометрике от ВШЭ от Бориса Демешева на R

4* Если вдруг предыдущий пункт оказывается непосильным, подрубаем ChatGPT, ведем конспектики и смотрим Глеба Михайлова с его практическим руководством к АБ + подкрепляем статьями на Хабр. Могу отдельным постом выложить какие статьи я читаю, для чего и т.д., как систематизирую знания.

4.1. Продвинутые методы A/B тестирования. Предыдущие посты были про любимый CUPED. Сюда наслаиваются еще и дельта-методы, стратификации, линеаризации, SPRT, VWE и др. Про это также будет отдельный пост.

5. Продуктовое мышление. Для прокачки этого можно посмотреть различные мок-интервью, чего очень много. Авито, видео. Продуктовые кейсы на собеседовании, иерархии метрик и так далее. Есть над чем подумать. Еще сюда

6. Работа с большими данными. Если вы дойдете до этого, то советую ознакомиться с документацией Spark, в частности работа с Pyspark (плейлист на YouTube) основы работы с Hadoop. Здесь вы поймете какие есть ограничения при работе, будете работать над ускорением расчетов, оптимизацией и другое.

BY Заскуль питона (Data Science)


Share with your friend now:
tgoop.com/zasql_python/216

View MORE
Open in Telegram


Telegram News

Date: |

Click “Save” ; The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” Hashtags are a fast way to find the correct information on social media. To put your content out there, be sure to add hashtags to each post. We have two intelligent tips to give you: Activate up to 20 bots How to create a business channel on Telegram? (Tutorial)
from us


Telegram Заскуль питона (Data Science)
FROM American