tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
Что такое токен в NLP и какие существуют методы токенизации
🔹 Токен —это наименьшая единица текста, которая может быть словом, подсловом (например, «un-», «friend») или знаком препинания.
🔹 Популярные методы токенизации:
1. Токенизация на уровне слов — делит текст на отдельные слова.
2. Токенизация на уровне подслов — разбивает слова на более мелкие единицы (например, BPE, WordPiece).
3. Токенизация на уровне символов — превращает текст в последовательность отдельных символов.
⚡ Выбор метода зависит от задачи:для морфологически сложных языков часто используют подсловную токенизацию, а для обработки именованных сущностей — посимвольную.
Библиотека собеса по Data Science
🔹 Токен —
🔹 Популярные методы токенизации:
⚡ Выбор метода зависит от задачи:
Библиотека собеса по Data Science
👍4❤1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Что выведет код?
Anonymous Quiz
15%
[[0, 1, 2, 3, 4, 5, 6, 7, 8]]
26%
[0, 1, 2, 3, 4, 5, 6, 7, 8]
29%
[0, 3, 6, 1, 4, 7, 2, 5, 8]
30%
None of the above
Кем является разработчик в 2025 году? Свежий анализ IT-сферы: зарплаты, востребованные технологии, специализации и демография специалистов.
Библиотека дата-сайентиста #Свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2😁1
🔄 Изменения в схеме данных: как избежать проблем для дата-команд
Мы рассмотрим четыре стратегии адаптации к изменениям и их возможные комбинации.
1. Встречи — самый простой подход
📌 Только коммуникация: команды источника данных и аналитики заранее обсуждают изменения, согласовывают сроки и схему данных перед внесением изменений в исходные наборы данных.
▪️ Плюсы:
— Самый простой подход
— Документирование в Confluence, Google Docs и т. д.
— Договоренность между командами
▪️ Минусы:
— Подвержен ошибкам
— Встречи замедляют процесс разработки
— Невозможно учесть все нюансы данных
🎯 Как реализовать:
— Фиксируйте договоренности в Confluence или Google Docs
— Включайте конкретные задачи и шаги для реализации изменений
2. Источник просто сбрасывает данные, а дата-команда разбирается
📌 Dump & Forget: команда источника просто выгружает данные, а дата-команда работает с тем, что получает. Этот метод наиболее распространен в индустрии.
▪️Плюсы:
— Самый удобный способ для команды источника
— Позволяет источнику работать быстро
— Достаточно для большинства бизнес-кейсов
▪️Минусы:
— Дата-команда постоянно догоняет изменения
— Плохие данные, сбои конвейеров и технический долг
— Дата-команда теряет концептуальное понимание данных
🎯 Как реализовать:
— Используйте Apache Iceberg и Spark’s mergeSchema
— Для инструментов типа dbt включайте on_schema_change
3. Дата-команда участвует в ревью изменений схемы данных
📌 Upstream Review: дата-команда участвует в моделировании данных источником. Как правило, дата-команды более внимательно относятся к проработке моделей данных.
▪️Плюсы:
— Предотвращает появление плохих данных
— Обеспечивает качественную схему данных
— Улучшает понимание данных между командами
▪️Минусы:
— Замедляет работу команды источника
— Не позволяет предотвратить агрегированные ошибки (например, несоответствие средней выручки за разные дни)
🎯 Как реализовать:
— Ускорьте процесс с помощью data contracts
— Используйте CODEOWNERS в GitHub, чтобы дата-команды участвовали в ревью
4. Валидация входных данных перед обработкой
📌 Input Validation: дата-команда проверяет входные данные перед их использованием. Если обнаруживается проблема, необходимо взаимодействовать с командой источника, чтобы исправить данные и повторно их обработать.
▪️ Плюсы:
— Быстрое обнаружение проблем
— Автоматизация отладки ошибок и уведомление команды источника
▪️ Минусы:
— Необходимо согласовывать проверки данных между командами
— Множественные проверки увеличивают время обработки данных
🎯 Как реализовать:
— Используйте любой инструмент контроля качества данных
— В потоковых системах применяйте DLQ (Dead Letter Queue) и реконсиляционные паттерны
Библиотека дата-сайентиста #буст
Мы рассмотрим четыре стратегии адаптации к изменениям и их возможные комбинации.
1. Встречи — самый простой подход
📌 Только коммуникация: команды источника данных и аналитики заранее обсуждают изменения, согласовывают сроки и схему данных перед внесением изменений в исходные наборы данных.
▪️ Плюсы:
— Самый простой подход
— Документирование в Confluence, Google Docs и т. д.
— Договоренность между командами
▪️ Минусы:
— Подвержен ошибкам
— Встречи замедляют процесс разработки
— Невозможно учесть все нюансы данных
🎯 Как реализовать:
— Фиксируйте договоренности в Confluence или Google Docs
— Включайте конкретные задачи и шаги для реализации изменений
2. Источник просто сбрасывает данные, а дата-команда разбирается
📌 Dump & Forget: команда источника просто выгружает данные, а дата-команда работает с тем, что получает. Этот метод наиболее распространен в индустрии.
▪️Плюсы:
— Самый удобный способ для команды источника
— Позволяет источнику работать быстро
— Достаточно для большинства бизнес-кейсов
▪️Минусы:
— Дата-команда постоянно догоняет изменения
— Плохие данные, сбои конвейеров и технический долг
— Дата-команда теряет концептуальное понимание данных
🎯 Как реализовать:
— Используйте Apache Iceberg и Spark’s mergeSchema
— Для инструментов типа dbt включайте on_schema_change
3. Дата-команда участвует в ревью изменений схемы данных
📌 Upstream Review: дата-команда участвует в моделировании данных источником. Как правило, дата-команды более внимательно относятся к проработке моделей данных.
▪️Плюсы:
— Предотвращает появление плохих данных
— Обеспечивает качественную схему данных
— Улучшает понимание данных между командами
▪️Минусы:
— Замедляет работу команды источника
— Не позволяет предотвратить агрегированные ошибки (например, несоответствие средней выручки за разные дни)
🎯 Как реализовать:
— Ускорьте процесс с помощью data contracts
— Используйте CODEOWNERS в GitHub, чтобы дата-команды участвовали в ревью
4. Валидация входных данных перед обработкой
📌 Input Validation: дата-команда проверяет входные данные перед их использованием. Если обнаруживается проблема, необходимо взаимодействовать с командой источника, чтобы исправить данные и повторно их обработать.
▪️ Плюсы:
— Быстрое обнаружение проблем
— Автоматизация отладки ошибок и уведомление команды источника
▪️ Минусы:
— Необходимо согласовывать проверки данных между командами
— Множественные проверки увеличивают время обработки данных
🎯 Как реализовать:
— Используйте любой инструмент контроля качества данных
— В потоковых системах применяйте DLQ (Dead Letter Queue) и реконсиляционные паттерны
Библиотека дата-сайентиста #буст
👍3❤1
Готовишься к интервью? Мы собрали 10 каверзных вопросов, которые любят задавать тимлиды. Здесь нет банальных задач — только те, на которых спотыкаются 80% кандидатов. Проверь себя и узнай, готов ли ты к следующему собесу!
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2❤1
Зимний режим OFF. Весна начинается с апгрейда.
Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.
📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.
Выбирай направление и выходи из спячки:
— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy
— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом
— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление
— Python, Frontend, основы IT — для тех, кто стартует путь в разработке
👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.
Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.
🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.
👉 Выбрать курс
Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.
📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.
Выбирай направление и выходи из спячки:
— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy
— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом
— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление
— Python, Frontend, основы IT — для тех, кто стартует путь в разработке
👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.
Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.
🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.
👉 Выбрать курс
Forwarded from Библиотека шарписта | C#, F#, .NET, ASP.NET
💾 Как выбрать стратегию кэширования: разбор 7 популярных алгоритмов
Кешировать нужно с умом. И нет, LRU — не серебряная пуля.
В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии
Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.
➡️ Читать статью
🐸 Библиотека шарписта
Кешировать нужно с умом. И нет, LRU — не серебряная пуля.
В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии
Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Иначе как объяснить, что все релизы случились вчера?
1. OpenAI обновили GPT-4o — теперь нейросеть не только распознаёт изображения, но и может редактировать их по любому запросу.
🌳 «Свежие зелёные луга» теперь в каждом районе страны...
2. DeepSeek V3 обновился, обогнав на бенчмарках все нерезонящие модели, включая GPT-4.5.
3. Gemini 2.5 Pro рванул вперёд, взяв лидерство почти во всём.
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1😁1
⭐ Инструмент недели: Shapash
Shapash — это библиотека для Python, предназначенная для интерпретируемого и понятного машинного обучения. Она предлагает различные визуализации с четкими и понятными метками, которые легко воспринимаются как специалистами по данным, так и пользователями без технического бэкграунда.
▪️ Что умеет Shapash?
— Генерирует Web-приложение для анализа взаимодействий между признаками модели.
— Позволяет переключаться между локальной и глобальной интерпретируемостью модели.
— Упрощает аудит моделей и данных, создавая подробные отчеты.
▪️ Shapash подходит для:
— Регрессии
— Бинарной классификации
— Мультиклассовой классификации
▪️ Совместим с моделями:
— CatBoost, XGBoost, LightGBM
— Sklearn Ensemble, линейные модели, SVM
— Другие модели также можно интегрировать (подробности в документации).
✔️ Ссылка на репозиторий: https://clc.to/Y1mkYA
Библиотека дата-сайентиста #буст
Shapash — это библиотека для Python, предназначенная для интерпретируемого и понятного машинного обучения. Она предлагает различные визуализации с четкими и понятными метками, которые легко воспринимаются как специалистами по данным, так и пользователями без технического бэкграунда.
▪️ Что умеет Shapash?
— Генерирует Web-приложение для анализа взаимодействий между признаками модели.
— Позволяет переключаться между локальной и глобальной интерпретируемостью модели.
— Упрощает аудит моделей и данных, создавая подробные отчеты.
▪️ Shapash подходит для:
— Регрессии
— Бинарной классификации
— Мультиклассовой классификации
▪️ Совместим с моделями:
— CatBoost, XGBoost, LightGBM
— Sklearn Ensemble, линейные модели, SVM
— Другие модели также можно интегрировать (подробности в документации).
✔️ Ссылка на репозиторий: https://clc.to/Y1mkYA
Библиотека дата-сайентиста #буст
👍6❤1
☕ Что посмотреть: Fabric Espresso
Команда Microsoft Fabric запускает новую серию блог-постов о Data Science и Machine Learning в Microsoft Fabric.
За последние 1,5 года продакт-менеджеры выпустили 80+ эпизодов на YouTube, где:
▪️ разбирают фичи продукта,
▪️ делятся дорожной картой,
▪️ показывают реальные кейсы.
Теперь следить за новинками стало еще проще! Они начали публиковать тематические подборки эпизодов с ключевыми инсайтами и пояснениями.
📌 В фокусе этой недели: данные, модели, AutoML и возможности ML в Fabric.
🎥 Смотреть плейлист: https://clc.to/NAT8FQ
Библиотека дата-сайентиста #буст
Команда Microsoft Fabric запускает новую серию блог-постов о Data Science и Machine Learning в Microsoft Fabric.
За последние 1,5 года продакт-менеджеры выпустили 80+ эпизодов на YouTube, где:
▪️ разбирают фичи продукта,
▪️ делятся дорожной картой,
▪️ показывают реальные кейсы.
Теперь следить за новинками стало еще проще! Они начали публиковать тематические подборки эпизодов с ключевыми инсайтами и пояснениями.
📌 В фокусе этой недели: данные, модели, AutoML и возможности ML в Fabric.
🎥 Смотреть плейлист: https://clc.to/NAT8FQ
Библиотека дата-сайентиста #буст
👍2❤1
Forwarded from Библиотека девопса | DevOps, SRE, Sysadmin
☸️ CKAD 2025. Самый свежий гайд по сдаче сертификации Certified Kubernetes Application Developer
CKAD стал более строгим к деталям — без системной подготовки можно завалить даже на банальных заданиях. Если хочется разобраться, что важно для получения сертификации — эта статья сэкономит часы.
➡️ Читать статью
🐸 Библиотека devops'a
CKAD стал более строгим к деталям — без системной подготовки можно завалить даже на банальных заданиях. Если хочется разобраться, что важно для получения сертификации — эта статья сэкономит часы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Сегодня делимся вопросом от нашего подписчика, который уже 3,5 года работает Data Scientist, но хочет выйти на новый уровень и попасть в топовые компании.
Общаясь с опытными DS, я получил важный фидбэк по своему резюме:— У меня недостаточно опыта в NLP, Deep Learning и LLMs.— У меня нет проектов, которые демонстрируют эти навыки.— По оформлению резюме мнения сильно разнятся.
Теперь передо мной стоит вопрос: как эффективно прокачать эти навыки и повысить шансы на новую работу?
🔹 Как развить понимание NLP, DL и LLMs на уровне, достаточном для перехода в новую компанию?
🔹 Из-за разных форматов обучения (курсы, проекты и т. д.) ощущаю перегруз. Как организовать процесс, чтобы не распыляться?
🔹 Как объективно оценить свою подготовку перед собеседованием?
💡 Делитесь своими советами и личным опытом в комментариях!
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🤔1
aiopandas
— асинхронная магия для PandasТеперь обработка данных в Pandas может быть асинхронной!
aiopandas
— это лёгкий monkey-patch, который добавляет поддержку async в map
, apply
, applymap
, aggregate
и transform
. Это позволяет параллельно выполнять асинхронные функции без лишних сложностей. 🔺 Что умеет aiopandas?
— Поддерживает асинхронные функции без изменений в коде
— Управляет количеством параллельных задач через
max_parallel
— Встроенная обработка ошибок: можно прерывать, игнорировать или логировать
— Поддержка
tqdm
для отслеживания прогресса 🔺 Быстрый старт:
import aiopandas as pd # Monkey-патчим Pandas
import asyncio
df = pd.DataFrame({'x': range(10)})
async def f(x):
await asyncio.sleep(0.1 x) # Симуляция асинхронной задачи
return x 2 # Преобразование данных
df['y'] = await df.x.amap(f, max_parallel=5) # Асинхронный map
print(df)
🔺 Кому пригодится aiopandas?
— Запросы к API (LLMs, веб-скрапинг, базы данных)
— Ускорение работы с асинхронными задачами в Pandas
— Минимальные изменения кода:
.map()
→ .amap()
, .apply()
→ .aapply()
Ссылка на репозиторий aiopandas: https://clc.to/Pf_xow
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5⚡3❤1
🎯 Устали от вопросов типа «Ну и что это значит для бизнеса?» после презентации отчетов?
Bullet-chart — мощный инструмент, который сразу показывает, насколько фактические показатели соответствуют целевым. В этой статье разберем, как правильно читать такой график и шаг за шагом создадим его в Power BI.
Готовы визуализировать данные так, чтобы они говорили сами за себя?
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2