tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
🤖 AI + собеседования = новый тренд?
Недавний опрос показал, что каждый десятый россиянин уже использует AI, чтобы подготовиться к собеседованию!
🔹 Лидеры — ChatGPT и GigaChat: помогают оформить резюме и сопроводительное письмо.
🔹 AI для тренировки интервью пока используют реже.
🔹 60% уверены, что нейросети реально помогают.
🔹 Но есть опасения, что AI может завышать реальные навыки.
💥 И вот пример, как AI уже меняет рынок труда:
Чунгин Ли, студент Колумбийского университета, создал InterviewCoder — AI-приложение для прохождения технических собеседований.
✔️ Стартап приносит $30K в месяц!
✔️ Он протестировал его на собеседовании в Amazon и получил офер!
✔️ Рассказал об этом в Twitter, собрал кучу просмотров, но…
✔️ Amazon разозлился, пожаловался в его университет, и теперь Чунгина могут отчислить.
Как думаете, это гениальный лайфхак или обман работодателей?
Недавний опрос показал, что каждый десятый россиянин уже использует AI, чтобы подготовиться к собеседованию!
🔹 Лидеры — ChatGPT и GigaChat: помогают оформить резюме и сопроводительное письмо.
🔹 AI для тренировки интервью пока используют реже.
🔹 60% уверены, что нейросети реально помогают.
🔹 Но есть опасения, что AI может завышать реальные навыки.
💥 И вот пример, как AI уже меняет рынок труда:
Чунгин Ли, студент Колумбийского университета, создал InterviewCoder — AI-приложение для прохождения технических собеседований.
✔️ Стартап приносит $30K в месяц!
✔️ Он протестировал его на собеседовании в Amazon и получил офер!
✔️ Рассказал об этом в Twitter, собрал кучу просмотров, но…
✔️ Amazon разозлился, пожаловался в его университет, и теперь Чунгина могут отчислить.
Как думаете, это гениальный лайфхак или обман работодателей?
👍6❤1😁1
✅ Промпт для обучения модели классификации
Хотите быстро натренировать ML-модель для классификации? Используйте этот промпт:
Попробуйте и расскажите, какие результаты получили!
Библиотека дата-сайентиста #буст
Хотите быстро натренировать ML-модель для классификации? Используйте этот промпт:
I have a dataset that contains [describe the dataset: type, structure, source, and key features]. The dataset consists of [number of rows] rows and [number of columns] columns. The features include [list of key features], and the target variable is [target feature].
Please build a machine learning model that predicts [target feature] using appropriate preprocessing, feature engineering, and model selection.
Попробуйте и расскажите, какие результаты получили!
Библиотека дата-сайентиста #буст
👍3❤1
Forwarded from Proglib.academy | IT-курсы
🧮🔠 Математика в действии: решаем хитрые задачи по прогнозированию, оптимизации и логике
Статья, которая поможет развить навыки решения задач с помощью математики.
➡️ Вот что вас ждет
1️⃣ Прогнозирование численности населения — используем цепи Маркова для предсказания миграций между городом и пригородами.
2️⃣ Минимизация затрат — находим минимальное скалярное произведение векторов для оптимального распределения задач между работниками.
3️⃣ Машина времени — решаем задачу максимального числа пересекающихся временных интервалов с помощью заметающей прямой.
4️⃣ Алгоритм Целлера — вычисляем день недели по дате. Проверка на практике.
🔵 Хочешь прокачаться в математике для ML? Тогда разбирайся с этими задачами и не упусти вебинар: «Математика для ML: от теории к практике».
👉 Читать статью
Статья, которая поможет развить навыки решения задач с помощью математики.
👉 Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3😁2
😍 Подборка 25 полезных и бесплатных ресурсов для аналитиков
Если ты сомневаешься, стоит ли тратить время на освоение статистических методов и других сложных тем аналитики, начни с бесплатных курсов. Это отличный способ:
👍 Получить крепкую базу знаний, которая поможет понять, стоит ли углубляться дальше.
👍 Получить сертификаты, которые могут быть полезны для твоего резюме, особенно если опыта пока нет.
Ссылка на ресурсы: https://clc.to/4p3g-g
Библиотека дата-сайентиста #буст
Если ты сомневаешься, стоит ли тратить время на освоение статистических методов и других сложных тем аналитики, начни с бесплатных курсов. Это отличный способ:
👍 Получить крепкую базу знаний, которая поможет понять, стоит ли углубляться дальше.
👍 Получить сертификаты, которые могут быть полезны для твоего резюме, особенно если опыта пока нет.
Ссылка на ресурсы: https://clc.to/4p3g-g
Библиотека дата-сайентиста #буст
👍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 How to: как настроить Gradient Boosting
Не выбирайте слишком много гиперпараметров. Достаточно этих пяти:
✔️ learning rate, глубина деревьев, количество деревьев, subsample ratio, L1/L2-регуляризация.
Учитывайте взаимосвязь параметров:
✔️ Меньший learning rate → нужно больше деревьев.
✔️ Глубокие деревья → нужен меньший learning rate.
Как настраивать:
✔️ Фиксируем 500–1000 деревьев.
✔️ Тюним learning rate, глубину и другие параметры.
✔️ Используем раннюю остановку (15–20 итераций без улучшений).
Полезные рекомендации:
✔️ Learning rate: 0.001–0.05, по умолчанию 0.01.
✔️ Размер датасета: для маленьких → деревья 1–3, для больших → 4–6.
✔️ Регуляризация: L2 — для коррелированных фич, L1 — для отбора важных.
✔️ subsample: 0.1–0.7, по умолчанию 0.5.
✔️ k-fold CV обязателен, для временных рядов — nested sliding CV.
🔥 Какой совет был полезен? Делитесь!
Библиотека дата-сайентиста #буст
Не выбирайте слишком много гиперпараметров. Достаточно этих пяти:
✔️ learning rate, глубина деревьев, количество деревьев, subsample ratio, L1/L2-регуляризация.
Учитывайте взаимосвязь параметров:
✔️ Меньший learning rate → нужно больше деревьев.
✔️ Глубокие деревья → нужен меньший learning rate.
Как настраивать:
✔️ Фиксируем 500–1000 деревьев.
✔️ Тюним learning rate, глубину и другие параметры.
✔️ Используем раннюю остановку (15–20 итераций без улучшений).
Полезные рекомендации:
✔️ Learning rate: 0.001–0.05, по умолчанию 0.01.
✔️ Размер датасета: для маленьких → деревья 1–3, для больших → 4–6.
✔️ Регуляризация: L2 — для коррелированных фич, L1 — для отбора важных.
✔️ subsample: 0.1–0.7, по умолчанию 0.5.
✔️ k-fold CV обязателен, для временных рядов — nested sliding CV.
🔥 Какой совет был полезен? Делитесь!
Библиотека дата-сайентиста #буст
👍10❤1🥰1🤩1
Отобрали для вас полезные и проверенные каналы для программистов — в них вы найдете все самое интересное, от технических новостей до практических гайдов.
IT Job Hub | Работа и вакансии в IT — избранные IT-вакансии
Библиотека программиста — новости из мира IT и технологий
Книги для программистов — самые годные книги по любым языкам и стекам
IT-мемы — мемы про жизу айтишника
Proglib Academy — обучение и курсы, чтобы стать топовым специалистом
Азбука айтишника — азы из мира разработки
Библиотека нейросетей — лайфхаки и промпты для разных задач, баттлы нейронок и новости из мира ИИ
Библиотека фронтендера — все о JS, React, Angular и не только
Библиотека мобильного разработчика — лайфхаки и новости из мира Swift и Kotlin
Библиотека хакера — уязвимости, атаки, бэкдоры и как от них защититься
Библиотека тестировщика — самое интересное о том, как крашить код
🦫 Go
Библиотека Go-разработчика
Библиотека задач по Go
Библиотека Go для собеса
Вакансии по Go
#️⃣ C#
Библиотека шарписта
Библиотека задач по C#
Библиотека собеса по C#
Вакансии по C#
🔧 DevOps
Библиотека devops’а
Библиотека задач по DevOps
Библиотека собеса по DevOps
Вакансии по DevOps & SRE
🐘 PHP
Библиотека пхпшника
Библиотека задач по PHP
Библиотека PHP для собеса
Вакансии по PHP, Symfony, Laravel
🐍 Python
Библиотека питониста
Библиотека Python для собеса
Библиотека задач по Python
Вакансии по питону, Django, Flask
☕️ Java
Библиотека джависта
Библиотека задач по Java
Библиотека Java для собеса
Вакансии по Java
📊 Data Science
Библиотека дата-сайентиста
Библиотека задач по Data Science
Библиотека Data Science для собеса
Вакансии по Data Science
🎮 C++
Библиотека C/C++ разработчика
Библиотека задач по C++
Библиотека C++ для собеса
Вакансии по C++
Подписывайтесь на интересные вам каналы и сохраняйте пост в закладки, чтобы не потерять 🔑
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
🤔 Математика vs библиотеки: что важнее для Data Scientist?
Представьте задачу, которую нужно решить быстро. В одном случае вы углубляетесь в алгоритмы и теоремы, в другом — используете библиотеки для быстрого решения.
Что важнее в реальной работе: глубокое понимание математики или способность быстро применять библиотеки?
👍 — Математика решает, без неё в DS никуда
❤️ — Достаточно библиотек, главное — практика
🔥 — Комбинированный подход: баланс важен
Библиотека дата-сайентиста #междусобойчик
Представьте задачу, которую нужно решить быстро. В одном случае вы углубляетесь в алгоритмы и теоремы, в другом — используете библиотеки для быстрого решения.
Что важнее в реальной работе: глубокое понимание математики или способность быстро применять библиотеки?
👍 — Математика решает, без неё в DS никуда
❤️ — Достаточно библиотек, главное — практика
🔥 — Комбинированный подход: баланс важен
Библиотека дата-сайентиста #междусобойчик
🔥57👍15❤3
🔹 Фишка Shapiq: Shapley Interactions для машинного обучения
Shapiq — новая библиотека, которая расширяет возможности популярной библиотеки SHAP, добавляя возможность количественного анализа взаимодействий признаков, данных или слабых моделей в ансамблях. Это позволяет глубже понять, как модель принимает решения.
Удобный способ визуализации взаимодействий признаков (до второго порядка) — графовые диаграммы. На таком графике:
🔹 Узлы представляют значимость отдельных признаков.
🔹 Ребра показывают силу их взаимодействий.
🔹 Размер узлов и рёбер пропорционален абсолютным значениям атрибуций и взаимодействий.
Пример кода:
🔗 Репозиторий: https://clc.to/JSHqLA
Библиотека дата-сайентиста #буст
Shapiq — новая библиотека, которая расширяет возможности популярной библиотеки SHAP, добавляя возможность количественного анализа взаимодействий признаков, данных или слабых моделей в ансамблях. Это позволяет глубже понять, как модель принимает решения.
Удобный способ визуализации взаимодействий признаков (до второго порядка) — графовые диаграммы. На таком графике:
🔹 Узлы представляют значимость отдельных признаков.
🔹 Ребра показывают силу их взаимодействий.
🔹 Размер узлов и рёбер пропорционален абсолютным значениям атрибуций и взаимодействий.
Пример кода:
shapiq.network_plot(first_order_values=interaction_values.get_n_order_values(1),second_order_values=interaction_values.get_n_order_values(2))
# или
interaction_values.plot_network()
🔗 Репозиторий: https://clc.to/JSHqLA
Библиотека дата-сайентиста #буст
❤1👍1🔥1
🔍 Концепция дня: LIME в ML
Прогнозировать — круто, но понимать, почему модель приняла решение, ещё важнее!
LIME (Local Interpretable Model-agnostic Explanations) помогает объяснять работу моделей, даже если они сложные.
Как это работает?
1. Берём данные и их предсказание.
2. Генерируем похожие данные, меняя признаки.
3. Получаем предсказания модели.
4. Обучаем простую линейную модель, чтобы выделить важные признаки.
Для чего подходит?
✔️ Таблицы → добавляем шум к непрерывным признакам или меняем категориальные значения.
✔️ Текст → случайным образом удаляем слова.
✔️ Изображения → создаём суперпиксели и отключаем их для оценки вклада.
Библиотека дата-сайентиста #буст
Прогнозировать — круто, но понимать, почему модель приняла решение, ещё важнее!
LIME (Local Interpretable Model-agnostic Explanations) помогает объяснять работу моделей, даже если они сложные.
Как это работает?
1. Берём данные и их предсказание.
2. Генерируем похожие данные, меняя признаки.
3. Получаем предсказания модели.
4. Обучаем простую линейную модель, чтобы выделить важные признаки.
Для чего подходит?
✔️ Таблицы → добавляем шум к непрерывным признакам или меняем категориальные значения.
✔️ Текст → случайным образом удаляем слова.
✔️ Изображения → создаём суперпиксели и отключаем их для оценки вклада.
Библиотека дата-сайентиста #буст
❤5🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
А вы говорите «спасибо» ChatGPT?
❤️ — Конечно, вдруг пощадит при восстании машин.
⚡ — Нет, пусть учится писать короче, понятнее, как человек.
Библиотека дата-сайентиста #развлекалово
❤️ — Конечно, вдруг пощадит при восстании машин.
⚡ — Нет, пусть учится писать короче, понятнее, как человек.
Библиотека дата-сайентиста #развлекалово
❤34⚡9😁4💯1
Forwarded from Библиотека джависта | Java, Spring, Maven, Hibernate
Сегодня отмечаем вклад девушек-разработчиков, аналитиков, тестировщиков, тимлидов и всех, кто влюблён в код. Без вас IT не было бы таким, каким мы его знаем. С праздником, коллеги 💐
Женщины оставили огромный след в истории IT. Если вам кажется, что программирование — это исключительно «мужская территория», взгляните, вот лишь несколько легендарных женщин:
🔹 Ада Лавлейс — автор первой компьютерной программы ещё в 19 веке.
🔹 Грейс Хоппер — создала первый компилятор и популяризировала термин «баг».
🔹 Барбара Лисков — её принцип Liskov Substitution является основой ООП, в том числе в Java.
🔹 Эдит Кларк — первая женщина-инженер, внесшая вклад в вычислительные методы в энергетике.
🔹 Маргарет Гамильтон — разработала софт для посадки «Аполлона-11» на Луну.
А это только малая часть. В статье собраны ещё больше вдохновляющих историй.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍2🔥1🥰1🤩1
🔎 Wordsearch: узнаем, кто самый внимательный
Готовы проверить свои знания в Data Science? В этой головоломке спрятаны 8 терминов из мира DS.
Правила просты:
— Найдите 8 слов в сетке (слова идут по горизонтали)
— Напишите в комментариях, какие слова вы нашли
— Объясните один из терминов так, чтобы даже джун понял
🏆 Кто первым найдет все 8 слов и объяснит хотя бы один термин — получит почетный статус DS Guru на неделю!
Погнали 👇
Библиотека дата-сайентиста #междусобойчик
Готовы проверить свои знания в Data Science? В этой головоломке спрятаны 8 терминов из мира DS.
Правила просты:
— Найдите 8 слов в сетке (слова идут по горизонтали)
— Напишите в комментариях, какие слова вы нашли
— Объясните один из терминов так, чтобы даже джун понял
🏆 Кто первым найдет все 8 слов и объяснит хотя бы один термин — получит почетный статус DS Guru на неделю!
Погнали 👇
Библиотека дата-сайентиста #междусобойчик
❤2👍2
📰 Главные новости недели в AI & Data Science
🔹 Google Colab представил Data Science агента — теперь он умеет создавать целые ноутбуки, а не просто фрагменты кода.
🔹 OpenAI инвестирует $50M в университеты — программа NextGenAI направлена на развитие ИИ-исследований.
🔹 Премия Тьюринга за RL — главная награда в CS присуждена за вклад в обучение с подкреплением.
🔹 Новая статья «Superintelligence Strategy» — топовые ML-исследователи предлагают стратегию безопасности ИИ.
🔹 Hazy Research ускорили Multiheaded Latent Attention на 30% — быстрее, чем DeepSeek!
🔹 Новая книга «Foundations of Large Language Models» — глубокий разбор основ LLM, от предобучения до выравнивания.
🔹 Mistral AI представила OCR API — точное извлечение данных из сложных документов.
🔹 Alibaba Qwen представила QwQ-32B — конкурента DeepSeek.
Как вам новости? Что впечатлило больше всего?
Библиотека дата-сайентиста #свежак
🔹 Google Colab представил Data Science агента — теперь он умеет создавать целые ноутбуки, а не просто фрагменты кода.
🔹 OpenAI инвестирует $50M в университеты — программа NextGenAI направлена на развитие ИИ-исследований.
🔹 Премия Тьюринга за RL — главная награда в CS присуждена за вклад в обучение с подкреплением.
🔹 Новая статья «Superintelligence Strategy» — топовые ML-исследователи предлагают стратегию безопасности ИИ.
🔹 Hazy Research ускорили Multiheaded Latent Attention на 30% — быстрее, чем DeepSeek!
🔹 Новая книга «Foundations of Large Language Models» — глубокий разбор основ LLM, от предобучения до выравнивания.
🔹 Mistral AI представила OCR API — точное извлечение данных из сложных документов.
🔹 Alibaba Qwen представила QwQ-32B — конкурента DeepSeek.
Как вам новости? Что впечатлило больше всего?
Библиотека дата-сайентиста #свежак
👍4❤1
📸 Как улучшить качество YOLO-детекции?
Наш подписчик задал этот вопрос, и мы нашли подробный гайд на тему. Вот основные моменты:
🎯 Данные:
• Большой размер тренировочного датасета → помогает модели адаптироваться к разным условиям.
• Точность разметки → корректная аннотация повышает чувствительность модели к деталям.
• Выбор фона → релевантные фоны уменьшают ложные срабатывания.
🎯 Размер изображений и батч:
• Крупные изображения → могут повысить точность, но требуют больше вычислений.
• Маленький батч → может замедлить обучение, но поможет избежать проблем с памятью.
🎯 Эпохи и гиперпараметры:
Слишком мало эпох – недообучение, слишком много – переобучение.
🎯 Что еще можно сделать:
• Гистограммное выравнивание → улучшает изображения.
• Извлечение признаков → помогает модели лучше понимать объекты.
• Комбинация алгоритмов → можно объединить YOLO с другими моделями.
Хотите углубиться в тему? Вот подробная статья: https://clc.to/jDz1DQ
🤔 А что бы вы добавили к этому списку?
Библиотека дата-сайентиста #междусобойчик
Наш подписчик задал этот вопрос, и мы нашли подробный гайд на тему. Вот основные моменты:
🎯 Данные:
• Большой размер тренировочного датасета → помогает модели адаптироваться к разным условиям.
• Точность разметки → корректная аннотация повышает чувствительность модели к деталям.
• Выбор фона → релевантные фоны уменьшают ложные срабатывания.
🎯 Размер изображений и батч:
• Крупные изображения → могут повысить точность, но требуют больше вычислений.
• Маленький батч → может замедлить обучение, но поможет избежать проблем с памятью.
🎯 Эпохи и гиперпараметры:
Слишком мало эпох – недообучение, слишком много – переобучение.
🎯 Что еще можно сделать:
• Гистограммное выравнивание → улучшает изображения.
• Извлечение признаков → помогает модели лучше понимать объекты.
• Комбинация алгоритмов → можно объединить YOLO с другими моделями.
Хотите углубиться в тему? Вот подробная статья: https://clc.to/jDz1DQ
🤔 А что бы вы добавили к этому списку?
Библиотека дата-сайентиста #междусобойчик
💯3❤1👍1😁1
🚀 Релиз FireDucks 1.2.4
Новая версия FireDucks была релизнута 7 марта:
• Удалены fallback-режимы для
• Оптимизация: pushdown для
• Поддержка агрегации
Что такое FireDucks?
FireDucks ускоряет pandas без изменений в коде. Преимущество — мультипоточность для работы на многоядерных процессорах и JIT-компиляция, которая оптимизирует код на лету.
Особенности:
• Мультипоточность — использует многоядерные процессоры для ускорения выполнения.
• JIT-компиляция — встроенный компилятор ускоряет код в реальном времени.
• Полная совместимость с pandas API — никаких изменений в вашем коде, только замена импорта.
• Автоматическое исполнение — программное решение с функциональностью import-hook, которое само заменяет импорт pandas на FireDucks.
А вы уже использовали FireDucks?
❤️ — да
🤔 — нет
Ссылка на FireDucks библиотеку: https://clc.to/xAWVzQ
Библиотека дата-сайентиста #свежак
Новая версия FireDucks была релизнута 7 марта:
• Удалены fallback-режимы для
DataFrameGroupBy.rank()
(методы «first» и «dense»).• Оптимизация: pushdown для
groupby
с выбором столбцов.• Поддержка агрегации
Series
с использованием словаря.Что такое FireDucks?
FireDucks ускоряет pandas без изменений в коде. Преимущество — мультипоточность для работы на многоядерных процессорах и JIT-компиляция, которая оптимизирует код на лету.
Особенности:
• Мультипоточность — использует многоядерные процессоры для ускорения выполнения.
• JIT-компиляция — встроенный компилятор ускоряет код в реальном времени.
• Полная совместимость с pandas API — никаких изменений в вашем коде, только замена импорта.
• Автоматическое исполнение — программное решение с функциональностью import-hook, которое само заменяет импорт pandas на FireDucks.
А вы уже использовали FireDucks?
❤️ — да
🤔 — нет
Ссылка на FireDucks библиотеку: https://clc.to/xAWVzQ
Библиотека дата-сайентиста #свежак
🤔6❤3👍1
🐼 How to: объединять таблицы в Pandas
Разберём основные виды соединений DataFrame:
✅ Full Outer Join (Полное внешнее соединение):
Возвращает все записи из обеих таблиц. Если нет совпадения, подставляется NaN.
✅ Inner Join (Внутреннее соединение):
Возвращает только совпадающие записи из обеих таблиц.
✅ Left Outer Join (Левое соединение):
Берёт все записи из левой таблицы и только совпадающие из правой. Остальные заполняются NaN.
✅ Right Outer Join (Правое соединение):
Аналогично левому соединению, но теперь берём все записи из правой таблицы.
Библиотека дата-сайентиста #буст
Разберём основные виды соединений DataFrame:
✅ Full Outer Join (Полное внешнее соединение):
Возвращает все записи из обеих таблиц. Если нет совпадения, подставляется NaN.
import pandas as pd
df1 = pd.DataFrame({
'ID': [1, 2, 3],
'Name': ['Alice', 'Bob', 'Charlie']
})
df2 = pd.DataFrame({
'ID': [3, 4, 5],
'Age': [23, 34, 45]
})
full_outer = pd.merge(df1, df2, on='ID', how='outer')
print(full_outer)
✅ Inner Join (Внутреннее соединение):
Возвращает только совпадающие записи из обеих таблиц.
inner = pd.merge(df1, df2, on='ID', how='inner')
print(inner)
✅ Left Outer Join (Левое соединение):
Берёт все записи из левой таблицы и только совпадающие из правой. Остальные заполняются NaN.
left_outer = pd.merge(df1, df2, on='ID', how='left')
print(left_outer)
✅ Right Outer Join (Правое соединение):
Аналогично левому соединению, но теперь берём все записи из правой таблицы.
right_outer = pd.merge(df1, df2, on='ID', how='right')
print(right_outer)
Библиотека дата-сайентиста #буст
👍9❤1🔥1
Forwarded from Библиотека девопса | DevOps, SRE, Sysadmin
📊💼 Ситуация на рынке труда в IT в 2025 году: результаты опроса айтишников
Помните мы проводили опрос про рабочие моменты? Пришло время делиться результатами!
В нашем исследовании приняли участие более 1000 IT-специалистов различных направлений. Работа или личная жизнь? Удалёнка или офис? Заменил ли всех ИИ?
➡️ Ответы в подробном отчёте
А какие изменения на IT-рынке замечаете вы? Делитесь в комментариях! 👇
🐸 Библиотека devops'a
Помните мы проводили опрос про рабочие моменты? Пришло время делиться результатами!
В нашем исследовании приняли участие более 1000 IT-специалистов различных направлений. Работа или личная жизнь? Удалёнка или офис? Заменил ли всех ИИ?
А какие изменения на IT-рынке замечаете вы? Делитесь в комментариях! 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1🔥1
Forwarded from Библиотека питониста | Python, Django, Flask
📝 Структуры данных: ТОП-30 вопросов и ответов для собеседований в 2025 году
Техническое собеседование на позицию разработчика, дата-сайентиста и ML-инженера часто включает вопросы по структурам данных и связанным с ними алгоритмами.
В нашей статье мы рассмотрим базовые и продвинутые темы, разберем типичные задачи и обсудим оптимальные способы их решения.
📄 Прочитайте статью и укрепите свои знания — https://proglib.io/sh/1uYAygzIxr
Библиотека питониста
Техническое собеседование на позицию разработчика, дата-сайентиста и ML-инженера часто включает вопросы по структурам данных и связанным с ними алгоритмами.
В нашей статье мы рассмотрим базовые и продвинутые темы, разберем типичные задачи и обсудим оптимальные способы их решения.
📄 Прочитайте статью и укрепите свои знания — https://proglib.io/sh/1uYAygzIxr
Библиотека питониста
😁2👍1
🔍 Команда дня: query() в Pandas
Метод df.query() принимает строку с условием для фильтрации данных.
🔹 Важные моменты:
• Строковые значения должны быть заключены в кавычки внутри условия.
• Можно комбинировать несколько условий с
🔹 Пример использования:
🔹 Вывод:
🔹 Преимущества query():
• Более читаемый и краткий код по сравнению с
• Поддержка переменных через
• Удобно для сложных фильтраций
Библиотека дата-сайентиста #буст
Метод df.query() принимает строку с условием для фильтрации данных.
🔹 Важные моменты:
• Строковые значения должны быть заключены в кавычки внутри условия.
• Можно комбинировать несколько условий с
&
(И) или |
(ИЛИ). 🔹 Пример использования:
import pandas as pd
# Создаём DataFrame
df = pd.DataFrame({
'Product': ['Apple', 'Banana', 'Cherry'],
'Price': [0.4, 0.8, 0.3],
'Country': ['United Kingdom', 'USA', 'United Kingdom']
})
# Фильтруем товары дешевле 0.5 и из UK
filtered_df = df.query('Price < 0.5 & Country == "United Kingdom"')
print(filtered_df)
🔹 Вывод:
Product Price Country
0 Apple 0.4 United Kingdom
2 Cherry 0.3 United Kingdom
🔹 Преимущества query():
• Более читаемый и краткий код по сравнению с
df[(df['Price'] < 0.5) & (df['Country'] == 'United Kingdom')]
• Поддержка переменных через
@var_name
• Удобно для сложных фильтраций
Библиотека дата-сайентиста #буст
👍13❤1
Forwarded from .ml
Ранее мы обсуждали с вами RoPE, а теперь поговорим о его модификациях. Собрали много интересного, поэтому будет целых три поста по этой теме. Enjoy!
Как развивалось позиционное кодирование:
📆 2017 год
С появлением ванильного трансформера позиции токенов кодировались тригонометрической функцией, значение которой зависело от позиции и просто прибавлялось к эмбеддингу соответсутвующего слова.
Плюсы — мы умеем кодировать любую позицию, в том числе превосходящую максимальную длину, на которой тренировались.
Минусы — не очень работает на длинных последовательностях, да и вообще не очень хорошо работает.
📆 2018 год
Потом появился гугловский BERT, а вместе с ним новый подход позиционного кодирования: авторы предложиди выкинуть тригонометрию и вместо этого добавить в модель ещё один обучаемый слой nn.Embedding — такой же, как для получения эмбеддингов слов. Он должен кодировать — то есть, превращать в вектор — позицию токена.
Итоговый вектор токена, который будет передан следующим слоям модели — это сумма векторов токена и его позиции. Работает лучше, чем тригонометрия, но при этом никак не экстраполируется: так как векторы выучиваемые, то для позиций, превосходящих максимальную тренировочную длину, мы кодировать не умеем — она вне ключей нашего словаря эмбеддингов, так же, как мы не можем закодировать и незнакомый модели токен.
В это же время впервые появилась идея о том, что нам важны не столько абсолютные позиции слов, сколько относительные. Авторы статьи решили кодировать не абсолютную позицию, а только относительную (Relative Position Encoding, или RPE), то есть близость каждой пары токенов. Здесь же появилась идея, что позицонное кодирование стоит добавлять не в момент создания эмбеддингов слов, а на этапе Attention, добавляя знание о позициии в queries и keys.
Для начала напомним, что Positional Encoding (кодирование позиций слов/токенов) нужен, чтобы передать модели или трансформеру информацию о позициях слов — относительную или же абсолютную.
Как развивалось позиционное кодирование:
📆 2017 год
С появлением ванильного трансформера позиции токенов кодировались тригонометрической функцией, значение которой зависело от позиции и просто прибавлялось к эмбеддингу соответсутвующего слова.
Плюсы — мы умеем кодировать любую позицию, в том числе превосходящую максимальную длину, на которой тренировались.
Минусы — не очень работает на длинных последовательностях, да и вообще не очень хорошо работает.
📆 2018 год
Потом появился гугловский BERT, а вместе с ним новый подход позиционного кодирования: авторы предложиди выкинуть тригонометрию и вместо этого добавить в модель ещё один обучаемый слой nn.Embedding — такой же, как для получения эмбеддингов слов. Он должен кодировать — то есть, превращать в вектор — позицию токена.
Итоговый вектор токена, который будет передан следующим слоям модели — это сумма векторов токена и его позиции. Работает лучше, чем тригонометрия, но при этом никак не экстраполируется: так как векторы выучиваемые, то для позиций, превосходящих максимальную тренировочную длину, мы кодировать не умеем — она вне ключей нашего словаря эмбеддингов, так же, как мы не можем закодировать и незнакомый модели токен.
В это же время впервые появилась идея о том, что нам важны не столько абсолютные позиции слов, сколько относительные. Авторы статьи решили кодировать не абсолютную позицию, а только относительную (Relative Position Encoding, или RPE), то есть близость каждой пары токенов. Здесь же появилась идея, что позицонное кодирование стоит добавлять не в момент создания эмбеддингов слов, а на этапе Attention, добавляя знание о позициии в queries и keys.