tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
👋 Привет, дата-сайнтисты и инженеры! Один из наших подписчиков поделился карьерной дилеммой, которая может откликнуться многим.
💬 Вот его ситуация:
«Я — дата-сайнтист, сейчас ищу работу в крупной техкомпании. На собеседованиях звучат обещания: работа над интересными задачами, автономия, перспективы роста до Senior. Но слышал и другую сторону — что в Big Tech роль DS нередко сводится к рутине: чистка данных, построение метрик для чужих решений, минимальное влияние на бизнес.
Сейчас я работаю в небольшой компании, где делаю всё: от анализа и визуализации до ML и поддержки аналитиков. Это даёт свободу и ощущение пользы, но платят меньше, и в резюме нет громких названий.
В Big Tech, как говорят:
— DS часто подключаются на поздних стадиях, когда ключевые решения уже приняты.
— Роль ограничена задачами от продукт-менеджеров, без возможности задавать направление.
— Не все менеджеры (особенно из продуктовой или инженерной вертикали) понимают, как раскрыть потенциал DS.
Боюсь, что могу оказаться в «мертвой зоне» — когда формально в Big Tech, но без настоящего роста и влияния. Может, стоит искать команды, где DS работают ближе к стратегии? Или перейти в mid-size компанию с фокусом на DS+ML, где можно быть драйвером, а не исполнителем?»
💡 Что посоветуете:
— Как отличить «живую» команду от «рутинной» на собеседовании?
— Какие вопросы вы задаёте, чтобы понять, есть ли пространство для роста и реального влияния?
— Где, по вашему опыту, дата-сайнтисты действительно формируют вектор продукта или бизнеса?
Давайте поможем! Делитесь опытом и советами в комментах
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3❤🔥1
Индустрия шумит, новостей море, а времени — как всегда, впритык. Поэтому мы собрали для вас список подкастов, где обсуждают суть: машинное обучение, реальные кейсы и будущее AI. Без лишнего хайпа.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4😁1
Forwarded from Библиотека питониста | Python, Django, Flask
🖼 ТОП-5 структур данных для обработки изображений
Хотите разобраться, как обрабатывать изображения в компьютерном зрении или графике?
Всё начинается с правильных структур данных. Они помогают хранить и анализировать пиксели, их связи и расположение.
👉 В этой статье — подборка топ решений и советы, как их использовать.
Библиотека питониста
Хотите разобраться, как обрабатывать изображения в компьютерном зрении или графике?
Всё начинается с правильных структур данных. Они помогают хранить и анализировать пиксели, их связи и расположение.
Библиотека питониста
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4❤🔥1🥰1
Собрал набор — и вперёд, покорять графики!
Библиотека дата-сайентиста #развлекалово
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3😁3😢3👍2❤🔥1🥱1
🧑💻 Human-in-the-loop: что с этим делать?
В мире машинного обучения не утихает спор:
💬 «Обучение без участия человека — это не обучение!»
— Алгоритмы часто ошибаются, особенно в нестандартных или критичных ситуациях.
— Только человек может внести контекст, настроить параметры, проверить результат.
— Разметка данных, ручная оценка, контроль — всё это до сих пор нужно в реальных проектах.
Особенно там, где цена ошибки высока: медицина, безопасность, финансы.
✅ Сторонники контроля считают, что ИИ нельзя отпускать без присмотра. Полагаться полностью на «автоматику» — риск получить умного, но бесполезного бота.
💬 «Что за архаизм? Всё должно быть автоматизировано!»
— Люди ошибаются, устают и не масштабируются.
— Современные модели могут учиться сами, используя данные пользователей.
— Автоматизация ускоряет развитие, сокращает затраты и открывает путь к масштабируемым решениям.
Например: рекомендательные системы, спам-фильтры, самообучающиеся ассистенты — уже работают без человека.
✅ Апологеты автоматизации уверены, что вмешательство человека — это признак сырой системы. Если модель требует ручной донастройки — значит, она ещё не готова к реальному масштабу.
💭 Ваше мнение:
❤️ Человек в цикле — важен. Он добавляет контекст, видит нюансы и спасает от ошибок.
👍 Полная автоматизация — путь вперёд. Пусть ИИ работает сам, а мы не мешаем.
Давайте обсудим👇
Библиотека дата-сайентиста #междусобойчик
В мире машинного обучения не утихает спор:
Нужен ли человек в процессе обучения модели — или пора довериться полной автоматизации?
— Алгоритмы часто ошибаются, особенно в нестандартных или критичных ситуациях.
— Только человек может внести контекст, настроить параметры, проверить результат.
— Разметка данных, ручная оценка, контроль — всё это до сих пор нужно в реальных проектах.
Особенно там, где цена ошибки высока: медицина, безопасность, финансы.
— Люди ошибаются, устают и не масштабируются.
— Современные модели могут учиться сами, используя данные пользователей.
— Автоматизация ускоряет развитие, сокращает затраты и открывает путь к масштабируемым решениям.
Например: рекомендательные системы, спам-фильтры, самообучающиеся ассистенты — уже работают без человека.
💭 Ваше мнение:
❤️ Человек в цикле — важен. Он добавляет контекст, видит нюансы и спасает от ошибок.
👍 Полная автоматизация — путь вперёд. Пусть ИИ работает сам, а мы не мешаем.
Давайте обсудим
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍3
🔥 Модели и релизы:
— ChatGPT с долгосрочной памятью — OpenAI добавила автопамять
— TPUv7s от Google — новая серия ускорителей
— Модель от Авито на вершине Mera-бенчмарка
— AI Scientist v2 от Sakana — сгенерированная статья ИИ
— PyTorch mm — 3D-визуализатор матричных умножений
— Google Firebase Studio — AI-платформа для приложений
🧠 Исследования и бенчмарки:
— Stanford AI Index 2025 — глобальные тренды
— Galileo Leaderboard (апрель) — сравнение топ-LLM
— DebugGym от Microsoft — ИИ всё ещё плохо дебажит код
— Llama-4 benchmarks — возможно фейк
— HIGGS (Яндекс) — новый метод сжатия LLM
🧰 Практика и агенты:
— Google Agent2Agent — единый протокол общения агентов
— Model Context Protocol от Anthropic (Claude) — создание сервера, расширяющего LLM: ссылка
— Стратегическое планирование с GPT — как сгенерировать рыночную стратегию
— Оптимизация промптов — техники и инструменты
📚 Что почитать:
— Как работает трансформер (очень просто)
— Гайд по промптам от Google
— Disrupt по делу — внедрение AI-продуктов
— Юзкейсы GenAI в 2025 году
— Подборка книг по NLP
— Как Яндекс.Карты делают персональные рекомендации
— Обзор генераторов изображений: DALL·E 3, Midjourney, FLUX
🎙 Интервью и видео:
— GPT-4.5 — путь от 4 до 4.5 — интервью с Самом Альтманом
— Build AI Agents with Microsoft — курс + код + видео
Библиотека дата-сайентиста #свежак
— ChatGPT с долгосрочной памятью — OpenAI добавила автопамять
— TPUv7s от Google — новая серия ускорителей
— Модель от Авито на вершине Mera-бенчмарка
— AI Scientist v2 от Sakana — сгенерированная статья ИИ
— PyTorch mm — 3D-визуализатор матричных умножений
— Google Firebase Studio — AI-платформа для приложений
🧠 Исследования и бенчмарки:
— Stanford AI Index 2025 — глобальные тренды
— Galileo Leaderboard (апрель) — сравнение топ-LLM
— DebugGym от Microsoft — ИИ всё ещё плохо дебажит код
— Llama-4 benchmarks — возможно фейк
— HIGGS (Яндекс) — новый метод сжатия LLM
🧰 Практика и агенты:
— Google Agent2Agent — единый протокол общения агентов
— Model Context Protocol от Anthropic (Claude) — создание сервера, расширяющего LLM: ссылка
— Стратегическое планирование с GPT — как сгенерировать рыночную стратегию
— Оптимизация промптов — техники и инструменты
📚 Что почитать:
— Как работает трансформер (очень просто)
— Гайд по промптам от Google
— Disrupt по делу — внедрение AI-продуктов
— Юзкейсы GenAI в 2025 году
— Подборка книг по NLP
— Как Яндекс.Карты делают персональные рекомендации
— Обзор генераторов изображений: DALL·E 3, Midjourney, FLUX
🎙 Интервью и видео:
— GPT-4.5 — путь от 4 до 4.5 — интервью с Самом Альтманом
— Build AI Agents with Microsoft — курс + код + видео
Библиотека дата-сайентиста #свежак
⚡3👍2❤1❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
В этом посте разберем, как вручную пройти через процесс работы трансформера, от входных данных до финального слоя.
Входные признаки из предыдущего блока (5 позиций).
Все 5 признаков передаются в модуль внимания запрос-ключ (QK) для получения матрицы весов внимания (A).
Умножаем входные данные на матрицу весов внимания, чтобы получить взвешенные признаки (Z). Этим объединяем признаки по горизонтали, например, X1 := X1 + X2, X2 := X2 + X3 и так далее.
Процессинг всех 5 признаков через первый слой. Умножаем их на веса и смещения, увеличивая размерность с 3 до 4, комбинируя признаки по вертикали.
Отрицательные значения заменяются нулями.
Подаем данные во второй слой, уменьшаем размерность с 4 до 3 и отправляем результат в следующий блок для повторения процесса.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍2❤🔥1
Media is too big
VIEW IN TELEGRAM
Что объединяет успешный собес и продвинутый анализ данных? Оба требуют способности выделять главное из информационного шума!
В мире данных этот суперскилл называется методом главных компонент (PCA) — это как рентген для ваших данных, который мгновенно показывает всю суть, отбрасывая неважные детали.
Например, мы проанализировали 453 акции компаний из списка S&P 500 и выяснили, что всего одна главная компонента объясняет 38% всей динамики рынка. Как такое возможно?
Вы будете работать с реальными данными, научитесь выявлять скрытые закономерности и применять эти инсайты в своих проектах.
Стоимость: 3990 ₽
Не беспокойтесь, если теоретическая база пока хромает — вы можете заранее посмотреть запись нашего вебинара по основам по ссылке ниже.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2👍1
Data Scientist в области языковых моделей (Middle) — от 351 000 ₽, удаленно
Data Scientist (классический ML) — от 230 000 ₽, удаленно
Senior Data Scientist (Recommender Systems) — от 5 000 до 6 500 €, удаленно
Data Engineer / Инженер данных (уровень Middle) — от 150 000 ₽, удаленно (Екатеринбург)
Data Analyst (Physics) — от 2 500 до 3 000 €, удаленно
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Что внутри шпаргалки:
— Архитектура трансформеров
— Механизмы внимания
— Обучение языковых моделей
— Позиционные эмбеддинги
— Разбор современных LLM
🔝 И многое другое, объяснённое максимально наглядно всего на 4 страницах!
👉 Скачать шпаргалку: https://clc.to/T4BpUg
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥2❤🔥2
Теперь можно запускать контексты до 1 миллиона токенов через API. Новые бенчмарки, расширенные окна контекста и первая в истории nano-модель. Быстрее, умнее и дешевле, чем GPT-4o.
GPT-4.1 показывает улучшения по всем направлениям:
— Кодинг: 54.6% на SWE-bench (на 21.4% выше GPT-4o)
— Инструкции: 38.3% на MultiChallenge (на 10.5% выше)
— Длинные контексты: 72.0% на Video-MME (на 6.7% выше)
— Использует обучающие данные до июня 2024 года
— Эффективно обрабатывает большие документы и целые кодовые базы
С 30 апреля GPT-4 больше не будет использоваться в ChatGPT. Его заменит GPT-4o — мультимодальная модель, представленная OpenAI в мае прошлого года.
Из примечания к релизу:
«GPT‑4 стал поворотной точкой в развитии ChatGPT. Мы благодарны за прорывы, которые он обеспечил, и за отзывы, которые помогли сформировать его преемника. GPT‑4o продолжает эту линию, предлагая ещё больше возможностей, стабильности и креативности.»
Тем временем, OpenAI готовит к запуску новое семейство моделей, которое заменит GPT-4o — GPT-4.1, релиз может состояться уже на этой неделе.
GPT-4 останется доступен через API, несмотря на замену в ChatGPT.
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12😁3
🧮 Как избежать ловушки округления в Power BI
Твой отчет показывает разные цифры при одинаковой логике? Не спеши винить систему – это классический кейс с округлением в Power BI.
👊 Разбираемся, как типы данных влияют на точность и почему Currency может стать твоим врагом.
➡️ Подробнее в статье: https://proglib.io/sh/TcGmatdgNV
Библиотека дата-сайентиста
Твой отчет показывает разные цифры при одинаковой логике? Не спеши винить систему – это классический кейс с округлением в Power BI.
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
MLOps без воды: готовый пошаговый план
Готовый GitHub-репозиторий, который по шагам закрывает ключевые темы: от настройки проекта и контроля данных — до CI/CD, упаковки моделей и деплоя в AWS:
✅ Неделя 0: Базовая настройка проекта
✅ Неделя 1: Мониторинг моделей через Weights & Biases
✅ Неделя 2: Конфигурации с Hydra
✅ Неделя 3: Контроль версий данных с DVC
✅ Неделя 4: Упаковка моделей в ONNX
✅ Неделя 5: Упаковка моделей в Docker
✅ Неделя 6: CI/CD через GitHub Actions
✅ Неделя 7: Хранение контейнеров в AWS ECR
✅ Неделя 8: Серверлесс-деплой на AWS Lambda
✅ Неделя 9: Мониторинг предсказаний через Kibana
🔗 Ссылка на репозиторий: https://clc.to/Hqx7cg
Библиотека дата-сайентиста #буст
Готовый GitHub-репозиторий, который по шагам закрывает ключевые темы: от настройки проекта и контроля данных — до CI/CD, упаковки моделей и деплоя в AWS:
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2❤🔥1
Теперь — твой ход!
Проголосуй за самый угарный мем:
❤️ — 1
👍 — 2
😄 — 3
⚡️ — 4
❤️🔥 — 5
🔥 — 6
Попроси ChatGPT сгенерировать свой и кидай в комменты:
Придумай смешной мем, который еще не существует! Он должен быть актуальным, креативным и легко воспринимаемым для широкой аудитории. Мем должен содержать не только текст, но и ситуацию или концепцию, которая вызывает смех благодаря неожиданному повороту событий, игре слов или контексту. Он может быть в формате диалога, сравнения, абсурдного контекста или с элементами иронии.
Библиотека дата-сайентиста #развлекалово
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10⚡7👍5🥱4❤🔥2❤1🔥1
Этот промпт поможет сделать шаг от теории к практике и реально прокачать скиллы в Data Science.
✏️ Промпт:
Give me a ‘challenge of the week’ to apply my knowledge in a real-world scenario.
It should be a practical task closely resembling a real business case or research problem. The challenge should encourage using your Data Science skills — from data analysis and visualization to building models and interpreting results. Ideally, it should involve open datasets, an interesting context, and provide hands-on insights into how the industry works.
Bonus points for including unconventional approaches, such as messy data, unclear success metrics, or the need to explain results to a non-technical audience.
• Прогнозирование оттока пользователей для подписочного сервиса
• Прогнозирование продаж для интернет-магазина
• Оптимизация ценовой стратегии для онлайн-ритейлера
• Возможность применить знания на практике в реальных бизнес-задачах
• Развитие навыков работы с открытыми данными и реальными кейсами
• Умение интерпретировать и объяснять сложные данные
• Креативные способы решения нестандартных задач
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥3❤2