Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6801 - Telegram Web

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

⭐

gpt-oss, Qwen, Gemma — один гайд, чтобы запускать и тюнить всё

Вышел подробный туториал по тому, как запускать и дообучать gpt-oss (LLM) локально.

Что внутри:
• FAQ по локальному обучению + инференсу
• Подбор гиперпараметров и как не словить overfitting
• Подготовка данных
• Экспорт модели в GGUF (llama.cpp) и загрузка в Hugging Face

Дополнительно на этой странице есть другие туториалы:
• Qwen3 / Qwen3-Coder — запуск локально
• Kimi-K2
• Llama 4
• Vision fine-tuning
• RL & TTS fine-tuning

Особенно крутая часть — vision fine-tuning:
— можно дообучать мультимодальные модели (Gemma 3, Llama 3.2 Vision, Qwen2.5 VL и др.)
— выбирать, какие именно части модели дообучать (vision / language / attention / MLP)

🔗

Ссылка на туториалы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12🔥4❤3

1.83K viewsedited 17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 Шпаргалка для машинного обучения: 10 алгоритмов и их временная сложность — всегда под рукой.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍4🤔1

1.75K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.

Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».

🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.

Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.

👉 Регистрируйтесь

❤1🔥1

1.71K views13:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚕 Как лог-трансформация спасла модель

Наш подписчик поделился лайфхаком, который снизил ошибку модели на 20% всего одной строкой кода.

В задаче регрессии (например, предсказание стоимости поездок Uber) оказалось, что таргет (fare) сильно скошен вправо: много маленьких значений + редкие, но вполне реальные высокие цены.

❌ Модели сложно учиться: редкие большие значения «тянут» распределение и портят общую картину.

➖

Простое решение — применить log1p к целевой переменной:
— большие значения сжимаются;
— малые почти не меняются;
— распределение становится ближе к нормальному;
— влияние «хвоста» снижается.

Схема:

y → log1p → модель → предсказания (log scale) → expm1 → предсказания (ориг. масштаб)

💡 Результат: MAE снизился на 20%.

Не магия, а классика — но про этот приём часто забывают. Если таргет имеет длинный правый хвост → лог-трансформация может резко улучшить качество.

🐸

Библиотека дата-сайентиста

#междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤7

1.69K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👆

Хочешь стать AI-инженером? Этот репозиторий — настоящая находка

Он уже собрал 60K⭐️ на GitHub и не зря: учит строить и тренировать LLM с нуля. Никакой воды — только практические навыки, которые нужны каждому будущему AI-инженеру.

Что в репозитории:
— Как LLM на самом деле работают
— Основы работы с текстовыми данными
— Реализация attention и GPT с нуля
— Предобучение на неразмеченных данных
— Финетюнинг для классификации и инструкций
— Основы CUDA и PyTorch, пошаговые видео, куча практики.

Для новичков и тех, кто хочет поднять уровень — этот репозиторий реально меняет правила игры.

📌 Репозиторий на GitHub

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2🥰2

1.91K views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🤔

Как рассчитать идеальный размер выборки ещё до начала исследования

Вы когда-нибудь теряли время и ресурсы на слишком маленькие или, наоборот, слишком большие выборки?

С помощью power analysis — расчёта размера выборки — вы можете заранее узнать, сколько участников нужно для достоверного результата.

Почему это важно:
✔️ Экономите время и деньги, не собирая лишние данные
✔️ Подбираете размер выборки под ожидаемый эффект
✔️ Контролируете уровень доверия и статистическую мощность исследования
✔️ Работает для t-тестов, ANOVA, регрессий и многих других тестов
✔️ Легко реализуется с бесплатными R-пакетами, например, pwr

Наглядно:
➡️ Слева: как размер выборки растёт при уменьшении ожидаемого эффекта — маленькие эффекты требуют больших групп.
➡️ Справа: пример расчёта для t-теста — точное количество участников на группу для желаемого уровня доверия и статистической мощности.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3

1.8K views17:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

требует двухчасового созвона 😎

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁11👍2

1.86K views08:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

1.98K views13:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

На каком графике показана сильная линейная положительная корреляция?

Anonymous Quiz

😁4🤩2❤1

554 voters2K views13:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Отдыхаешь?

1.85K views16:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🔥 Основные новости и исследования
— GPT-5 Coding Tips — OpenAI выпустила шпаргалку по использованию GPT-5 для кодинга.
— GPT-5 обходит врачей на медицинских экзаменах — модель превосходит GPT-4o и человеческих специалистов по диагностическим и мультимодальным задачам.
— Gemma 3 270M From Scratch – Google выпустил компактный LLM Gemma 3 (270M параметров) для локального fine-tuning.
— Geoffrey Hinton о том, что AI узнал от мозга — пионер глубокого обучения обсуждает биологическое vs. цифровое вычисление.
— PyTorch vs TensorFlow — новое исследование сравнивает два лидирующих DL-фреймворка.
— From GPT-2 to gpt-oss — подробный анализ gpt-oss-20B/120B и их сравнение с Qwen3 по архитектуре, масштабированию и производительности.
— Sam Altman о GPT-6 — GPT-6 будет быстрее GPT-5, с акцентом на память и персонализацию моделей.
— Top 50 LLM Interview Questions —подготовка к интервью по большим языковым моделям.

💡 Статьи и обучающие материалы
— Производные, градиенты, матрицы Якоби и Гессе
— Градиентный бустинг для новичков
— Парадигмы обучения на нескольких GPU
— Эволюция внимания в LLM: от квадратичной сложности к эффективным оптимизациям

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3

1.74K viewsedited 12:47

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🙃 Если такие трюки с Python кажутся прикольными, то представьте, как весело будет, когда списки, матрицы и даже модели начнут распаковываться сами:
— AI-агенты в Data Science
— ML для старта в Data Science

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

1.61K views08:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

370 voters1.54K views08:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💎 YouTube-канал, который стоит сохранить каждому, кто изучает ML

Кладезь коротких и понятных объяснений по ключевым концепциям ML. Автор делится тем, что сам изучает в процессе, и превращает сложные темы в доступные видео.

Уже есть разборы тем:
— Кросс-энтропия
— MCMC (Марковская цепь Монте-Карло)
— Распределение Бернулли
— Нормальное распределение
— Теорема Байеса
— Симуляция Монте-Карло
...

Всё в формате «коротко и по делу» — идеальные видео-шпаргалки.

➡️ Ссылка на канал: https://clc.to/VZRrFA

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👍4❤3

1.76K views17:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

trackers: все ведущие алгоритмы multi-object tracking в одном месте

trackers — это единая библиотека с чистыми реализациями популярных алгоритмов трекинга.

Модульная архитектура позволяет легко менять трекеры и интегрировать их с детекторами объектов из разных библиотек: inference, ultralytics, transformers.

💡 Особенности:
— Универсальная интеграция с разными детекторами
— Лёгкое переключение между трекерами
— Подходит для исследовательских и производственных проектов

📱

GitHub

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3

1.66K views06:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

❗ Так, владелец макбука. Хватит позировать в кофейне.

Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой.

Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно.

ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё.

🎁 И да, при покупке курса ML до 1 сентября — курс по Python получаешь бесплатно.

👉 Апгрейд от «вайба» до «оффера» тут

🥱3❤1

1.72K views15:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🤣 Вот так выглядит ChatGPT изнутри (не пытайтесь понять с первого раза)

Это архитектура Generative Pre-trained Transformer (GPT) — базовая штука, на которой построены все LLM вроде ChatGPT. И да, выглядит гипнотизирующе.

В отличие от «старых» моделей, которые читают слова по одному, Transformers используют attention, анализируют сразу весь контекст, и именно поэтому умеют:
✔️ Понимать сложные связи между словами
✔️ Генерировать осмысленные ответы
✔️ Масштабироваться до сотен миллиардов параметров

🎨 Это уже больше похоже на искусство.

Кто-нибудь, замедлите, пожалуйста, мозг не успевает обработать.

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5😁4❤2🔥2

1.89K views18:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Удобная работа с JSON для Data Scientists

JSON Hero облегчает чтение, анализ и проверку JSON-файлов, что особенно полезно для работы с API, данными и ML-пайплайнами.

Основные возможности:
➡️ Просмотр данных в Column, Tree или Editor View
➡️ Автоопределение типов значений и полезные превью
➡️ Генерация JSON Schema для валидации данных
➡️ Быстрый поиск по ключам и значениям
➡️ Поддержка клавиатуры и sharable URL с путями

Почему полезно для Data Scientists: быстро проверять данные из API, JSON-логи, ML-пайплайны и легко делиться структурой данных с коллегами.

🔗 Работает даже в браузере

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4🔥2

1.59K views06:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Мы сделаем вам предложение, от которого невозможно отказаться 🤌

Вы покупаете себе курс «Математика для Data Science» от преподавателей ВМК МГУ, а мы дарим второй такой же курс вашему другу.

Предложение действует только до 1 сентября. Ничего личного, просто математика.

👉 Принять предложение

1.56K views09:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👉 В чём разница между self-attention и cross-attention

Self-attention:
➡️ Queries, keys и values берутся из одной последовательности.
➡️ Каждый токен «смотрит» на остальные, включая себя, чтобы учесть контекст.
➡️ Пример: слово bank может учитывать соседние слова river или money, чтобы выбрать правильное значение.
➡️ Используется для поиска зависимостей внутри последовательности (текста, документа и т.д.).

🔹 Cross-attention:
➡️ Queries берутся из одной последовательности, а keys и values — из другой.
➡️ Позволяет одной последовательности «фокусироваться» на информации из другой.
➡️ Примеры:
• В машинном переводе декодер через cross-attention обращается к репрезентациям энкодера.
• В мультимодальных моделях текст может «смотреть» на признаки изображения, чтобы сгенерировать описание.

📌 Легко запомнить:
• Self-attention → внутри одного источника (понимание контекста).
• Cross-attention → связывание двух источников (перевод, мультимодальные задачи, RAG).

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3😍1

1.72K views17:59

2025/10/09 21:44:22
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>