Telegram Web
Разбор задач с собеседований по статистике для Дата Саентистов

В современных собеседованиях на позицию Data Scientist кандидатов проверяют не только практические навыки программирования, но и глубокое понимание статистических методов.

В данной статье рассмотрены часто встречающиеся задач, которые могут встретиться на интервью. Разберём каждую задачу с теоретической точки зрения, а также продемонстрируем пример кода на Python.

📌 Читать

@machinelearning_interview
🤗 Обновленный Курс от Hugging Face – Reasoning Course это подробное руководство по развитию навыков логического рассуждения и применения современных подходов для улучшения работы языковых моделей

Это интерактивное обучение, посвящённое пониманию и применению методов chain-of-thought (цепочки рассуждений) для генеративных моделей.

Курс сочетает теоретические основы с практическими примерами и заданиями.

Чем он полезен:

- Позволяет глубже понять, как LLM структурируют свои мысли для генерации более точных и обоснованных ответов.
- Обучает методикам, которые помогают улучшить рассуждения модели при решении сложных задач.
- Содержит практические упражнения и интерактивные ноутбуки, что делает материал доступным как для начинающих, так и для опытных специалистов.
Что нового в курсе:

Обновлённый контент: В курс добавлены новые примеры, кейсы из реальной практики и последние достижения в области chain-of-thought prompting.

Интеграция с экосистемой Hugging Face: Возможность сразу экспериментировать с моделями и инструментами прямо из курса.
Если вы хотите улучшить свои навыки работы с языковыми моделями и научиться добиваться более глубокого и логичного генеративного вывода – этот курс для вас!

- Зарегистрируйтесь:
- Каждую неделю авторы будут выпускать новые материалы и упражнения:
- За прохождение выдаются сертификаты.

https://huggingface.co/reasoning-course

@machinelearning_interview
Media is too big
VIEW IN TELEGRAM
🔥 MIT обновил свой знаменитый курс 6.S191: Introduction to Deep Learning.

Программа охватывает темы NLP, CV, LLM и применение технологий в медицине, предлагая полный цикл обучения – от теории до практических занятий с использованием актуальных версий библиотек.

Курс рассчитан даже на новичков: если вы умеете брать производные и перемножать матрицы, все остальное будет разъяснено в процессе.

Лекции выходят бесплатно на YouTube и на платформе MIT по понедельникам, первая уже доступна.

Все слайды, код и дополнительные материалы можно найти по указанной ссылке.

📌 Свежая лекция: https://youtu.be/alfdI7S6wCY?si=6682DD2LlFwmghew

Разбор мл-собеседований

@machinelearning_interview
800+ SQL Server Interview Questions and Answers .pdf
1 MB
🖥 Полезнейший сборник из 800+ вопросов по SQL, которые часто задают на собеседованиях.

Он также включает задачи для самостоятельной работы и множество примеров.

Сборник отлично подходит для тех, кто хочет прокачать свои навыки работы с SQL, освежить знания и проверить свои знания.

GitHub

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 GPU Puzzles

Набор интерактивных упражнений («паззлов») для обучения программированию под GPU с использованием CUDA.

Это целая серия задач, где требуется написать небольшие CUDA-ядра (ядра GPU), реализующие операции вроде сложения с константой (map), поэлементного суммирования (zip), работы с блоками и потоками, свёртки, матричного умножения и других параллельных алгоритмов.

Основная цель репозитория – дать начинающим возможность непосредственно попрактиковаться в программировании под GPU, без необходимости погружаться в сложную документацию.

Для удобства рекомендуется запускать задания в Google Colab с включённым режимом GPU.

Репозиторий лицензирован по MIT, имеет высокую популярность (более 10 тыс звёзд) и является частью серии обучающих проектов (наряду с Tensor Puzzles, Autodiff Puzzles, Triton Puzzles и другими).

А здесь реализация задач на C++

Github
Colab

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Distill-Any-Depth: метод оценки глубины сцены по одному изображению.

Distill-Any-Depth - метод обучения моделей монокулярной оценки глубины, который сочетает кросс-контекстную дистилляцию и мульти-учительский подход для точного определения расстояния до объектов на RGB-изображении. Он предназначен для обучения моделей (например, DPT, MiDaS или DepthAnythingv2), которые учатся на псевдо-метках, сгенерированных учительскими моделями (Genpercept, DepthAnythingv2).

Метод не просто улучшает существующие алгоритмы, но и задает новый стандарт в области определения глубины. Методика может применяться в сфере автономного транспорта и AR-решений. Она может ускорить создание точных 3D-карт для навигации и улучшить реалистичность виртуальных миров за счет детализированного анализа пространства. При этом, обучение CV-моделей с Distill-Any-Depth довольно энергоэффективно — достаточно одной NVIDIA V100.

Основа Distill-Any-Depth - кросс-контекстная дистилляция, объединяющая 2 сценария:

🟠Shared-Context Distillation — модель-учитель и модель-ученик обучаются на одинаковых фрагментах изображения.

🟠Local-Global Distillation — модель-учитель анализирует локальные фрагменты, а модель-ученик предсказывает глубину для всего изображения, отвечая за глобальную согласованность сцены.

Экспериментальная модель обучалась на 50 тыс. изображений из SA-1B с разрешением 560×560. Использовались псевдо-метки от Genpercept (диффузионная модель) и DepthAnythingv2 (DINOv2). В рамках мульти-учительского подхода на каждой итерации случайно выбирался один учитель.

На тестах DIODE и ETH3D метод сократил значение AbsRel на 9.6–20% по сравнению с базовой дистилляцией. Например, при обучении модели-ученика DPT с учителями Genpercept и DepthAnythingv2 AbsRel на ETH3D составил 0.065 против 0.096 у Genpercept.

На бенчмарках NYUv2, KITTI, ScanNet модель достигла SOTA: AbsRel 0.043 (NYUv2), 0.070 (KITTI), 0.042 (ScanNet). В сравнении с DepthAnything v2 (AbsRel: 0.045 на NYUv2) и Marigold (0.055) Distill-Any-Depth показал более высокую детализацию и точность относительной глубины.

▶️В открытом доступе 3 модели, обученные с Distill-Any-Depth:

🟢Distill-Any-Depth-Multi-Teacher-Small - 24.8М параметров

🟢Distill-Any-Depth-Multi-Teacher-Base - 95.5М параметров

🟢Distill-Any-Depth-Multi-Teacher-Large - 335.3М параметров


▶️Локальная установка и инференс в Gradio:

# Create Conda env 
conda create -n distill-any-depth -y python=3.10
conda activate distill-any-depth

# Clone Repo
git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive
cd MASt3R-SLAM/

# Install dependencies
pip install -r requirements.txt
pip install -e .

# If use hf_hub_download, you can use the following code
checkpoint_path = hf_hub_download(repo_id=f"xingyang1/Distill-Any-Depth", filename=f"large/model.safetensors", repo_type="model")

# Launch Gradio demo
python app.py


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🟡Набор моделей
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Depth #DIstillAnyDepth
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
ANUS (Autonomous Networked Utility System) — опенсорсную версию популярного Manus, который клонировал самого себя 😂

• Как это получилось:
  • Разработчик попросил мощного ИИ-агента Manus скопировать себя, и всего за 25 минут получился код, архитектура и дизайн, полностью идентичные оригиналу.

• Что получилось:
  • Идеальная нейросеть, которой можно доверить всю рутинную работу, и всё это — абсолютно бесплатно.

GItHub
mlx-kan — это реализация сетей Колмогорова–Арнольда (Kolmogorov–Arnold Networks, KAN), оптимизированная для процессоров Apple Silicon с использованием фреймворка MLX.

Он представляет собой Python-пакет, который использует высокую вычислительную мощность чипов Apple M1 и более поздних версий, обеспечивая эффективное и масштабируемое решение для разработки, обучения и оценки моделей KAN.

Интересные аспекты проекта:
- Инновационная архитектура: KAN предлагает альтернативу многослойным перцептронам (MLP), заменяя фиксированные функции активации на узлах обучаемыми функциями на связях. Это позволяет достичь большей точности и интерпретируемости моделей.
GITHUB.COM

- Оптимизация для Apple Silicon: Проект использует вычислительные возможности процессоров Apple Silicon, что обеспечивает высокую производительность и эффективность при выполнении задач машинного обучения.

- Открытый исходный код: Доступность кода на GitHub позволяет сообществу исследователей и разработчиков изучать, улучшать и адаптировать проект под свои нужды, способствуя развитию технологий машинного обучения.

Таким образом, mlx-kan представляет собой значимый вклад в область машинного обучения, предлагая новые подходы к архитектуре нейронных сетей и эффективно используя современные аппаратные возможности.

@machinelearning_interview
⚡️ OpenPipe Deductive Reasoning Qwen 32B GGUF

Адаптация Qwen-32B, оптимизированная под рассуждения в GGUF формат.

Превосходит Claude 3.7 Sonnet в задачах дедуктивного мышления!

Превосходит DeepSeek R1, o1 и o3-mini в решении головоломок «Temporal Clue» при 100-кратном снижении стоимости умозаключений.

Дедуктивное рассуждение: Модель дообучена для выполнения задач, где требуется логический анализ и последовательное обоснование, что полезно для создания интеллектуальных систем и сложного анализа данных.
Формат GGUF: Конвертация в GGUF обеспечивает более эффективное использование ресурсов, ускоряет загрузку модели и облегчает её интеграцию в разнообразные приложения.
Практическое применение: Этот инструмент интересен разработчикам и исследователям ИИ, стремящимся улучшить дедуктивные способности систем, а также тем, кто ищет способы оптимизации работы с большими языковыми моделями в реальных проектах.

HF: https://huggingface.co/bartowski/OpenPipe_Deductive-Reasoning-Qwen-32B-GGUF
Dataset: https://gist.github.com/bartowski1182/eb213dccb3571f863da82e99418f81e8
LM Studio: https://lmstudio.ai/

#qwen #reasoning #GGUF
⚡️Google выпустила новую мультимодальную Gemma-3

▪️Доступны версии на 1В, 4В, 12В, 27В в базовых и instruct версиях. Пост-трейнинг впечатляет: RLHF, RLMF, RLEF и model merging.

▪️ На LMSYS модель показывает результат 1338, что лучше, чем у o1-mini, o3-mini и o3-mini high.

▪️ Модель поддерживает более 140 языков.

https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
⚡️“Т-Технологии”, куда входит Т-Банк, открыли R&D-центр, в котором будут заниматься научными исследованиями и инженерией

Центр будет проводить исследования и разработки в области ИИ, хранении данных, информационной безопасности и фундаментальных алгоритмах.

Главный фокус: разработка ИИ-ассистентов и инструментов для повышения инженерной продуктивности. Например, в компании уже используют ИИ-ассистента Nestor для написания кода. К 2026 году доля созданного ИИ-кода в “Т-Технологиях” должна вырасти в 6 раз – до 25%.

R&D-центр активно сотрудничает с такими ведущими вузами и исследовательскими центрами, как МФТИ и Сколтех. Совместно с МФТИ курирует студенческую лабораторию, где проводят исследования в области рекомендательных систем, обучения с подкреплением, компьютерного зрения и больших языковых моделей (LLM).
Своим инженерам Центр даст доступ к широкому спектру сложных инженерных и исследовательских задач, от разработки алгоритмов до информационной безопасности и систем обработки данных.

▪️Узнать больше

@machinelearning_interview
Forwarded from Machinelearning
ML-комьюнити о крупнейших запусках LLM начала 2025 года:

✔️ DeepSeek — революция или переоцененный запуск?

Запуск китайской модели всколыхнул всю индустрию, вызвав неоднозначную реакцию экспертов. CEO Anthropic Дарио Амодей отмечает, что Claude 3.5 Sonnet, обученный за несколько десятков миллионов долларов, значительно опережает DeepSeek по многим показателям, плюс у модели нет никаких барьеров против генерации чувствительной информации. Демис Хассабис, генеральный директор Google DeepMind, считает DeepSeek лучшей работой китайских исследователей, но не видит в ней новых научных достижений.

✔️ Grok 3 — Маск не дотянул

ИИ-исследователь и профессор Пенсильванского университета Итан Моллик признал, что xAI очень быстро растёт, но Grok 3 пока точно не является лучшей моделью на рынке. Она превосходит некоторые модели OpenAI, но не o3. CTO Caylent Рэнделл Хант обнаружил ряд проблем с Grok 3: уязвимость к джейлбрейкам, неуместную саркастичность, медлительность и частые ошибки в ответах. По его словам, даже простые логические тесты оказались ей не под силу, что делает модель практически бесполезной для бизнес-задач. При этом CEO Replit Амджад Масад назвал Grok 3 передовой моделью и огромным достижением.

✔️ GPT-4.5 — не оправдал ожиданий экспертов

Релиз GPT-4.5 от OpenAI получил смешанные отзывы в профессиональном сообществе. Соучредитель OpenAI и бывший глава Tesla AI Андрей Карпатый отметил, что GPT-4.5 напомнил ему GPT-4 на момент релиза — он увидел потенциал этой модели. В посте на X он сказал, что при использовании GPT-4.5 «всё стало немного лучше, и это здорово, но не совсем так, как можно было бы ожидать». В более резких выражениях высказался известный критик Гэри Маркус, назвавший модель «пустышкой». Генеральный директор Hugging Face Клемент Деланж также остался недоволен, охарактеризовав GPT-4.5 как «так себе» и раскритиковав закрытость исходного кода.

✔️ YandexGPT 5 — что в России?

Виктор Тарнавский, директор по ИИ Т-Банка, отметил, что в Яндексе выложили Lite-версию модели в опенсорс, а пайплайн Pro-версии инициализировали весами от Qwen 2.5. По его мнению, это правильное решение, позволяющее избежать бессмысленной траты ресурсов. При этом, пишет Тарнавский, разработчики делают не файнтюн, а полный цикл обучения модели — просто стартуют претрейн не с нулевых весов. По опубликованным бенчмаркам, модели показывают хорошие результаты. В СМИ также писали, что Яндекс работает над ризонингом. Максим Болотских, директор ИИ в Яков и Партнёры (ex-McKinsey), прокомментировал, что ежегодные совокупные затраты на разработку подобного функционала могут составлять 10 млрд рублей и более, и такого рода модели могут монетизироваться не только классическими подписками B2C пользователей, но и значимо лучше решать задачи В2В-сегмента.

✔️ Gemini 2.0 Flash — лучшее соотношение цена/качество

Релиз Gemini 2.0 Flash от Google получил восторженные отклики экспертов. Тим Брукс, ИИ-исследователь в Google DeepMind, высоко оценил встроенную функцию генерации изображений с возможностью визуальной цепочки рассуждений. Соучредитель и бывший глава Intel AI Райан Карсон назвал модель "умной, быстрой и дешёвой", отметив отличную производительность при тестировании через API. Мэтт Шумер, соучредитель и генеральный директор компании OthersideAI, подчеркнул, что по большинству бенчмарков Gemini 2.0 Flash приближается к Claude 3.5 Sonnet и даже превосходит его в бенчмарке MATH, сохраняя при этом значительное ценовое преимущество.

✔️ Claude 3.7 — достойный шаг вперёд при умеренных затратах

Релиз Claude 3.7 от Anthropic получил преимущественно положительные отзывы экспертов. Сэм Альтман и Дарио Амодей подчеркнули экономическую эффективность разработки — обучение Claude 3.7 Sonnet обошлось лишь в несколько десятков миллионов долларов, что значительно меньше затрат на GPT-4. Артём Санакоев, ИИ-исследователь в Meta Generative AI и автор канала "эйай ньюз", выделил инновационный подход Anthropic к рассуждениям модели — в отличие от конкурентов, Claude использует единую модель без отдельного reasoning тюна.

@ai_machinelearning_big_data

#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/03/15 00:23:18
Back to Top
HTML Embed Code: