📊 Независимые бенчмарки gpt-oss от OpenAI
OpenAI выпустила два MoE-модели с открытым весом — и это, похоже, самые *интеллектуальные американские open-source LLM* на сегодня:
🧠 gpt-oss-120b (116.8B параметров, 5.1B активных): *Intelligence Index: 58*
🧠 gpt-oss-20b (20.9B параметров, 3.6B активных): *Intelligence Index: 48*
🏆 Что важно:
- gpt-oss-120b обходит o3-mini, уступая только o4-mini, DeepSeek R1 (59) и Qwen3 235B (64).
- Это *самая интеллектуальная модель*, которую можно запустить на одной H100.
- gpt-oss-20b — лидер среди моделей, которые можно запустить на ноутбуке с 16GB+ RAM.
💡 Эффективность и размер:
- MXFP4 precision: всего 60.8GB (120b) и 12.8GB (20b)
- 120B активирует только 4.4% параметров, в отличие от Llama 4 Scout с 17B активных
- Десятки токенов/с на MacBook для 20B
⚙️ Архитектура:
- MoE: top-4 эксперта на токен
- Rotary + YaRN, контекст: до 128K
- 36 слоёв / 64 головы / GQA с 8 KV
- 20B активирует ~17.2% параметров, больше, чем у 120B
📈 Сравнение с другими:
- DeepSeek R1: 671B total / 37B active, FP8, файл >10× больше
- Qwen3 235B: 64 балла, но тоже существенно тяжелее
🌐 Провайдеры API:
Тестируем:
💵 Цены (медиана):
- 120B: $0.15 / $0.69 за 1M токенов (ввод / вывод)
- 20B: $0.08 / $0.35
- Для сравнения: o4-mini — $1.1 / $4.4, o3 — $2 / $8 (!)
📄 Лицензия: Apache 2.0 — максимально свободно!
— GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB)
— GPT-OSS-20B — 21B параметров, работает на 16GB GPU
OpenAI выпустила два MoE-модели с открытым весом — и это, похоже, самые *интеллектуальные американские open-source LLM* на сегодня:
🧠 gpt-oss-120b (116.8B параметров, 5.1B активных): *Intelligence Index: 58*
🧠 gpt-oss-20b (20.9B параметров, 3.6B активных): *Intelligence Index: 48*
🏆 Что важно:
- gpt-oss-120b обходит o3-mini, уступая только o4-mini, DeepSeek R1 (59) и Qwen3 235B (64).
- Это *самая интеллектуальная модель*, которую можно запустить на одной H100.
- gpt-oss-20b — лидер среди моделей, которые можно запустить на ноутбуке с 16GB+ RAM.
💡 Эффективность и размер:
- MXFP4 precision: всего 60.8GB (120b) и 12.8GB (20b)
- 120B активирует только 4.4% параметров, в отличие от Llama 4 Scout с 17B активных
- Десятки токенов/с на MacBook для 20B
⚙️ Архитектура:
- MoE: top-4 эксперта на токен
- Rotary + YaRN, контекст: до 128K
- 36 слоёв / 64 головы / GQA с 8 KV
- 20B активирует ~17.2% параметров, больше, чем у 120B
📈 Сравнение с другими:
- DeepSeek R1: 671B total / 37B active, FP8, файл >10× больше
- Qwen3 235B: 64 балла, но тоже существенно тяжелее
🌐 Провайдеры API:
Тестируем:
@GroqInc
, @CerebrasSystems
, @FireworksAI_HQ
, @togethercompute
💵 Цены (медиана):
- 120B: $0.15 / $0.69 за 1M токенов (ввод / вывод)
- 20B: $0.08 / $0.35
- Для сравнения: o4-mini — $1.1 / $4.4, o3 — $2 / $8 (!)
📄 Лицензия: Apache 2.0 — максимально свободно!
— GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB)
— GPT-OSS-20B — 21B параметров, работает на 16GB GPU
👍6❤2👎1🥰1
⏳ CUTLASS 4.1 — фреймворк для высокопроизводительных матричных вычислений на CUDA. Библиотека NVIDIA предоставляет низкоуровневые абстракции для эффективной реализации операций линейной алгебры на GPU. Последняя версия добавляет поддержку архитектур Blackwell и экспериментальный Python-интерфейс CuTe DSL для быстрой разработки ядер без глубоких знаний C++.
Инструмент имеет гибкую систему шаблонов, позволяющая тонко настраивать вычисления под разные типы данных и аппаратные особенности современных GPU NVIDIA.
🤖 GitHub
@machinelearning_ru
Инструмент имеет гибкую систему шаблонов, позволяющая тонко настраивать вычисления под разные типы данных и аппаратные особенности современных GPU NVIDIA.
🤖 GitHub
@machinelearning_ru
❤4👍3🔥2
Машинное обучение RU
📊 Независимые бенчмарки gpt-oss от OpenAI OpenAI выпустила два MoE-модели с открытым весом — и это, похоже, самые *интеллектуальные американские open-source LLM* на сегодня: 🧠 gpt-oss-120b (116.8B параметров, 5.1B активных): *Intelligence Index: 58* 🧠…
🆕 OpenAI выложила в опенсорс рассуждающие модели gpt‑oss‑120b и gpt‑oss‑20b. Теперь их можно запускать по API в Yandex Cloud AI Studio.
📌 Почему это важно:
• Развернуть такие модели локально сложно — нужны большие вычислительные мощности и поддержка инфраструктуры.
• Прямое использование API OpenAI может не соответствовать требованиям ФЗ‑152 и закона о локализации данных.
• В Yandex Cloud данные хранятся и обрабатываются в российских дата‑центрах.
Модели сопоставимы по качеству с o3‑mini и o4‑mini, а в отдельных задачах превосходят GPT‑4o и o1. Поддерживают настраиваемую интенсивность рассуждений и скорость ответа.
Сценарии применения: автоматизация рекрутмента, техподдержки, анализ документов, первичная коммуникация с клиентами. Вскоре появится возможность вызова функций — можно будет интегрировать поиск информации в интернете прямо при генерации ответа. За использование модели 120b берут 30 копеек за 1000 токенов, для “младшей” модели – 10 копеек.
@machinelearning_ru
📌 Почему это важно:
• Развернуть такие модели локально сложно — нужны большие вычислительные мощности и поддержка инфраструктуры.
• Прямое использование API OpenAI может не соответствовать требованиям ФЗ‑152 и закона о локализации данных.
• В Yandex Cloud данные хранятся и обрабатываются в российских дата‑центрах.
Модели сопоставимы по качеству с o3‑mini и o4‑mini, а в отдельных задачах превосходят GPT‑4o и o1. Поддерживают настраиваемую интенсивность рассуждений и скорость ответа.
Сценарии применения: автоматизация рекрутмента, техподдержки, анализ документов, первичная коммуникация с клиентами. Вскоре появится возможность вызова функций — можно будет интегрировать поиск информации в интернете прямо при генерации ответа. За использование модели 120b берут 30 копеек за 1000 токенов, для “младшей” модели – 10 копеек.
@machinelearning_ru
👍2❤1🔥1
SWE‑Swiss-32B — модель с 32 млрд параметров, оптимизированная для эффективного исправления программных проблем.
Что входит в рецепт обучения:
- Мulti‑Task Fine‑Tuning + Reinforcement Learning — обучаем модель сразу на нескольких навыках и усиливаем через RL.
- Ключевые навыки:
- Локализация ошибок (файлы)
- Генерация патчей
- Создание unit-тестов
По результатам тестов на SWE‑bench Verified, модель показывает производительность на уровне передовых закрытых моделей, несмотря на свою среднюю размерность.
Плюсы:
- Доступно на Hugging Face под лицензией MIT
- Использует
transformers
— просто интегрировать в пайплайнПочему это круто:
SWE‑Swiss — пример того, как грамотно комбинация мультизадочного обучения и RL позволяет добиться высоких результатов в решении понятийно сложных задач, делая LLM доступнее и эффективнее для разработчиков.
📑Notion: https://pebble-potato-fc6.notion.site/SWE-Swiss-A-Multi-Task-Fine-Tuning-and-RL-Recipe-for-High-Performance-Issue-Resolution-21e174dedd4880ea829ed4c861c44f88?pvs=143
💻Github: https://github.com/zhenyuhe00/SWE-Swiss
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1🔥1
🧠 Большинство AI‑агентов не понимают друг друга — задачи повторяются, токены тратятся впустую, и всё ломается.
📊 Новый обзор сравнил 24 фреймворка для AI-агентов и показал, что не хватает общей спецификации, из-за чего агенты не могут "работать в команде".
🤖 Что такое агентный воркфлоу?
Это playbook для LLM: какие подзадачи запускать, в каком порядке и с какими внешними инструментами.
Без него — модель либо тратит токены на догадки, либо забывает, что сделала 2 минуты назад.
🧩 Авторы разделили системы по 2 осям:
- Функции: планирование задач, вызов инструментов, память, командная работа
- Архитектура: роли, потоки данных, протоколы
⚠️ Все используют Python-цепочки и JSON-конфиги, но:
• форматы сообщений разные
• названия ролей свои
• схемы инструментов — кастомные
Это мешает совместимости, тормозит безопасность и делает баги вроде tool poisoning труднее устранимыми.
✅ Решения, предложенные в статье:
- Открытые протоколы: MCP, A2A
- Loop-архитектуры: planner → executor → feedback
- Планировщики, чтобы агенты не дрались за один ресурс
📌 Вывод: пока у нас нет общего языка воркфлоу, агентные системы останутся изолированными островами.
📝 Читать статью: https://arxiv.org/abs/2508.01186
📊 Новый обзор сравнил 24 фреймворка для AI-агентов и показал, что не хватает общей спецификации, из-за чего агенты не могут "работать в команде".
🤖 Что такое агентный воркфлоу?
Это playbook для LLM: какие подзадачи запускать, в каком порядке и с какими внешними инструментами.
Без него — модель либо тратит токены на догадки, либо забывает, что сделала 2 минуты назад.
🧩 Авторы разделили системы по 2 осям:
- Функции: планирование задач, вызов инструментов, память, командная работа
- Архитектура: роли, потоки данных, протоколы
⚠️ Все используют Python-цепочки и JSON-конфиги, но:
• форматы сообщений разные
• названия ролей свои
• схемы инструментов — кастомные
Это мешает совместимости, тормозит безопасность и делает баги вроде tool poisoning труднее устранимыми.
✅ Решения, предложенные в статье:
- Открытые протоколы: MCP, A2A
- Loop-архитектуры: planner → executor → feedback
- Планировщики, чтобы агенты не дрались за один ресурс
📌 Вывод: пока у нас нет общего языка воркфлоу, агентные системы останутся изолированными островами.
📝 Читать статью: https://arxiv.org/abs/2508.01186
👍4❤2
📌 oneDNN — высокопроизводительная библиотека для ускорения нейронных сетей, разработанная Intel. Этот open-source проект оптимизирует вычисления для процессоров Intel и ARM, а также поддерживает экспериментальные реализации под NVIDIA/AMD GPU.
Библиотека выступает строительным блоком для популярных фреймворков вроде PyTorch и TensorFlow, автоматически подбирая оптимальные инструкции CPU через JIT-компиляцию. Интересно, что она также работает на экзотических архитектурах — от IBM z/Architecture до RISC-V, хотя поддержка последних пока ограничена.
🤖 GitHub
@machinelearning_ru
Библиотека выступает строительным блоком для популярных фреймворков вроде PyTorch и TensorFlow, автоматически подбирая оптимальные инструкции CPU через JIT-компиляцию. Интересно, что она также работает на экзотических архитектурах — от IBM z/Architecture до RISC-V, хотя поддержка последних пока ограничена.
🤖 GitHub
@machinelearning_ru
❤6👍3
🔍 Как избежать хаоса в общих ML-утилитах?
Типичная ситуация в data science: несколько команд используют один и тот же код, но из-за разных репозиториев и релизных циклов версии утилит быстро расходятся. Обновления одной команды не доходят до других, баги фиксируются выборочно, а со временем код и вовсе начинает жить своей жизнью в каждом проекте.
Git submodules решают эту проблему, позволяя встраивать общий репозиторий как подкаталог в другие проекты. Вместо копирования кода — ссылка на конкретный коммит. Так, даже в условиях разных уровней безопасности или частых обновлений, все команды работают с одинаковой версией утилит.
Но при этом подход не идеален: требует аккуратности в работе, но для быстро меняющегося ML-кода — это часто лучшее решение, чем классические пакеты Python. Главное — все изменения остаются прозрачными, а утилиты можно сразу отлаживать в контексте проекта.
🔗 Ссылка - *клик*
@machinelearning_ru
Типичная ситуация в data science: несколько команд используют один и тот же код, но из-за разных репозиториев и релизных циклов версии утилит быстро расходятся. Обновления одной команды не доходят до других, баги фиксируются выборочно, а со временем код и вовсе начинает жить своей жизнью в каждом проекте.
Git submodules решают эту проблему, позволяя встраивать общий репозиторий как подкаталог в другие проекты. Вместо копирования кода — ссылка на конкретный коммит. Так, даже в условиях разных уровней безопасности или частых обновлений, все команды работают с одинаковой версией утилит.
Но при этом подход не идеален: требует аккуратности в работе, но для быстро меняющегося ML-кода — это часто лучшее решение, чем классические пакеты Python. Главное — все изменения остаются прозрачными, а утилиты можно сразу отлаживать в контексте проекта.
🔗 Ссылка - *клик*
@machinelearning_ru
❤6🔥1🥰1
🗺️ 4DGS-SLAM — SLAM для динамичных сцен на базе Gaussian Splatting
Обычные SLAM-методы с Gaussian Splatting работают только в статичных сценах.
4DGS-SLAM идёт дальше — он строит карту и отслеживает камеру в реальном времени, не удаляя движущиеся объекты, а моделируя их вместе со статичными.
🔥 Как это работает
- Работает с последовательностями RGB-D с динамикой.
- Делит сцену на статические и динамические Gaussian-примитивы.
- Отслеживает движение объектов через MLP и 2D optical flow.
- Генерирует motion masks для точной сегментации.
https://github.com/yanyan-li/4DGS-SLAM
Обычные SLAM-методы с Gaussian Splatting работают только в статичных сценах.
4DGS-SLAM идёт дальше — он строит карту и отслеживает камеру в реальном времени, не удаляя движущиеся объекты, а моделируя их вместе со статичными.
🔥 Как это работает
- Работает с последовательностями RGB-D с динамикой.
- Делит сцену на статические и динамические Gaussian-примитивы.
- Отслеживает движение объектов через MLP и 2D optical flow.
- Генерирует motion masks для точной сегментации.
https://github.com/yanyan-li/4DGS-SLAM
🔥3❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Жаркий момент на интервью с CEO OpenAI.
Ведущий спросил Сэма Альтмана, что он думает о посте Илона Маска «OpenAI сожрёт Microsoft» и ответе Сатьи Наделлы.
Альтман: *«Эмм… я не так уж много о нём думаю».*
Когда ведущий уточнил, что речь о том, что в долгосрочной перспективе OpenAI получит больше власти, влияния и рычагов, чем Microsoft, Сэм ответил:
*«Я не знаю, что это значит. А вы знаете?»*
После пояснения ведущего Альтман лишь добавил:
*«Он просто весь день твитит о том, какая OpenAI плохая, что у нас плохая модель и мы не будем хорошей компанией».*
Вопрос о власти над Microsoft так и остался без ответа.
Ведущий спросил Сэма Альтмана, что он думает о посте Илона Маска «OpenAI сожрёт Microsoft» и ответе Сатьи Наделлы.
Альтман: *«Эмм… я не так уж много о нём думаю».*
Когда ведущий уточнил, что речь о том, что в долгосрочной перспективе OpenAI получит больше власти, влияния и рычагов, чем Microsoft, Сэм ответил:
*«Я не знаю, что это значит. А вы знаете?»*
После пояснения ведущего Альтман лишь добавил:
*«Он просто весь день твитит о том, какая OpenAI плохая, что у нас плохая модель и мы не будем хорошей компанией».*
Вопрос о власти над Microsoft так и остался без ответа.
👍4❤2🥰2
Пилот дрона — это не игрушка, а профессия с реальными задачами и деньгами.
Где нужны специалисты уже сегодня:
— Инспекции мостов и дорог
— Мониторинг лесов, парков и водохранилищ
— Съёмки для фильмов и рекламы
— Геодезия и кадастр
— Контроль за строительством
— Поиск людей после ЧС
— Анализ состояния объектов ЖКХ
— Сбор данных для цифровых моделей городов
📊 В России — острый дефицит специалистов. Каждый новый проект ищет своих «дроноводов».
Освойте новую профессию на онлайн-курсе Skillbox и получите шанс пройти стажировку в «Геоскане» — лидере отрасли.
Получите скидку до 60% + 3 курса в подарок!
👉 Подробнее по ссылке: https://goo.su/pgzSO?erid=2VtzqvJkepH
Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880
Где нужны специалисты уже сегодня:
— Инспекции мостов и дорог
— Мониторинг лесов, парков и водохранилищ
— Съёмки для фильмов и рекламы
— Геодезия и кадастр
— Контроль за строительством
— Поиск людей после ЧС
— Анализ состояния объектов ЖКХ
— Сбор данных для цифровых моделей городов
📊 В России — острый дефицит специалистов. Каждый новый проект ищет своих «дроноводов».
Освойте новую профессию на онлайн-курсе Skillbox и получите шанс пройти стажировку в «Геоскане» — лидере отрасли.
Получите скидку до 60% + 3 курса в подарок!
👉 Подробнее по ссылке: https://goo.su/pgzSO?erid=2VtzqvJkepH
Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880
😁8👎4🤔3❤2👍2🔥1🤬1
📄 MLflow GenAI — автоматическая оценка качества RAG-систем. Проект расширяет возможности платформы MLflow для оценки генеративных AI-моделей. Он автоматически проверяет релевантность ответов и их соответствие исходному контексту, что особенно полезно для RAG-систем. Интеграция с Ollama и LangChain позволяет тестировать локальные модели, включая Llama3.
Инструмент использует GPT-4 в качестве судьи для оценки ответов, генерируя метрики от 1 до 5. Результаты отображаются в дашборде MLflow, где можно сравнивать разные версии модели. Это упрощает процесс улучшения AI-систем без ручной проверки.
🔗 Ссылка - *клик*
@machinelearning_ru
Инструмент использует GPT-4 в качестве судьи для оценки ответов, генерируя метрики от 1 до 5. Результаты отображаются в дашборде MLflow, где можно сравнивать разные версии модели. Это упрощает процесс улучшения AI-систем без ручной проверки.
🔗 Ссылка - *клик*
@machinelearning_ru
❤3👍2
Принцип простой: описываете, что хотите получить, нажимаете Optimize — GPT-5 анализирует запрос и выдаёт готовый детализированный промт. Работает бесплатно.
Инструмент может упростить работу с любыми нейросетями, особенно если у вас нет опыта в составлении промтов.
Готовый вы можете сразу попробовать в @Chatgpturbobot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Что умеет
- SimpleQA: 91% точности, чуть выше Perplexity Pro — и всё это полностью локально.
- Сценарии: быстрый веб-поиск и глубокое исследование (Deep Research).
Из чего сделана
- Базируется на Qwen3-4B-Thinking (контекст до 256k), дообучена в Jan на рассуждение и работу с инструментами.
Где запускать
- Jan, llama.cpp или vLLM.
Как включить поиск в Jan
- Settings → Experimental Features → On
- Settings → MCP Servers → включите поисковый MCP (например, Serper)
Модели
- Jan-v1-4B: https://huggingface.co/janhq/Jan-v1-4B
- Jan-v1-4B-GGUF: https://huggingface.co/janhq/Jan-v1-4B-GGUF
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤2👍2
🎯 Marco-Voice — единый фреймворк для выразительного синтеза речи с клонированием голоса 🎧
🚀 Ключевые возможности:
🔥 Новые методы: разделение признаков говорящего и эмоций, интеграция ротационных эмбеддингов эмоций
🔥 Новый бенчмарк: датасет эмоциональной речи (10 часов, 7 категорий эмоций) + 100 промптов для обучения и оценки
☄️ Всё в открытом доступе (код, данные, отчёт — и будет ещё больше):
💌 Код: https://github.com/AIDC-AI/Marco-Voice
💌 Данные: https://huggingface.co/datasets/AIDC-AI/CSEMOTIONS
💌 Отчёт: https://huggingface.co/papers/2508.02038
🚀 Ключевые возможности:
🔥 Новые методы: разделение признаков говорящего и эмоций, интеграция ротационных эмбеддингов эмоций
🔥 Новый бенчмарк: датасет эмоциональной речи (10 часов, 7 категорий эмоций) + 100 промптов для обучения и оценки
☄️ Всё в открытом доступе (код, данные, отчёт — и будет ещё больше):
💌 Код: https://github.com/AIDC-AI/Marco-Voice
💌 Данные: https://huggingface.co/datasets/AIDC-AI/CSEMOTIONS
💌 Отчёт: https://huggingface.co/papers/2508.02038
GitHub
GitHub - AIDC-AI/Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning
A Unified Framework for Expressive Speech Synthesis with Voice Cloning - AIDC-AI/Marco-Voice
❤3👍2🔥2🤩1
До конца регистрации на хакатон от The Experts: School of Quants осталось всего 4 дня!
Приглашаем вас принять участие в открытом хакатоне от School of Quants — это шанс продемонстрировать свои навыки, получить ценный практический опыт и существенно увеличить свои шансы на поступление в годовую программу.
School of Quants — ведущая образовательная платформа в области количественных финансов от The Experts, которая уже более 10 лет помогает молодым специалистам строить карьеру в сфере финансов и инвестиций.
Что в задании?
В этом году участникам предстоит решить задачу по прогнозированию цены закрытия акции на 13 торговых дней вперёд. Вы можете использовать любые подходы и инструменты: от эконометрических моделей и методов машинного обучения до обработки и генерации признаков (feature engineering), а также любых внешних и внутренних данных, если они обоснованы.
Почему важно участвовать?
- Преимущества при поступлении на флагманскую годовую программу School of Quants
- Возможность попасть на трек Top Talents 2025/26 со скидкой до 95% на обучение
- Приоритет при выборе наставников и менторов в рамках программы
- Скидки на трек EXPERT и специальные условия на другие курсы
- Преференции при отборе на стажировки и позиции в компаниях-партнёрах
- Fast track для кандидатов в партнёрские компании
- Возможность проявить себя перед потенциальными работодателями
Ключевые даты:
- Регистрация: до 23:55 Мск 15 августа
- Сдача финального решения: до 23:55 Мск 22 августа
- Рассылка дополнительного задания для финалистов хакатона: до 31 августа
- Объявление победителя и призеров: 5 сентября
- Церемония награждения: 7 сентября
Успевайте зарегистрироваться по ссылке.
Большинство преимуществ хакатона доступны для тех, кто планирует поступать на годовую программу School of Quants. Если хотите подробнее узнать о формате, возможностях и условиях — переходите по ссылке.
Приглашаем вас принять участие в открытом хакатоне от School of Quants — это шанс продемонстрировать свои навыки, получить ценный практический опыт и существенно увеличить свои шансы на поступление в годовую программу.
School of Quants — ведущая образовательная платформа в области количественных финансов от The Experts, которая уже более 10 лет помогает молодым специалистам строить карьеру в сфере финансов и инвестиций.
Что в задании?
В этом году участникам предстоит решить задачу по прогнозированию цены закрытия акции на 13 торговых дней вперёд. Вы можете использовать любые подходы и инструменты: от эконометрических моделей и методов машинного обучения до обработки и генерации признаков (feature engineering), а также любых внешних и внутренних данных, если они обоснованы.
Почему важно участвовать?
- Преимущества при поступлении на флагманскую годовую программу School of Quants
- Возможность попасть на трек Top Talents 2025/26 со скидкой до 95% на обучение
- Приоритет при выборе наставников и менторов в рамках программы
- Скидки на трек EXPERT и специальные условия на другие курсы
- Преференции при отборе на стажировки и позиции в компаниях-партнёрах
- Fast track для кандидатов в партнёрские компании
- Возможность проявить себя перед потенциальными работодателями
Ключевые даты:
- Регистрация: до 23:55 Мск 15 августа
- Сдача финального решения: до 23:55 Мск 22 августа
- Рассылка дополнительного задания для финалистов хакатона: до 31 августа
- Объявление победителя и призеров: 5 сентября
- Церемония награждения: 7 сентября
Успевайте зарегистрироваться по ссылке.
Большинство преимуществ хакатона доступны для тех, кто планирует поступать на годовую программу School of Quants. Если хотите подробнее узнать о формате, возможностях и условиях — переходите по ссылке.
👎2👍1
🚨 NVIDIA и AMD заплатят США 15% от выручки с чипов для Китая, чтобы получить экспортные лицензии
По условиям нового соглашения, компании смогут снова поставлять в Китай ускорители Nvidia H20 и AMD MI308, но обязаны перечислять 15% дохода от их продаж в Китае на специальный счёт правительства США.
📌 Ключевые детали:
- Мера распространяется только на H20 и MI308, продаваемые в Китае — другие чипы и страны не затронуты.
- Формально это не налог, а условие экспортной лицензии.
- При отказе или нарушении условий — лицензии могут быть отозваны, а компании оштрафованы.
- Операционно: компания получает оплату от китайского клиента → перечисляет 15% США → в отчётности это отражается как расход, уменьшая прибыль.
- Возможна корректировка цен, чтобы переложить часть затрат на покупателей.
💡 Для NVIDIA и AMD это возвращает им рынок и защищает долю от китайских конкурентов, но вызывает споры: часть американских политиков считает, что H20 всё ещё может применяться в военных целях.
Источник: ft.com/content/cd1a0729-a8ab-41e1-a4d2-8907f4c01cac
По условиям нового соглашения, компании смогут снова поставлять в Китай ускорители Nvidia H20 и AMD MI308, но обязаны перечислять 15% дохода от их продаж в Китае на специальный счёт правительства США.
📌 Ключевые детали:
- Мера распространяется только на H20 и MI308, продаваемые в Китае — другие чипы и страны не затронуты.
- Формально это не налог, а условие экспортной лицензии.
- При отказе или нарушении условий — лицензии могут быть отозваны, а компании оштрафованы.
- Операционно: компания получает оплату от китайского клиента → перечисляет 15% США → в отчётности это отражается как расход, уменьшая прибыль.
- Возможна корректировка цен, чтобы переложить часть затрат на покупателей.
💡 Для NVIDIA и AMD это возвращает им рынок и защищает долю от китайских конкурентов, но вызывает споры: часть американских политиков считает, что H20 всё ещё может применяться в военных целях.
Источник: ft.com/content/cd1a0729-a8ab-41e1-a4d2-8907f4c01cac
❤1🔥1
🚀 Отличный релиз компактной модели VLM!
LiquidA представили LFM2-VL — vision-language модели, которпя эффективно работают на всём: от смартфонов и ноутбуков до носимых и встраиваемых устройств.
Что внутри:
- Расширение системы LFM2 в мультимодальность (текст + изображения)
- Поддержка нативного разрешения до 512×512
- Модульная архитектура: language-backbone + SigLIP2 NaFlex vision encoder + лёгкий мультимодальный проектор для сжатия image tokens
- Крупные изображения разбиваются на патчи + миниатюры для контекста, что сохраняет детали и общий вид сцены
Две версии под разные задачи:
- LFM2-VL-450M (<0.5B параметров) — для ограниченных устройств
- LFM2-VL-1.6B — больше возможностей, но всё ещё подходит для single-GPU и мобильных сценариев
Обе модели позволяют настраивать лимит image tokens и количество патчей для баланса скорости и качества без повторного обучения.
Тренировка:
- 100B мультимодальных токенов из открытых и синтетических датасетов
- Поэтапное смешение текстового и визуального обучения
- На бенчмарках RealWorldQA и OCRBench — конкурентные результаты
- На GPU — до 2× быстрее аналогов
📌 Доступны на huggingface под лицензией Apache 2.0
https://www.liquid.ai/blog/lfm2-vl-efficient-vision-language-models
LiquidA представили LFM2-VL — vision-language модели, которпя эффективно работают на всём: от смартфонов и ноутбуков до носимых и встраиваемых устройств.
Что внутри:
- Расширение системы LFM2 в мультимодальность (текст + изображения)
- Поддержка нативного разрешения до 512×512
- Модульная архитектура: language-backbone + SigLIP2 NaFlex vision encoder + лёгкий мультимодальный проектор для сжатия image tokens
- Крупные изображения разбиваются на патчи + миниатюры для контекста, что сохраняет детали и общий вид сцены
Две версии под разные задачи:
- LFM2-VL-450M (<0.5B параметров) — для ограниченных устройств
- LFM2-VL-1.6B — больше возможностей, но всё ещё подходит для single-GPU и мобильных сценариев
Обе модели позволяют настраивать лимит image tokens и количество патчей для баланса скорости и качества без повторного обучения.
Тренировка:
- 100B мультимодальных токенов из открытых и синтетических датасетов
- Поэтапное смешение текстового и визуального обучения
- На бенчмарках RealWorldQA и OCRBench — конкурентные результаты
- На GPU — до 2× быстрее аналогов
📌 Доступны на huggingface под лицензией Apache 2.0
https://www.liquid.ai/blog/lfm2-vl-efficient-vision-language-models
👍4❤2