scriptRun AI медиа@scriptRunAI

scriptRun AI медиа

Alibaba Qwen QwQ-32B: Новый шаг в развитии AI через масштабируемое обучение с подкреплением

Команда Qwen из Alibaba представила QwQ-32B — мощную AI-модель с 32 миллиардами параметров, которая по производительности конкурирует с гораздо более крупной DeepSeek-R1. Это подтверждает эффективность обучения с подкреплением (RL) для улучшения моделей ИИ.

🔹 Что делает QwQ-32B особенной?
Модель интегрирует агентные возможности, позволяя ей критически мыслить, использовать инструменты и адаптировать логику в зависимости от окружающих условий.

🔹 Как она показывает себя на тестах?
QwQ-32B продемонстрировала выдающиеся результаты в бенчмарках:

- AIME24 (математика): 79.5 баллов (почти на уровне DeepSeek-R1 с 79.8).
- LiveCodeBench (кодинг): 63.4, обгоняя большинство конкурентов.
- LiveBench (общие задачи): 73.1 — выше, чем у DeepSeek-R1 (71.6).
- IFEval (логика и интеллект): 83.9 — практически наравне с DeepSeek-R1 (83.3).
- BFCL (общие способности): 66.4 против 62.8 у DeepSeek-R1.

🔹 В чём секрет успеха?

Qwen использует многоэтапное обучение с подкреплением с разными стратегиями вознаграждений:
✅ Первая фаза – усиление в задачах по математике и кодингу.
✅ Вторая фаза – расширение возможностей, включая следование инструкциям и оптимизацию взаимодействия с человеком.

QwQ-32B уже доступна в открытом доступе на Hugging Face и ModelScope под лицензией Apache 2.0.

📌 В Alibaba считают, что комбинация мощных базовых моделей и масштабируемого RL — это путь к созданию ИИ следующего уровня и приближению к AGI.

Что думаете? Насколько близки мы к искусственному общему интеллекту?

🔥14👍1👏1

www.tgoop.com/scriptRunAI_media/8784

3.98K viewsMar 6 at 16:02

tgoop.com/scriptRunAI_media/8784

Create: 2025-03-06
Last Update: 2025-10-26 08:22:30

BY scriptRun AI медиа

Share with your friend now:
tgoop.com/scriptRunAI_media/8784

Telegram News

Alibaba Qwen QwQ-32B: Новый шаг в развитии AI через масштабируемое обучение с подкреплением