Машинное обучение RU 2777

Машинное обучение RU

📢 Skywork представила Skywork‑Reward‑V2 — новый подход к обучению reward‑моделей через синергию человека и ИИ

🔍 В свежем релизе Skywork показала, как масштабировать создание данных предпочтений (preference data) с помощью Human‑AI Synergy — совместного отбора, микширования и обучения.

Что важно:
✅ Детализированная методология по сбору и очистке данных для reward-моделей
✅ Использование различных источников: человеческие оценки, LLM-аннотации, активное обучение
✅ Комбинация нескольких подходов: supervision, self-training, rejection sampling, data ranking
✅ Отличные результаты на новом RewardBench 2 — одном из первых публичных сравнений моделей

🚀 Модели уже опубликованы: Skywork‑Reward‑V2 теперь доступна и готова к использованию в вашем fine-tuning пайплайне.

📖 Чтение обязательно для тех, кто строит RLAIF и хочет улучшить reward-сигналы без десятков тысяч ручных аннотаций.

🔗 Подробнее: https://huggingface.co/Skywork/Skywork-Reward-V2

709 views09:59

2025/07/09 03:00:48
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>