📢 Skywork представила Skywork‑Reward‑V2 — новый подход к обучению reward‑моделей через синергию человека и ИИ
🔍 В свежем релизе Skywork показала, как масштабировать создание данных предпочтений (preference data) с помощью Human‑AI Synergy — совместного отбора, микширования и обучения.
Что важно:
✅ Детализированная методология по сбору и очистке данных для reward-моделей
✅ Использование различных источников: человеческие оценки, LLM-аннотации, активное обучение
✅ Комбинация нескольких подходов: supervision, self-training, rejection sampling, data ranking
✅ Отличные результаты на новом RewardBench 2 — одном из первых публичных сравнений моделей
🚀 Модели уже опубликованы: Skywork‑Reward‑V2 теперь доступна и готова к использованию в вашем fine-tuning пайплайне.
📖 Чтение обязательно для тех, кто строит RLAIF и хочет улучшить reward-сигналы без десятков тысяч ручных аннотаций.
🔗 Подробнее: https://huggingface.co/Skywork/Skywork-Reward-V2
🔍 В свежем релизе Skywork показала, как масштабировать создание данных предпочтений (preference data) с помощью Human‑AI Synergy — совместного отбора, микширования и обучения.
Что важно:
✅ Детализированная методология по сбору и очистке данных для reward-моделей
✅ Использование различных источников: человеческие оценки, LLM-аннотации, активное обучение
✅ Комбинация нескольких подходов: supervision, self-training, rejection sampling, data ranking
✅ Отличные результаты на новом RewardBench 2 — одном из первых публичных сравнений моделей
🚀 Модели уже опубликованы: Skywork‑Reward‑V2 теперь доступна и готова к использованию в вашем fine-tuning пайплайне.
📖 Чтение обязательно для тех, кто строит RLAIF и хочет улучшить reward-сигналы без десятков тысяч ручных аннотаций.
🔗 Подробнее: https://huggingface.co/Skywork/Skywork-Reward-V2