Telegram Web
📢 Skywork представила Skywork‑Reward‑V2 — новый подход к обучению reward‑моделей через синергию человека и ИИ

🔍 В свежем релизе Skywork показала, как масштабировать создание данных предпочтений (preference data) с помощью Human‑AI Synergy — совместного отбора, микширования и обучения.

Что важно:
Детализированная методология по сбору и очистке данных для reward-моделей
Использование различных источников: человеческие оценки, LLM-аннотации, активное обучение
Комбинация нескольких подходов: supervision, self-training, rejection sampling, data ranking
Отличные результаты на новом RewardBench 2 — одном из первых публичных сравнений моделей

🚀 Модели уже опубликованы: Skywork‑Reward‑V2 теперь доступна и готова к использованию в вашем fine-tuning пайплайне.

📖 Чтение обязательно для тех, кто строит RLAIF и хочет улучшить reward-сигналы без десятков тысяч ручных аннотаций.

🔗 Подробнее: https://huggingface.co/Skywork/Skywork-Reward-V2
2025/07/09 03:00:48
Back to Top
HTML Embed Code: