MACHINELEARNING_INTERVIEW Telegram 2184
⚡️ Фотореализм в диффузионных моделях за 10 минут? Новый метод от Hunyuan - SRPO (Semantic Relative Preference Optimization) показывает, что это реально.

SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле.

Как это работает:
- Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью.
- Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения.
- Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO).
- Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных.
- Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений.

Подробнее:
🟢Проект: https://tencent.github.io/srpo-project-page/
🟢Статья: https://arxiv.org/abs/2509.06942
🟢Модель: https://huggingface.co/tencent/SRPO
🟢Код: https://github.com/Tencent-Hunyuan/SRPO

@machinelearning_interview


#SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥7👍4🥱2



tgoop.com/machinelearning_interview/2184
Create:
Last Update:

⚡️ Фотореализм в диффузионных моделях за 10 минут? Новый метод от Hunyuan - SRPO (Semantic Relative Preference Optimization) показывает, что это реально.

SRPO — это онлайн-фреймворк обучения с подкреплением для моделей text-image, созданный как более эффективная альтернатива GRPO-подходам. Он делает генерацию стабильнее, быстрее и дешевле.

Как это работает:
- Direct-Align: оптимизация даже на самых «шумных» шагах, без сбоев и сэкономленной памятью.
- Promptable Rewards: награды превращаются в условные сигналы. Добавьте ключевые слова к промпту — и модель сразу усиливает реализм без дополнительного обучения.
- Эффективность: 75-кратный прирост производительности, результаты за 10 минут на 32 GPU (обгоняет DanceGRPO).
- Качество: повышенный уровень реализма и эстетики для FLUX.1-dev без новых данных.
- Надёжность: отсутствие reward hacking, работа с готовыми reward-моделями и устранение пересыщения изображений.

Подробнее:
🟢Проект: https://tencent.github.io/srpo-project-page/
🟢Статья: https://arxiv.org/abs/2509.06942
🟢Модель: https://huggingface.co/tencent/SRPO
🟢Код: https://github.com/Tencent-Hunyuan/SRPO

@machinelearning_interview


#SRPO #DiffusionModels #AI #ReinforcementLearning #TextToImage

BY Machine learning Interview







Share with your friend now:
tgoop.com/machinelearning_interview/2184

View MORE
Open in Telegram


Telegram News

Date: |

When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. Click “Save” ; The Standard Channel The Channel name and bio must be no more than 255 characters long
from us


Telegram Machine learning Interview
FROM American