Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/def_model_train/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
я обучала одну модель@def_model_train P.926
DEF_MODEL_TRAIN Telegram 926
Разгребаю завалы статей, про которые хотела тут написать – Chain of Hindsight Aligns Language Models with Feedback
https://arxiv.org/abs/2302.02676

Очень простая и изящная идея: в RLHF парадигме мы сначала генрируем ответы модели, потом их ранжируют люди, потом на этом учится reward модель, и потом сама LM (например, через PPO). Авторы разумно предполагают, что можно скипнуть часть с reward моделью, и использовать ранжирование напрямую для тюна модели

То есть, если у нас есть два ответа модели на какой-то промпт, A и B, и разметка, что ответ A лучше ответа B, то тренировочный семпл будет: промпт, «bad answer»: B, «good answer»: A. Понятно, что так отранжировать можно больше двух ответов, и не только как плохой/хороший, но и по более информативным качествам. Например, что ответ А более helpful, interesting, accurate, etc. На инференсе модель просят, соответственно, сгенерировать a good/helpful/interesting answer (идея очень похожа на Quark)

Авторы потом показывают, что этот метод ощутимо обходит RLHF и обычный supervised learning на задачах суммаризации и диалога. И что Chain of Hindsight лучше может в итеративное улучшение, когда например в диалоге пользователь просит улучшить или сконкретизировать ответ. Еще приводят данные, что на куче других задач CoH не хуже supervised learning, но с RLHF не сравнивают (that’s sus)

В целом я думаю это может быть хорошим вариантов RLHF бедного человека, так как к PPO в известной степени сложно нормально подобрать гиперпараметры и что-то на нем обучить. Плюс меньше траты на компьют
👍11🤡1



tgoop.com/def_model_train/926
Create:
Last Update:

Разгребаю завалы статей, про которые хотела тут написать – Chain of Hindsight Aligns Language Models with Feedback
https://arxiv.org/abs/2302.02676

Очень простая и изящная идея: в RLHF парадигме мы сначала генрируем ответы модели, потом их ранжируют люди, потом на этом учится reward модель, и потом сама LM (например, через PPO). Авторы разумно предполагают, что можно скипнуть часть с reward моделью, и использовать ранжирование напрямую для тюна модели

То есть, если у нас есть два ответа модели на какой-то промпт, A и B, и разметка, что ответ A лучше ответа B, то тренировочный семпл будет: промпт, «bad answer»: B, «good answer»: A. Понятно, что так отранжировать можно больше двух ответов, и не только как плохой/хороший, но и по более информативным качествам. Например, что ответ А более helpful, interesting, accurate, etc. На инференсе модель просят, соответственно, сгенерировать a good/helpful/interesting answer (идея очень похожа на Quark)

Авторы потом показывают, что этот метод ощутимо обходит RLHF и обычный supervised learning на задачах суммаризации и диалога. И что Chain of Hindsight лучше может в итеративное улучшение, когда например в диалоге пользователь просит улучшить или сконкретизировать ответ. Еще приводят данные, что на куче других задач CoH не хуже supervised learning, но с RLHF не сравнивают (that’s sus)

В целом я думаю это может быть хорошим вариантов RLHF бедного человека, так как к PPO в известной степени сложно нормально подобрать гиперпараметры и что-то на нем обучить. Плюс меньше траты на компьют

BY я обучала одну модель




Share with your friend now:
tgoop.com/def_model_train/926

View MORE
Open in Telegram


Telegram News

Date: |

Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. How to Create a Private or Public Channel on Telegram?
from us


Telegram я обучала одну модель
FROM American