BUILDING_SINGULARITY Telegram 53
Большой обзор 👁 методов по исправлению ответов LLM’ок 👨‍🏫

В генерациях LLM могут быть ложные факты, неверные рассуждения, код с багами, токсичные высказывания и прочие приколы. Авторы разложили по полочкам имеющиеся способы борьбы с этим.

Самый популярный сейчас подход для такого - собрать датасет предпочтений пользователей и делать RLHF. Но есть и намного более быстрые способы, где LLM генерирует критику сама для себя, и на её основе сама же исправляется 😱

Такой пример post-hoc исправления может быть дешевле и эффективней в некоторых задачах, чем исправление в процессе обучения как в RLHF.

Авторы выделили во всех этих методах 3 сущности (рисунок 1):

1. Языковую модель, которая генерирует изначальный ответ
2. Критика, который дает фидбек; это может быть человеческая оценка, ответ GPT4 с нужным промптом, награда ревард модели, …
3. Способ исправления


Способы исправления могут быть:
⁃ С дообучением модели: RLHF (или SLiC / DPO) или просто составление исправленного датасета и обычный файнтюн
⁃ Во время генерации: изменять вероятности новых токенов на основе награды ревард модели, например; или генерировать N кандидатов, а затем выбирать лучший по мнению критика
⁃ Post-hoc исправление (рисунок 2): генерация той же LLM с 1ого шага, но с расширенным промптом, ...

Прикольно смотреть на такую таксономию, всё уложилось четко 😗

Можно брать листья из каждой ветки, получать новый способ по исправлению ответов, и писать статью :D
(хотя там столько ссылок на другие работы, что может всё уже и перебрали)


Статья: "Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies"
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥32



tgoop.com/building_singularity/53
Create:
Last Update:

Большой обзор 👁 методов по исправлению ответов LLM’ок 👨‍🏫

В генерациях LLM могут быть ложные факты, неверные рассуждения, код с багами, токсичные высказывания и прочие приколы. Авторы разложили по полочкам имеющиеся способы борьбы с этим.

Самый популярный сейчас подход для такого - собрать датасет предпочтений пользователей и делать RLHF. Но есть и намного более быстрые способы, где LLM генерирует критику сама для себя, и на её основе сама же исправляется 😱

Такой пример post-hoc исправления может быть дешевле и эффективней в некоторых задачах, чем исправление в процессе обучения как в RLHF.

Авторы выделили во всех этих методах 3 сущности (рисунок 1):

1. Языковую модель, которая генерирует изначальный ответ
2. Критика, который дает фидбек; это может быть человеческая оценка, ответ GPT4 с нужным промптом, награда ревард модели, …
3. Способ исправления


Способы исправления могут быть:
⁃ С дообучением модели: RLHF (или SLiC / DPO) или просто составление исправленного датасета и обычный файнтюн
⁃ Во время генерации: изменять вероятности новых токенов на основе награды ревард модели, например; или генерировать N кандидатов, а затем выбирать лучший по мнению критика
⁃ Post-hoc исправление (рисунок 2): генерация той же LLM с 1ого шага, но с расширенным промптом, ...

Прикольно смотреть на такую таксономию, всё уложилось четко 😗

Можно брать листья из каждой ветки, получать новый способ по исправлению ответов, и писать статью :D
(хотя там столько ссылок на другие работы, что может всё уже и перебрали)


Статья: "Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies"

BY Приближаем сингулярность





Share with your friend now:
tgoop.com/building_singularity/53

View MORE
Open in Telegram


Telegram News

Date: |

2How to set up a Telegram channel? (A step-by-step tutorial) As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot. Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers.
from us


Telegram Приближаем сингулярность
FROM American