ABSTRACTDL Telegram 269
Quiet-STaR: думательные токены вместо Chain-of-Thought

Очень интересная идея, как обобщить CoT-промптинг, приближая его к подобию мыслительного процесса человека (говорить не всё, что думаешь).

Для этого авторы предложили позволить LLM иногда «думать», — старт и конец такой мысли определяются обучаемыми RL спецтокенами, а вот сама мысль чаще всего состоит из какой-то белиберды, уменьшающей перплексию дальнейшего текста.

В отличие от CoT, тут нет требования писать внятно, поэтому то, что генерится внутри мысли далеко не всегда получается интерпретировать. Тем не менее, это сильно бустит метрики и практически не замедляет инференс, т.к. генерация идёт параллельно.

Понятное дело, что это не работает без дообучения, но я попросил чатгпт притвориться, что она использует эти мыслительные токены, и спросил её помогло ли это ответить на мой вопрос. Она сказала что помогло 😁

Статья



tgoop.com/abstractDL/269
Create:
Last Update:

Quiet-STaR: думательные токены вместо Chain-of-Thought

Очень интересная идея, как обобщить CoT-промптинг, приближая его к подобию мыслительного процесса человека (говорить не всё, что думаешь).

Для этого авторы предложили позволить LLM иногда «думать», — старт и конец такой мысли определяются обучаемыми RL спецтокенами, а вот сама мысль чаще всего состоит из какой-то белиберды, уменьшающей перплексию дальнейшего текста.

В отличие от CoT, тут нет требования писать внятно, поэтому то, что генерится внутри мысли далеко не всегда получается интерпретировать. Тем не менее, это сильно бустит метрики и практически не замедляет инференс, т.к. генерация идёт параллельно.

Понятное дело, что это не работает без дообучения, но я попросил чатгпт притвориться, что она использует эти мыслительные токены, и спросил её помогло ли это ответить на мой вопрос. Она сказала что помогло 😁

Статья

BY AbstractDL




Share with your friend now:
tgoop.com/abstractDL/269

View MORE
Open in Telegram


Telegram News

Date: |

Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. 5Telegram Channel avatar size/dimensions In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. How to Create a Private or Public Channel on Telegram?
from us


Telegram AbstractDL
FROM American