NEURAL_CAT Telegram 12
Казалось бы, какие еще способы декодирования для языковых моделей можно придумать, кроме greedy, top-k, top-p, beam search?

В статье Typical Decoding for Natural Language Generation (также разбор от Yannic) предлагается посмотреть на задачу с точки зрения теории информации. Мы (люди) стараемся передавать друг другу информацию эффективно, но также стараемся избежать риск недопонимания.

По сути, две стороны медали: я могу говорить (писать), максимизируя вероятность следующего слова (токена) или вероятность всего предложения, но тогда в моем сообщении будет мало информации (так как всё, что я говорю, вы и так ожидаете). Но для вас ведь интереснее (=больше информации) читать то, что вы не ожидаете, верно? Например, ожидали ли вы услышать словосочетание БАХЧЕВЫЕ КУЛЬТУРЫ? 🍉

Так вот, а почему тогда мы в декодировании всегда ориентируемся на максимизацию вероятностей (даже когда сэмплируем, ведь более вероятным токенам мы ставим бОльший вес)? В статье предлагается выбирать токены, информационный контент которых близок к ожидаемому инфомрационному контенту (прочитайте статью, там просто).

Что-то подобное заметили в статье про Nucleus sampling. Люди не максимизируют вероятности! (см. скрин)

P.S.
Новый метод уже доступен в transformersmodel.generate(..., typical_p=0.95)
👍3



tgoop.com/neural_cat/12
Create:
Last Update:

Казалось бы, какие еще способы декодирования для языковых моделей можно придумать, кроме greedy, top-k, top-p, beam search?

В статье Typical Decoding for Natural Language Generation (также разбор от Yannic) предлагается посмотреть на задачу с точки зрения теории информации. Мы (люди) стараемся передавать друг другу информацию эффективно, но также стараемся избежать риск недопонимания.

По сути, две стороны медали: я могу говорить (писать), максимизируя вероятность следующего слова (токена) или вероятность всего предложения, но тогда в моем сообщении будет мало информации (так как всё, что я говорю, вы и так ожидаете). Но для вас ведь интереснее (=больше информации) читать то, что вы не ожидаете, верно? Например, ожидали ли вы услышать словосочетание БАХЧЕВЫЕ КУЛЬТУРЫ? 🍉

Так вот, а почему тогда мы в декодировании всегда ориентируемся на максимизацию вероятностей (даже когда сэмплируем, ведь более вероятным токенам мы ставим бОльший вес)? В статье предлагается выбирать токены, информационный контент которых близок к ожидаемому инфомрационному контенту (прочитайте статью, там просто).

Что-то подобное заметили в статье про Nucleus sampling. Люди не максимизируют вероятности! (см. скрин)

P.S.
Новый метод уже доступен в transformersmodel.generate(..., typical_p=0.95)

BY Нейронный Кот


Share with your friend now:
tgoop.com/neural_cat/12

View MORE
Open in Telegram


Telegram News

Date: |

Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. Hashtags
from us


Telegram Нейронный Кот
FROM American