MACHINELEARNINDIGEST Telegram 1389
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ BERT is just a Single Text Diffusion Step

Любопытны пост, где автор объяснил очень простую, но мощную идею.

Он заметил, что то, что мы называем диффузией для текста, на самом деле - это просто обобщённая версия классического обучения BERT.

Как работает
BERT?
В BERT модель берёт текст и маскирует часть слов, а потом учится угадывать, какие слова были скрыты.
В диффузии происходит почти то же самое, только шагов больше: на каждом шаге модель немного «портит» текст (добавляет шум), а затем восстанавливает его, всё меньше и меньше теряя смысл, пока не соберёт финальный чистый текст.

То есть BERT делает один шаг очистки - угадывает замаскированные слова.

А диффузионная модель делает много таких шагов подряд, постепенно превращая случайный набор токенов в осмысленный текст.

Барри дообучил RoBERTa, чтобы показать это на практике - и получил настоящий текстовый диффузионный генератор.

В примере:
- Используется RoBER (улучшенная версия модели BERT,) и датасет WikiText.
- На каждом шаге часть токенов заменяется на <MASK>,
модель восстанавливает их, потом снова маскирует — и так несколько раз.
- После нескольких итераций модель способна генерировать связный текст,
даже без автогенеративного декодера (как у GPT).

📈 Результаты
- Модель генерирует осмысленный текст, хотя и не идеально связный.
- Качество улучшалось по мере добавления шагов диффузии.
- По времени генерации RoBERTa Diffusion была немного медленнее, чем GPT-2 (~13 сек против 9 сек), но архитектура осталась полностью encoder-only.

Автор упоминает, что позже наткнулся на работу DiffusionBERT, где идею реализовали глубже и подтвердили результатами.

Главная мысль:
BERT можно считать одноступенчатой версией текстовой диффузии.
Если добавить больше шагов, то vs получаем диффузионный генератор текста.

Если BERT - это один шаг диффузии, то будущее может принадлежать моделям, совмещающим "понимание" и "генерацию" текста в одном процессе.

https://nathan.rs/posts/roberta-diffusion/

@ai_machinelearning_big_data


#AI #Diffusion #RoBERTa #BERT #LanguageModel #MLM #Research
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/machinelearnindigest/1389
Create:
Last Update:

⚡️ BERT is just a Single Text Diffusion Step

Любопытны пост, где автор объяснил очень простую, но мощную идею.

Он заметил, что то, что мы называем диффузией для текста, на самом деле - это просто обобщённая версия классического обучения BERT.

Как работает
BERT?
В BERT модель берёт текст и маскирует часть слов, а потом учится угадывать, какие слова были скрыты.
В диффузии происходит почти то же самое, только шагов больше: на каждом шаге модель немного «портит» текст (добавляет шум), а затем восстанавливает его, всё меньше и меньше теряя смысл, пока не соберёт финальный чистый текст.

То есть BERT делает один шаг очистки - угадывает замаскированные слова.

А диффузионная модель делает много таких шагов подряд, постепенно превращая случайный набор токенов в осмысленный текст.

Барри дообучил RoBERTa, чтобы показать это на практике - и получил настоящий текстовый диффузионный генератор.

В примере:
- Используется RoBER (улучшенная версия модели BERT,) и датасет WikiText.
- На каждом шаге часть токенов заменяется на <MASK>,
модель восстанавливает их, потом снова маскирует — и так несколько раз.
- После нескольких итераций модель способна генерировать связный текст,
даже без автогенеративного декодера (как у GPT).

📈 Результаты
- Модель генерирует осмысленный текст, хотя и не идеально связный.
- Качество улучшалось по мере добавления шагов диффузии.
- По времени генерации RoBERTa Diffusion была немного медленнее, чем GPT-2 (~13 сек против 9 сек), но архитектура осталась полностью encoder-only.

Автор упоминает, что позже наткнулся на работу DiffusionBERT, где идею реализовали глубже и подтвердили результатами.

Главная мысль:
BERT можно считать одноступенчатой версией текстовой диффузии.
Если добавить больше шагов, то vs получаем диффузионный генератор текста.

Если BERT - это один шаг диффузии, то будущее может принадлежать моделям, совмещающим "понимание" и "генерацию" текста в одном процессе.

https://nathan.rs/posts/roberta-diffusion/

@ai_machinelearning_big_data


#AI #Diffusion #RoBERTa #BERT #LanguageModel #MLM #Research

BY Машинное обучение digest


Share with your friend now:
tgoop.com/machinelearnindigest/1389

View MORE
Open in Telegram


Telegram News

Date: |

Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Informative Today, we will address Telegram channels and how to use them for maximum benefit. best-secure-messaging-apps-shutterstock-1892950018.jpg
from us


Telegram Машинное обучение digest
FROM American