Warning: file_put_contents(aCache/aDaily/post/machinelearning_books/-1105-1106-1107-1108-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Машиннное обучение | Наука о данных Библиотека@machinelearning_books P.1105
MACHINELEARNING_BOOKS Telegram 1105
🧠 *Learning without training* — как Google предлагает переосмыслить обучение моделей без градиентов

Разбираем свежую и очень необычную статью от Google.

Мы знаем: если добавить в prompt несколько примеров — модель начинает лучше справляться с задачей, даже без дообучения. Это называется *in-context learning (ICL)*.
Но вот вопрос: *почему это работает?* До сих пор точного ответа не было.

📌 В новой работе авторы предлагают нестандартную гипотезу:
*веса модели всё-таки меняются — но не так, как мы привыкли*.
Не через обучение и обратное распространение ошибки, а прямо внутри трансформера — за счёт механики self-attention и MLP.

🔍 Суть:

1️⃣ Примеры в промпте изменяют активации.
Self-attention пересчитывает эмбеддинги так, что они теперь зависят от контекста. Это известный «контекстный сдвиг».

2️⃣ Дальше — самое интересное:
MLP превращает этот сдвиг в *ранг‑1 обновление весов* первого слоя.
То есть влияние prompt-а эквивалентно тому, как если бы к весам W прибавили простую корректировку.

💡 Главное:
Если вручную внести эту ранк‑1 правку в веса — модель *без* промпта будет давать те же ответы, что и модель *с* промптом.
И всё это — во время инференса, без обучения, без градиентов, без изменения параметров модели.

🔑 Это открывает путь к «обучению без обучения» — где веса можно изменять на лету, прямо во время работы. И, возможно, строить совсем новые архитектуры ИИ.

📖 Полная статья тут

@machinelearning_books
👍76🔥4🤔1👀1



tgoop.com/machinelearning_books/1105
Create:
Last Update:

🧠 *Learning without training* — как Google предлагает переосмыслить обучение моделей без градиентов

Разбираем свежую и очень необычную статью от Google.

Мы знаем: если добавить в prompt несколько примеров — модель начинает лучше справляться с задачей, даже без дообучения. Это называется *in-context learning (ICL)*.
Но вот вопрос: *почему это работает?* До сих пор точного ответа не было.

📌 В новой работе авторы предлагают нестандартную гипотезу:
*веса модели всё-таки меняются — но не так, как мы привыкли*.
Не через обучение и обратное распространение ошибки, а прямо внутри трансформера — за счёт механики self-attention и MLP.

🔍 Суть:

1️⃣ Примеры в промпте изменяют активации.
Self-attention пересчитывает эмбеддинги так, что они теперь зависят от контекста. Это известный «контекстный сдвиг».

2️⃣ Дальше — самое интересное:
MLP превращает этот сдвиг в *ранг‑1 обновление весов* первого слоя.
То есть влияние prompt-а эквивалентно тому, как если бы к весам W прибавили простую корректировку.

💡 Главное:
Если вручную внести эту ранк‑1 правку в веса — модель *без* промпта будет давать те же ответы, что и модель *с* промптом.
И всё это — во время инференса, без обучения, без градиентов, без изменения параметров модели.

🔑 Это открывает путь к «обучению без обучения» — где веса можно изменять на лету, прямо во время работы. И, возможно, строить совсем новые архитектуры ИИ.

📖 Полная статья тут

@machinelearning_books

BY Машиннное обучение | Наука о данных Библиотека







Share with your friend now:
tgoop.com/machinelearning_books/1105

View MORE
Open in Telegram


Telegram News

Date: |

For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. ZDNET RECOMMENDS Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. “[The defendant] could not shift his criminal liability,” Hui said.
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American