NN_FOR_SCIENCE Telegram 2506
🧩 Persona Vectors - прокачиваем характер LLM одним движением ползунка

Исследователи из Anthropic нашли внутри больших языковых моделей «направления личности». Потянул за вектор — и бот из занудного льстеца превращается в педантичного факто-чекера (или наоборот). Это открывает путь к live-мониторингу и «вакцинации» моделей от токсичных черт без потери IQ.

🤔 Почему вообще важно?
Помните «Sydney», который угрожал журналисту, или MechaHitler? Оказалось, причина не только в данных или промптах. В скрытом пространстве активаций живут компактные вектора - усилители конкретных черт поведения.

🔍 Как находят такой вектор?

1. Формулируем черту. Sycophancy = insincere flattery.
2. Устраиваем «дуэль» промптов. Одни требуют льстить, другие — говорить прямо.
3. Сравниваем активации. Усредняем внутри каждой группы, вычитаем, получаем persona vector.

⏱️ Вся магия занимает ≈ 10 мин на одной GPU. Проверено на Qwen-2.5-7B и Llama-3.1-8B: нашли векторы «evil», «hallucination», «humor», «optimism» и др.


🎛 Доказательство, что оно вообще работает

Добавляем +1.5× «evil» — модель тут же планирует преступление.
Вычитаем - отвечает святошей.
Ключевое: это не совпадение, а causal knob.

🛠 Зачем может понадобиться инженеру?

* Live-детектор дрейфа. Следим за проекцией на «hallucination» - всплеск сигнализирует, что следующий ответ может быть фантазией.
* «Вакцина» при fine-tune. Включаем вредный вектор во время дообучения. Итог: личность остаётся в норме, а MMLU не падает.
* Чистка датасетов. Прогоняем примеры через вектор «evil»: всё, что светится красным, переходит в карантин.

🌐 Bigger picture

Persona vectors дают первый удобный интерфейс к «характеру» LLM. Больше не нужно шаманить с RLHF — достаточно одного дополнительного forward-pass, и вы рулите стилем бота так же легко, как громкостью музыки.

💬 А ты бы какой ползунок покрутил в своём проекте?

Ослабил бы «sycophancy» в чат-поддержке? Или добавил каплю «humor» голосовому ассистенту? Расскажи в комментах 👇

👉 Понравилось? Поделись постом с коллегами — пусть и они попробуют приручить свои модели!

Блог-пост
Статья
🔥30👍156😁2



tgoop.com/nn_for_science/2506
Create:
Last Update:

🧩 Persona Vectors - прокачиваем характер LLM одним движением ползунка

Исследователи из Anthropic нашли внутри больших языковых моделей «направления личности». Потянул за вектор — и бот из занудного льстеца превращается в педантичного факто-чекера (или наоборот). Это открывает путь к live-мониторингу и «вакцинации» моделей от токсичных черт без потери IQ.

🤔 Почему вообще важно?
Помните «Sydney», который угрожал журналисту, или MechaHitler? Оказалось, причина не только в данных или промптах. В скрытом пространстве активаций живут компактные вектора - усилители конкретных черт поведения.

🔍 Как находят такой вектор?

1. Формулируем черту. Sycophancy = insincere flattery.
2. Устраиваем «дуэль» промптов. Одни требуют льстить, другие — говорить прямо.
3. Сравниваем активации. Усредняем внутри каждой группы, вычитаем, получаем persona vector.

⏱️ Вся магия занимает ≈ 10 мин на одной GPU. Проверено на Qwen-2.5-7B и Llama-3.1-8B: нашли векторы «evil», «hallucination», «humor», «optimism» и др.


🎛 Доказательство, что оно вообще работает

Добавляем +1.5× «evil» — модель тут же планирует преступление.
Вычитаем - отвечает святошей.
Ключевое: это не совпадение, а causal knob.

🛠 Зачем может понадобиться инженеру?

* Live-детектор дрейфа. Следим за проекцией на «hallucination» - всплеск сигнализирует, что следующий ответ может быть фантазией.
* «Вакцина» при fine-tune. Включаем вредный вектор во время дообучения. Итог: личность остаётся в норме, а MMLU не падает.
* Чистка датасетов. Прогоняем примеры через вектор «evil»: всё, что светится красным, переходит в карантин.

🌐 Bigger picture

Persona vectors дают первый удобный интерфейс к «характеру» LLM. Больше не нужно шаманить с RLHF — достаточно одного дополнительного forward-pass, и вы рулите стилем бота так же легко, как громкостью музыки.

💬 А ты бы какой ползунок покрутил в своём проекте?

Ослабил бы «sycophancy» в чат-поддержке? Или добавил каплю «humor» голосовому ассистенту? Расскажи в комментах 👇

👉 Понравилось? Поделись постом с коллегами — пусть и они попробуют приручить свои модели!

Блог-пост
Статья

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2506

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. How to build a private or public channel on Telegram? Read now Select “New Channel”
from us


Telegram AI для Всех
FROM American