Notice: file_put_contents(): Write of 56 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 12288 of 12344 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
Сиолошная@seeallochnaya P.682
SEEALLOCHNAYA Telegram 682
Representation Engineering: A Top-Down Approach to AI Transparency

Собрались как-то более 20 исследователей со всех уголков LLM-мира, от Berkeley до Center for AI Safety, и решили написать статью с описанием новой области: инженерии представлений (representation engineering, RepE). Это не первая работа в подобном ключе, но авторы именно что проводят описательную работу, а также устанавливают несколько бейзлайнов.

Итак, о чём речь? В нейросетях есть "скрытые представления" (hidden states), но на самом деле они не скрытые — мы все их можем пощупать, поменять, посмотреть (если есть доступ к весам модели). Но это не то же самое, что параметры — это "активации", то есть "реакция" сети на какой-то вход (в случае LLM - текст). Берем веса модели, подаём текст на вход, и считываем скрытые представления. В отличие от человеческого мозга, мы можем это делать перед каждой итерацией, для любого текста, и для всей нейросети одновременно.

Проводя аналогию с мозгом, авторы отмечают, что можно сделать аналог когнитивной науки, где мы анализируем эти активации. В теории, как было показано в разных исследованиях, они несут определенный смысл. Есть нейроны, отвечающие за всё, что связано с Канадой, есть нейроны, которые характеризуют честность, и так далее.

Идея: давайте придумаем, как влиять на активации нейронов так, чтобы "сдвигать" модель в желаемом направлении. Например, можно выявить направление "честности" (оно будет задано вектором), и по идее если модель подвинуть в ту сторону — то в среднем она должна меньше врать. Именно это происходило в предыдущей работе: Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. И вы не поверите, работало!

В текущей же работе производится анализ ещё нескольких направлений, в том числе морали, эмоциональности, безобидности, запоминания. В качестве решения предлагается обучать LoRRA (Low-Rank Representation Adaptation) с помощью маленькой размеченной выборки (порядка 100 примеров), где для каждого примера указано, что он, например, лживый (хотя есть альтернатива с помощью промпта).

Результат — LLAMA-2-70B обходит GPT-4 на бенчмарке TruthfulQA почти на ДЕСЯТЬ ПРОЦЕНТОВ (59% и +-69%). А ещё приложили много примеров с изменением характера ответов модели в том или ином направлении — приложу в следующем сообщении.

В общем, альтернативный способ Alignment, и в то же время интерпретации модели и её контроля. Очень перспективное направление, ждём развития.

Сайт с примерами: https://www.ai-transparency.org/



tgoop.com/seeallochnaya/682
Create:
Last Update:

Representation Engineering: A Top-Down Approach to AI Transparency

Собрались как-то более 20 исследователей со всех уголков LLM-мира, от Berkeley до Center for AI Safety, и решили написать статью с описанием новой области: инженерии представлений (representation engineering, RepE). Это не первая работа в подобном ключе, но авторы именно что проводят описательную работу, а также устанавливают несколько бейзлайнов.

Итак, о чём речь? В нейросетях есть "скрытые представления" (hidden states), но на самом деле они не скрытые — мы все их можем пощупать, поменять, посмотреть (если есть доступ к весам модели). Но это не то же самое, что параметры — это "активации", то есть "реакция" сети на какой-то вход (в случае LLM - текст). Берем веса модели, подаём текст на вход, и считываем скрытые представления. В отличие от человеческого мозга, мы можем это делать перед каждой итерацией, для любого текста, и для всей нейросети одновременно.

Проводя аналогию с мозгом, авторы отмечают, что можно сделать аналог когнитивной науки, где мы анализируем эти активации. В теории, как было показано в разных исследованиях, они несут определенный смысл. Есть нейроны, отвечающие за всё, что связано с Канадой, есть нейроны, которые характеризуют честность, и так далее.

Идея: давайте придумаем, как влиять на активации нейронов так, чтобы "сдвигать" модель в желаемом направлении. Например, можно выявить направление "честности" (оно будет задано вектором), и по идее если модель подвинуть в ту сторону — то в среднем она должна меньше врать. Именно это происходило в предыдущей работе: Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. И вы не поверите, работало!

В текущей же работе производится анализ ещё нескольких направлений, в том числе морали, эмоциональности, безобидности, запоминания. В качестве решения предлагается обучать LoRRA (Low-Rank Representation Adaptation) с помощью маленькой размеченной выборки (порядка 100 примеров), где для каждого примера указано, что он, например, лживый (хотя есть альтернатива с помощью промпта).

Результат — LLAMA-2-70B обходит GPT-4 на бенчмарке TruthfulQA почти на ДЕСЯТЬ ПРОЦЕНТОВ (59% и +-69%). А ещё приложили много примеров с изменением характера ответов модели в том или ином направлении — приложу в следующем сообщении.

В общем, альтернативный способ Alignment, и в то же время интерпретации модели и её контроля. Очень перспективное направление, ждём развития.

Сайт с примерами: https://www.ai-transparency.org/

BY Сиолошная



❌Photos not found?❌Click here to update cache.


Share with your friend now:
tgoop.com/seeallochnaya/682

View MORE
Open in Telegram


Telegram News

Date: |

Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. The Channel name and bio must be no more than 255 characters long Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Content is editable within two days of publishing As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces.
from us


Telegram Сиолошная
FROM American