tgoop.com/seeallochnaya/682
Last Update:
Representation Engineering: A Top-Down Approach to AI Transparency
Собрались как-то более 20 исследователей со всех уголков LLM-мира, от Berkeley до Center for AI Safety, и решили написать статью с описанием новой области: инженерии представлений (representation engineering, RepE). Это не первая работа в подобном ключе, но авторы именно что проводят описательную работу, а также устанавливают несколько бейзлайнов.
Итак, о чём речь? В нейросетях есть "скрытые представления" (hidden states), но на самом деле они не скрытые — мы все их можем пощупать, поменять, посмотреть (если есть доступ к весам модели). Но это не то же самое, что параметры — это "активации", то есть "реакция" сети на какой-то вход (в случае LLM - текст). Берем веса модели, подаём текст на вход, и считываем скрытые представления. В отличие от человеческого мозга, мы можем это делать перед каждой итерацией, для любого текста, и для всей нейросети одновременно.
Проводя аналогию с мозгом, авторы отмечают, что можно сделать аналог когнитивной науки, где мы анализируем эти активации. В теории, как было показано в разных исследованиях, они несут определенный смысл. Есть нейроны, отвечающие за всё, что связано с Канадой, есть нейроны, которые характеризуют честность, и так далее.
Идея: давайте придумаем, как влиять на активации нейронов так, чтобы "сдвигать" модель в желаемом направлении. Например, можно выявить направление "честности" (оно будет задано вектором), и по идее если модель подвинуть в ту сторону — то в среднем она должна меньше врать. Именно это происходило в предыдущей работе: Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. И вы не поверите, работало!
В текущей же работе производится анализ ещё нескольких направлений, в том числе морали, эмоциональности, безобидности, запоминания. В качестве решения предлагается обучать LoRRA (Low-Rank Representation Adaptation) с помощью маленькой размеченной выборки (порядка 100 примеров), где для каждого примера указано, что он, например, лживый (хотя есть альтернатива с помощью промпта).
Результат — LLAMA-2-70B обходит GPT-4 на бенчмарке TruthfulQA почти на ДЕСЯТЬ ПРОЦЕНТОВ (59% и +-69%). А ещё приложили много примеров с изменением характера ответов модели в том или ином направлении — приложу в следующем сообщении.
В общем, альтернативный способ Alignment, и в то же время интерпретации модели и её контроля. Очень перспективное направление, ждём развития.
Сайт с примерами: https://www.ai-transparency.org/
BY Сиолошная
❌Photos not found?❌Click here to update cache.
Share with your friend now:
tgoop.com/seeallochnaya/682