NN_FOR_SCIENCE Telegram 2450
🧠🔍 Anthropic выложили в открытый доступ «рентген» для LLM

Сегодня ребята из Anthropic выложили в open-source свежайший circuit-tracer — библиотеку + веб-интерфейс, которые позволяют буквально «посветить фонариком» внутрь любых открытых LLM и посмотреть, как токены влияют друг на друга.

Что дают?

Attribution graphs — автоматически строят граф «кто-на-кого влияет» (токены → фичи → логиты).
Neuronpedia UI — кликаешь 👉 смотришь цепочки рассуждений, группируешь узлы, подписываешь и делишься ссылкой.
Интервенции — в ноутбуке можно подкрутить найденные фичи и сразу увидеть, как меняется ответ модели.

Зачем это нам?
🔑 Интерпретируемость давно отставала от «качаем ещё 10B параметров». Теперь любой энтузиаст может проверить, какие цепочки выводят модель к финальному слову, найти баги рассуждений и даже чинить их on-the-fly.

Пробуйте, делитесь самыми странными цепочки — интересно, какие «мысленные кроличьи норы» вы откопаете! 🐇👆

Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4732🔥6😐1



tgoop.com/nn_for_science/2450
Create:
Last Update:

🧠🔍 Anthropic выложили в открытый доступ «рентген» для LLM

Сегодня ребята из Anthropic выложили в open-source свежайший circuit-tracer — библиотеку + веб-интерфейс, которые позволяют буквально «посветить фонариком» внутрь любых открытых LLM и посмотреть, как токены влияют друг на друга.

Что дают?

Attribution graphs — автоматически строят граф «кто-на-кого влияет» (токены → фичи → логиты).
Neuronpedia UI — кликаешь 👉 смотришь цепочки рассуждений, группируешь узлы, подписываешь и делишься ссылкой.
Интервенции — в ноутбуке можно подкрутить найденные фичи и сразу увидеть, как меняется ответ модели.

Зачем это нам?
🔑 Интерпретируемость давно отставала от «качаем ещё 10B параметров». Теперь любой энтузиаст может проверить, какие цепочки выводят модель к финальному слову, найти баги рассуждений и даже чинить их on-the-fly.

Пробуйте, делитесь самыми странными цепочки — интересно, какие «мысленные кроличьи норы» вы откопаете! 🐇👆

Ссылка

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2450

View MORE
Open in Telegram


Telegram News

Date: |

The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. ZDNET RECOMMENDS How to Create a Private or Public Channel on Telegram? The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins.
from us


Telegram AI для Всех
FROM American