я обучала одну модель@def_model

я обучала одну модель

The Platonic Representation Hypothesis https://arxiv.org/abs/2405.07987 Знал ли Платон, что однажды его процитируют в ML-папире? 🤔 Маловероятно, но гипотеза авторов статьи как будто имеет довольно очевидные корни: они утверждают, что нейросети с разными…

Статья The Platonic Representation Hypothesis – одна из самых запомнившися мне за прошлый год. Если коротко, ее суть была в том, что разные модели, в том числе модели разных модальностей, сходятся к +- похожим латентным представлениям реальности, при чем эти представления отражают то, насколько близкими те или иные концепты являются в рамках человеческого восприятия. И вот наконец вышла пачка статей, которые подтверждают и развивают эту гипотезу дальше:

1. Harnessing the Universal Geometry of Embeddings: эмбеддинги разных моделей с разными архитектурами и разными тренировочными датасетами настолько похожи, что существует функция, которая позволяет перевести их в "универсальное" латентное пространство. При чем, это универсальное пространство сохрянет геометрические отношения между исходными эмбеддингами. И благодаря этому мы можем "переводить" один эмбеддинг в другой без особой потери информации (мне понравилось, как в комментариях к статье ее назвали Rosetta stone for embeddings)

Это не очень хорошо для безопасности векторных баз данных – например, если внутри лежит какой-то неизвестный вам эмбеддинг, а у вас есть свой эмбеддер, то вы можете перевести эмбеддинг в известное вам пространство и потом просто декодировать содержащуюся там информацию

2. Words That Make Language Models Perceive: если попросить языковыую модель "увидеть" описание картинки ("Imagine what it would look like to see {image caption}.") или "услышать" его ("Imagine what it would sound like to hear {caption}."), то ее эмбеддинги станут ближе к визуальному и аудио энкодеру соотвественно

3. Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models: допустим, мы хотим обучиться на модальности X и у нас есть для этого датасет. И еще есть вообще никак не связанный с ним датасет модальности Y – то есть какая-то рандомная пара (x, y) не будет скорее всего никак логически объединена. И тем не менее, если просто сконкатенировать оба датасета X и Y и обучиться на этом, то способности модели на X будут лучше, чем если бы тренировались только на одной этой модальности.

Тут авторы немного ссылаются на тейк Ильи Суцкевера о том, что в модель нужно забрасывать данные, и она в идеале сама должна разобраться, что из них связано между собой, и как-то эксплуатировать эти связи в обучении. В статье с помощью нескольких теорем они это постулируют так: до тех пор, пока информация из Y не вырожденная (то есть не просто повторяет все то, что мы уже выучили из X), она позволяет нам уменьшить неопределенность и сократить доверительный интервал при оценке параметров модели. Плюс, информация из Y может помочь закрыть какие-то слепые пятна, то есть помочь в тех случаях, когда в X вообще не нашлось примеров какого-то концепта

Для экспериментов авторы тренировали модель, где шерились веса между всеми модальностями, но на входе были замороженные энкодеры (и, опционально, декодеры на выходе). В итоге гипотезы статьи подтвердились и в сетапе с тремя модальностями, где учились сразу на тексте, картинках и аудио. Еще из прикольных аблейшенов:

- Если и картинки и текст предоставляют какую-то информацию из общего семантического пространства, то how many words is an image worth? Для CLIP'а они находят, что 1 картинка = 228 словам в плане улучшения аккураси модели

- Авторы находят внутри сетки мультимодальные нейроны, которые отвечают на один и тот же концепт во всех модальностях, даже с учетом того, что в датасете не было параллельных примеров (где например текст четко бы соотвествовал какой-то картинке или аудио дорожке)

❤25👍18🔥8🤯7

www.tgoop.com/def_model_train/1074

3.78K viewsedited Oct 12 at 17:30

tgoop.com/def_model_train/1074

Create: 2025-10-12
Last Update: 2025-12-05 20:12:32

BY я обучала одну модель

Share with your friend now:
tgoop.com/def_model_train/1074

Telegram News

Статья The Platonic Representation Hypothesis – одна из самых запомнившися мне за прошлый год. Если коротко