tgoop.com/junkyardmathml/154
Last Update:
Год подходит к концу, и пришло время вспомнить наиболее важные и запоминающиеся исследования (согласно научным интересам админа), опубликованные в 2023.
Тема "LLM and foundation models":
Foundation model - конвенционального определения не существует, так что можно условно считать, что это овер-параметризированная модель, "хитрым" (как правило, не требуется меток) образом обученная на больших кастомных датасетах (сбор данных для них - отдельная наука) и способная выучивать информативные, богатые представления знаний, может быть применима для задач, под которые не была обучена. Примеры: BERT, CLIP, DALLe ,итд.
DINOv2: Learning Robust Visual Features without Supervision
Foundation model для CV. Развитие идеи DINOv1 - архитектуры на основе взаимодействия учитель-ученик, где ученик (архитектура ViT, но есть вариации с ResNet) пытается предсказать выходы модели-учителя (имитировать его работу), метки класса в такой постановке не требуются - объяснение от Yannic Kilcher. В новой версии модель обучалась на наборе данных LVD-142M и были добавлены новые фишки в процесс self-DIstillation, а также предложен более эффективный по памяти механизм самовнимания.
Интересный факт: матрицы внимания ViT, обученном методом DINOv1, демонстрируют семантическую сегментацию изображений (это наталкивает на мысль больше исследовать представления трансформеров на предмет - "что они еще выучивают"), однако в DINOv2 такого не наблюдается. Но фичи из DINOv2 все равно можно применять для сторонних задач: оценки глубины, сегментации, матчинг объектов на 2-х изображениях итд. Модели типа DINO уже зарекомендовали себя как сильный фичер-экстрактор (если вам нужны информативные эмбединги, смело берите ViT из DINO или CLIPа в качестве бэкбона)
Llemma: An Open Language Model For Mathematics
Большая языковая модель для решения математических задач. Наиболее интересная особенность в том, что модель обучена в том числе и на данных программ на языках для автоматических док-в теорем, также Llemma бьёт по бенчмаркам другие модели в математическом ризонинге, более подробно в этом посте.
ULTRA: Towards Foundation Models for Knowledge Graph Reasoning
ULTRA - Первая Foundation model для GraphML. Предлагается модель, позволяющая выучивать представления (юзают GNN) графов знаний (KG), которая может быть эффективно перенесена на новые KG датасеты. В задачах прогнозирования отношений и сущностей в zero-shot режиме уже работает лучше, чем существующая SOTA и может быть дотюнена на любые реляционные графы. Известно (см статью How Powerful are Graph Neural Networks?), что мы можем выучивать представления графов и обобщать их на тестовые данные из-за эквивариантности к перестановкам узлов (т.е. выучиваются структурные особенности графа), но можно пойти дальше и заставить модель быть эквивариантной к перестановкам типов отношений - двойная эквивариантность.
Модель ULTRA пытается это делать и выучивает "граф отношений" (ГО) - авторами утверждается, что это такой мощный инвариант структурных закономерностей данных. Ребра в графе отношений бывают 4 типов, в зависимости от того, какого типа сущности они соединяют (tail или head). ГО кодирует топологию в ориентированном графе и ГО можно легко построить по любому реляционному графу. В работе также продемонстрированы тенденции улучшать точность zero-shot при увеличении разнообразия графов в обучающем датасете.
BY Math and ML stuff
Share with your friend now:
tgoop.com/junkyardmathml/154