API DeepSeek-R1 наглухо упало (вместе с акциями Nvidia) из-за оверхайпа.
Ну и как делать хайп-науку с его бенчмаркингом то?? До ICML дедлайна 2 дня.
Ну и как делать хайп-науку с его бенчмаркингом то?? До ICML дедлайна 2 дня.
😁17🔥3🤯2
Forwarded from Junkyard
This media is not supported in your browser
VIEW IN TELEGRAM
Медиа-арт экспозиция "Робот-собака на цепи". Удалось пообщаться с ее автором Takayuki Todo, он объяснил свой посыл так: находясь рядом с робо-собакой мы ощущаем одновременно и тревогу, потому что собака ведёт себя агрессивно, но при этом чувствуем некоторую эмпатию и жалость из-за ее стонов и потому что понимаем свою безопасность. В целом его творчество про то, что нужно показывать роботов (понимаемых как современную итерацию древнегреческих скульптур) более эмпатично и витально. Его прошлая инсталляция - это лицо девочки-робота, которая бровями и фокусировкой глаз имитирует мимику лица человека напротив.
Я бы поставил эту собаку при входе на конференцию посвященную AI Safety. Вроде бы сейфти, но при этом LLM себя втайне пытаются копировать)
Я бы поставил эту собаку при входе на конференцию посвященную AI Safety. Вроде бы сейфти, но при этом LLM себя втайне пытаются копировать)
👍6🔥3👾2🥴1
Claude 3.7? Open AI? Редкоземельный литий? А может быть лучше..117 страничный обзор на приложения нейро-пучков? 🟣
В работе Sheaf theory: from deep geometry to deep learning представлен обзор на пучки (sheaf), начиная с описания математического аппарата, заканчивая приложениями в логике, лингвистике, дизайну алгоритмов, и в анализе данных, особенно для проектирования нейронных сетей.
Topology-fan or ML-enjoyer?
Мета-задача работы: Сделать математический аппарат теории пучков понятным для заинтересованных, но искушенных CS/AI исследователей🕸 , при этом показать алгебраическим геометрам/топологам 🤓 , что их конструкции практически применимы в сельском хозяйстве (stalks).
Что такое Пучки? В общем случае, это способ сопоставить геометрическому объекту G категорию V (конечных множеств, векторных пространств итд). На практике, это нужно для того, чтобы погрузить структуру G в более удобную среду, способную представлять и обрабатывать сигналы, используя всё "вычислительное богатство" категории V для описания G.
Утверждение: Пучки - способ алгебраизации геометрии.
Когда мы работаем с реальными данными, мы хотим найти наилучшую геометрическую структуру для их кодирования, чтобы запускать поверх этой структуры нейронки и извлекать эмбеддинги. Простые отношения кодируются графами, однако уже давно понятно, что для более сложных данных это слишком бедная структура, и нужно кодировать данные гиперграфами, клеточными, комбинаторными, симплициальными комплексами, итд. Этот нарратив лежит в основе Topological deep learning. Все перечисленные структуры эффективно кодируются наиболее общей - частично-упорядоченным множеством poset, далее просто S(G).
Абстрактное определение пучка D: Это функтор из категории S в целевую категорию V (для задач ML, векторных пространств). Для s_1 \in S, есть элемент D(s_1) \in V, называемый stalk (росток) и для s_1 < s_2 (где < отношение порядка) мы имеем отображения D(s_1)📝 D(s_2), называемые restriction map. Для формальной корректности этого определения нужно выполнение еще некоторых условий, подробнее в работе.
Частный случай: для графа G: пучок D(G) определяется как: векторные пространства над вершинами V_n, ребрами V_e, а также линейные отображения из вершин в ребра, обозначим как F_v,e отображение из вершины v в ребро e. Операторы F образуют Лапласиан пучка L (обобщение классического лапласиана для графа).
Определим глобальное сечение: для вершин v и w на концах ребра e, выбираем такие состояния x_v, x_w \in D(G) , что F_ve = F_we (local state), делаем такой выбор состояний для всех вершин. Множество этих состояний T кодирует глобальное "равновесное" состояние системы (global).
Утверждение: Пучки реализуют концептуальный фрейморк и философию "local-to-global'. Локальный консенсус приводит к глобальному равновесию.
Этот взгляд используется как дизайн-паттерн некоторых классических алгоритмов, например в работе A sheaf-theoretic approach to pattern matching and related problems классический алгоритм Кнута–Морриса–Пратта для строк переговаривается через этот фреймворк и сводит к задаче сабграф-матчинга.
Процесс поиска состояния равновесия T очень важен для приложений. Частный случай его поиска это диффузия пучка - динамическая система, градиентный спуск по функции энергии Дирихле, которая измеряет на сколько далеко текущее состояние системы от состояния равновесия, а скорость сходимости диффузии пучка определяется спектром его Лапласиана. И в целом характеристики Лапласиана могут много говорить про свойства геометрической структуры S. Важно подчеркнуть, что нарратив про диффузию это только частный случай, как можно работать с пучками, реально же пучки это намного больше, чем просто история про графы.
Далее, мы обсудим приложения пучков.
В работе Sheaf theory: from deep geometry to deep learning представлен обзор на пучки (sheaf), начиная с описания математического аппарата, заканчивая приложениями в логике, лингвистике, дизайну алгоритмов, и в анализе данных, особенно для проектирования нейронных сетей.
Topology-fan or ML-enjoyer?
Мета-задача работы: Сделать математический аппарат теории пучков понятным для заинтересованных, но искушенных CS/AI исследователей
Что такое Пучки? В общем случае, это способ сопоставить геометрическому объекту G категорию V (конечных множеств, векторных пространств итд). На практике, это нужно для того, чтобы погрузить структуру G в более удобную среду, способную представлять и обрабатывать сигналы, используя всё "вычислительное богатство" категории V для описания G.
Утверждение: Пучки - способ алгебраизации геометрии.
Когда мы работаем с реальными данными, мы хотим найти наилучшую геометрическую структуру для их кодирования, чтобы запускать поверх этой структуры нейронки и извлекать эмбеддинги. Простые отношения кодируются графами, однако уже давно понятно, что для более сложных данных это слишком бедная структура, и нужно кодировать данные гиперграфами, клеточными, комбинаторными, симплициальными комплексами, итд. Этот нарратив лежит в основе Topological deep learning. Все перечисленные структуры эффективно кодируются наиболее общей - частично-упорядоченным множеством poset, далее просто S(G).
Абстрактное определение пучка D: Это функтор из категории S в целевую категорию V (для задач ML, векторных пространств). Для s_1 \in S, есть элемент D(s_1) \in V, называемый stalk (росток) и для s_1 < s_2 (где < отношение порядка) мы имеем отображения D(s_1)
Частный случай: для графа G: пучок D(G) определяется как: векторные пространства над вершинами V_n, ребрами V_e, а также линейные отображения из вершин в ребра, обозначим как F_v,e отображение из вершины v в ребро e. Операторы F образуют Лапласиан пучка L (обобщение классического лапласиана для графа).
Определим глобальное сечение: для вершин v и w на концах ребра e, выбираем такие состояния x_v, x_w \in D(G) , что F_ve = F_we (local state), делаем такой выбор состояний для всех вершин. Множество этих состояний T кодирует глобальное "равновесное" состояние системы (global).
Утверждение: Пучки реализуют концептуальный фрейморк и философию "local-to-global'. Локальный консенсус приводит к глобальному равновесию.
Этот взгляд используется как дизайн-паттерн некоторых классических алгоритмов, например в работе A sheaf-theoretic approach to pattern matching and related problems классический алгоритм Кнута–Морриса–Пратта для строк переговаривается через этот фреймворк и сводит к задаче сабграф-матчинга.
Процесс поиска состояния равновесия T очень важен для приложений. Частный случай его поиска это диффузия пучка - динамическая система, градиентный спуск по функции энергии Дирихле, которая измеряет на сколько далеко текущее состояние системы от состояния равновесия, а скорость сходимости диффузии пучка определяется спектром его Лапласиана. И в целом характеристики Лапласиана могут много говорить про свойства геометрической структуры S. Важно подчеркнуть, что нарратив про диффузию это только частный случай, как можно работать с пучками, реально же пучки это намного больше, чем просто история про графы.
Далее, мы обсудим приложения пучков.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Sheaf theory: from deep geometry to deep learning
This paper provides an overview of the applications of sheaf theory in deep learning, data science, and computer science in general. The primary text of this work serves as a friendly introduction...
🔥12❤5✍2🤯2🎉2
Что может быть интереснее DeepSearch? Разумеется, приложения пучков в нейронках и теории оригами.
А действительно ли есть полезные применения пучков?
Зависит от того, что мы понимаем под полезными.
Обзор содержит широкое описание приложений в разных областях, в частности для интуиционистской логике, лямбда-исчисления, вычислительной линвистики, для теории ТДА итд. Но здесь я сфокусируюсь на примерах из ML/DS.
Одним из первых применять пучки к обработке данных предложил Роберт Грист (советую его топовое введение в прикладную топологию). В 2013 он применял пучки к задачам, связанным с потоками в сетях. Далее, Карри концептуально развил направление пучков и ко-пучков на клеточных комплексах, что легко в основу современных приложений.
Нейронные пучки. Архитектура графовой свёрточной сети (GCN) с индуктивным смещением на основе пучков - Sheaf Neural Networks впервые была предложена Гебхардом (соавтор обзора), однако он не "выучивает" пучок, т.е. не подбирает restriction map на основе цели обучения, а просто "вручную" инициализирует restriction map. Мне кажется, что отдельная важная тема исследований - поиск хорошего способа инициализации restriction map без обучения на основе знаний из предметной области.
🇹🇫 🔥 Направление дизайна пучковых DNN архитектур расширили Боднар и Бронштейн, предложив архитектуру Neural Sheaf Diffusion (NSD), где restriction map F (почти честно, но нет) выучиваются через диффузию. Они показали, что NSD с лапласианом пучка выразительнее GCN с обычным лапласином графа, NSD также решает важную (так принято считать в комьюнити, на самом деле, это дискуссионный вопрос, есть ли такая проблема, я к этому скептичен) проблему работы с гетерофильными графами. Это подробно изложено в must-read диссертации Боднара, советую его почитать, это пример по-настоящему крутой диссертации. В итоге, они открыли бездну в мир нейро-пучков и их модификаций, и тут понеслось...
Далее Барберо комбинирует способы получения пучка, сначала он строит отображения на основе данных детерминированным способом как Гебхард, а потом доучивает как Боднар, в итоге лучше перформанса в задаче классификации узлов.
В статье Sheaf Attention Network предложено добавлять в пучки на графах механизм внимания. В борьбе с овер-параметризацией в Bundle Neural Networks предлагается заменить пучок на векторные расслоения. Пучки также определяются и на гиперграфах - Sheaf Hypergraph Convolutional Network. Еще предложено улучшать NSD через интеграцию особых positional encoding для вершин графа.
В этом канале я накидал еще больше ссылок на DNN-архитектуры на основе пучков. Там я просто собираю полезные статьи без их разборов в режиме шитпостинга.
Среди теоретических приложений есть статья того самого Роберта Гриста про приложения пучков к теории оригами - Unified Origami Kinematics via Cosheaf Homology.
Приложения в народном хозяйстве. Есть и совсем конкретные приложения пучков для анализа корпусов документов, для графовых рекомендательных систем, к задаче community detection на основе топологии графа. В естественных науках предложено приложение пучков к описанию физических систем моделирующих динамику молекул. Нетрудно заметить, что логика пучков заточена под анализ локально-глобальных отношений, это мотивирует применять пучки к федеративному обучению, как сделано в FedSheafHN.
Гиперпараметром архитектуры NSD является размерность векторных пространств на стеблях (ширина стебля). Большая ширина стебля даёт более высокую выразительную силу модели, но увеличивает риск переобучения.
Открытая практическая проблема: недостача эмпирических исследований того, как должна масштабироваться ширина стебля при увеличении размера графа для получения приемлемого перформанса. И в целом, есть существенная недостача применений пучков для больших графов.
"А на сегодня всё, до новых встреч."
А действительно ли есть полезные применения пучков?
Обзор содержит широкое описание приложений в разных областях, в частности для интуиционистской логике, лямбда-исчисления, вычислительной линвистики, для теории ТДА итд. Но здесь я сфокусируюсь на примерах из ML/DS.
Одним из первых применять пучки к обработке данных предложил Роберт Грист (советую его топовое введение в прикладную топологию). В 2013 он применял пучки к задачам, связанным с потоками в сетях. Далее, Карри концептуально развил направление пучков и ко-пучков на клеточных комплексах, что легко в основу современных приложений.
Нейронные пучки. Архитектура графовой свёрточной сети (GCN) с индуктивным смещением на основе пучков - Sheaf Neural Networks впервые была предложена Гебхардом (соавтор обзора), однако он не "выучивает" пучок, т.е. не подбирает restriction map на основе цели обучения, а просто "вручную" инициализирует restriction map. Мне кажется, что отдельная важная тема исследований - поиск хорошего способа инициализации restriction map без обучения на основе знаний из предметной области.
Далее Барберо комбинирует способы получения пучка, сначала он строит отображения на основе данных детерминированным способом как Гебхард, а потом доучивает как Боднар, в итоге лучше перформанса в задаче классификации узлов.
В статье Sheaf Attention Network предложено добавлять в пучки на графах механизм внимания. В борьбе с овер-параметризацией в Bundle Neural Networks предлагается заменить пучок на векторные расслоения. Пучки также определяются и на гиперграфах - Sheaf Hypergraph Convolutional Network. Еще предложено улучшать NSD через интеграцию особых positional encoding для вершин графа.
В этом канале я накидал еще больше ссылок на DNN-архитектуры на основе пучков. Там я просто собираю полезные статьи без их разборов в режиме шитпостинга.
Среди теоретических приложений есть статья того самого Роберта Гриста про приложения пучков к теории оригами - Unified Origami Kinematics via Cosheaf Homology.
Приложения в народном хозяйстве. Есть и совсем конкретные приложения пучков для анализа корпусов документов, для графовых рекомендательных систем, к задаче community detection на основе топологии графа. В естественных науках предложено приложение пучков к описанию физических систем моделирующих динамику молекул. Нетрудно заметить, что логика пучков заточена под анализ локально-глобальных отношений, это мотивирует применять пучки к федеративному обучению, как сделано в FedSheafHN.
Гиперпараметром архитектуры NSD является размерность векторных пространств на стеблях (ширина стебля). Большая ширина стебля даёт более высокую выразительную силу модели, но увеличивает риск переобучения.
Открытая практическая проблема: недостача эмпирических исследований того, как должна масштабироваться ширина стебля при увеличении размера графа для получения приемлемого перформанса. И в целом, есть существенная недостача применений пучков для больших графов.
"А на сегодня всё, до новых встреч."
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤5🔥5
ChatGPT-4.5 - новая LLM для повседневных задач.
Она эмпатичнее, креативнее и меньше глючит. По небольшому опыту использования, ощущение, что формулирует предложения действительно более человечно. Также можно вгружать файлы и включать режим поиска в сети, что приятно. Open AI заявляют, что улучшили интеграцию chain-of-thought reasoning. Техрепорт с бенчмаркингом и описанием здесь.
Safety аспект, ChatGPT-4.5 показывает лучшую устойчивость к jailbreaks атакам - техники промпта, заставляющие ЛЛМ генерировать социально-опасные (based) ответы.
По способностям решать какие-то содержательные задачи сильно хуже O1, на ARC бенчмарке тоже просадка.
На ней нельзя запускать пучки, тоже неприятно.
Для Pro-подписчиков за 200 долларов ChatGPT-4.5 уже доступа, за несколько месяцев использования плана Pro единственное полезное - это ранний доступ к новым моделям и режимам🤫
Она эмпатичнее, креативнее и меньше глючит. По небольшому опыту использования, ощущение, что формулирует предложения действительно более человечно. Также можно вгружать файлы и включать режим поиска в сети, что приятно. Open AI заявляют, что улучшили интеграцию chain-of-thought reasoning. Техрепорт с бенчмаркингом и описанием здесь.
Safety аспект, ChatGPT-4.5 показывает лучшую устойчивость к jailbreaks атакам - техники промпта, заставляющие ЛЛМ генерировать социально-опасные (based) ответы.
По способностям решать какие-то содержательные задачи сильно хуже O1, на ARC бенчмарке тоже просадка.
На ней нельзя запускать пучки, тоже неприятно.
Для Pro-подписчиков за 200 долларов ChatGPT-4.5 уже доступа, за несколько месяцев использования плана Pro единственное полезное - это ранний доступ к новым моделям и режимам
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣6👍4🤷♀2🔥1
Вомбаты нуждаются. Первый и возможно единственный не-тематический пост.
Сегодня последний день, чтобы воспользоваться уникальным шансом и сделать то, что важно для каждого - помочь вомбатам и морским свинкам Австралии.
С каждой покупки в магазине On Ya: https://onyaapparel.shop/ часть средств перечисляется в организацию, занимающуюся реабилитацией диких животных (не только вомбаты, но и совы, кенгуру, коалы etc). Магазином владеет Josh Neille, который работает в охране природы и снимает про это блог.
нет, канал не взломали, просто админ, помимо топологии, LLM и конспирологии, еще любит и вомбатов.
Сегодня последний день, чтобы воспользоваться уникальным шансом и сделать то, что важно для каждого - помочь вомбатам и морским свинкам Австралии.
С каждой покупки в магазине On Ya: https://onyaapparel.shop/ часть средств перечисляется в организацию, занимающуюся реабилитацией диких животных (не только вомбаты, но и совы, кенгуру, коалы etc). Магазином владеет Josh Neille, который работает в охране природы и снимает про это блог.
❤7😁2🔥1🤔1
Навигация по пространству репозиториев из Hugging Face.
Хорошее и наглядное представление знаний это уже почти полностью сделанная работа по аналитике. И ощущение, что в DL не хватает мета-обзоров всей индустрии с поиском глобальных трендов, а также разработкой структуры и систематизации знаний о разных подходах и их вариациях.
В работе Charting and Navigating Hugging Face’s Model Atlas представляют атлас - визуализацию пространства моделей из 63к репозиториев в Hugging Face. Атлас строится как направленный ациклический граф, где вершины - модели. Цвет вершин определяется трансформацией, заданной ребрами. Трансформация - это техника получения из одной модели другую. Всего 4 типа трансформаций: fine-tuning; квантизация; merge - несколько родительских моделей комбинируются в новую через операции над весами; adapter - добавление обучаемого набора весов для адаптации модели под новые задачи (LoRA).
Атлас покрывает области NLP, CV и Audio. В каждой области несколько компонент связности, в центре которых исходные base-model, такие как Llama3, CLIP, ViT, SD-2 итд.
После анализа атласа прослеживаются следующие тенденции:
1. В NLP (особенно для LLM) наблюдается большая глубина (до 5-hop) и структурная сложность графа, тогда как в CV графы менее глубокие (1-2 вершины) и более гомогенные по типу вершин в кластере. То есть, в NLP исходные модели итеративно дорабатывают и модифицируют, всё дальше отходя от исходной модели, последовательно её улучшая, а в CV модифицируют сразу исходные модели.
2. Квантизация широко распространено среди LLM, но практически не используется для CV (менее 0,15%). Размеры даже крупных генеративных моделей для изображений, например Flux, по-прежнему сильно меньше даже средних LLM.
3. Фиксируется чёткое разделение между генеративными и дискриминативными CV моделями по техникам дообучения. Классификаторы чаще файнтюнят, а генеративные модели (SD, Flux) всё чаще используют адаптеры, типа LoRA.
4. В NLP merge моделей встречается в 35 раз чаще, чем в CV.
Авторы отдельно подчеркивают проблему недостатка мета-инфы (только в 15% есть инфа о точности) в репозиториях и предлагают способ восстановления инфы о точности модели на основе усредненной точности по всем репозиториям-соседям.
самому погулять по пространству моделей и позалипать можно с помощью их инструмента Model-Atlas
В общем, хочется больше красивых визуализаций и инсайдов о трендах и паттернах на большом масштабе для всего DL.
Хорошее и наглядное представление знаний это уже почти полностью сделанная работа по аналитике. И ощущение, что в DL не хватает мета-обзоров всей индустрии с поиском глобальных трендов, а также разработкой структуры и систематизации знаний о разных подходах и их вариациях.
В работе Charting and Navigating Hugging Face’s Model Atlas представляют атлас - визуализацию пространства моделей из 63к репозиториев в Hugging Face. Атлас строится как направленный ациклический граф, где вершины - модели. Цвет вершин определяется трансформацией, заданной ребрами. Трансформация - это техника получения из одной модели другую. Всего 4 типа трансформаций: fine-tuning; квантизация; merge - несколько родительских моделей комбинируются в новую через операции над весами; adapter - добавление обучаемого набора весов для адаптации модели под новые задачи (LoRA).
Атлас покрывает области NLP, CV и Audio. В каждой области несколько компонент связности, в центре которых исходные base-model, такие как Llama3, CLIP, ViT, SD-2 итд.
После анализа атласа прослеживаются следующие тенденции:
1. В NLP (особенно для LLM) наблюдается большая глубина (до 5-hop) и структурная сложность графа, тогда как в CV графы менее глубокие (1-2 вершины) и более гомогенные по типу вершин в кластере. То есть, в NLP исходные модели итеративно дорабатывают и модифицируют, всё дальше отходя от исходной модели, последовательно её улучшая, а в CV модифицируют сразу исходные модели.
2. Квантизация широко распространено среди LLM, но практически не используется для CV (менее 0,15%). Размеры даже крупных генеративных моделей для изображений, например Flux, по-прежнему сильно меньше даже средних LLM.
3. Фиксируется чёткое разделение между генеративными и дискриминативными CV моделями по техникам дообучения. Классификаторы чаще файнтюнят, а генеративные модели (SD, Flux) всё чаще используют адаптеры, типа LoRA.
4. В NLP merge моделей встречается в 35 раз чаще, чем в CV.
Авторы отдельно подчеркивают проблему недостатка мета-инфы (только в 15% есть инфа о точности) в репозиториях и предлагают способ восстановления инфы о точности модели на основе усредненной точности по всем репозиториям-соседям.
самому погулять по пространству моделей и позалипать можно с помощью их инструмента Model-Atlas
В общем, хочется больше красивых визуализаций и инсайдов о трендах и паттернах на большом масштабе для всего DL.
👍8🔥5❤2
LLM с диффузией. Почти прорыв.
В последнее время в топах среди тем на AI конференциях можно встретить LLM и диффузию. Нетрудно догадаться, что научный хайп-трейн наконец-то заставит разработать эффективный метод языкового моделирования с помощью диффузии. На самом деле, попытки уже ведутся давно, например в прошлом году появились MDLM и Score Entropy Discrete Diffusion.
Это вопрос может особо остро встать, когда обычные LLM зайдут в тупик и окончательно выйдут на плато. Может быть уже?
У авто-регрессионных (AR) моделей из-за последовательного (слева-направо) вывода есть ограничения: односторонний контекст и усложнен параллелизм. При этом диффузионные dLLM (двунаправленные) языковые модели могут генерировать токены параллельно, но они ограничены фиксированной длиной контекста и на практике все предложенные ранее dLLM показывали перформанс сильно хуже AR.
В работе "Block Discrete Denoising Diffusion Language Models (BD3-LMs)", ICLR 2025, предлагается гибридный подход, использующий лучшее из обеих парадигм вместе.
Принцип архитектуры блочной диффузии BD3-LMs.
Последовательность разбивается на блоки токенов, на уровне каждого блока реализуется диффузионный процесс через зашумление (маскирование ) части токенов и денойзинг (демаскирование через значение logitа). На уровне всей последовательности, сами блоки генерируются авто-регрессионно. В результате преодолеваются проблемы обеих парадигм, и интегрально оно должно работать лучше, в теории .
Эвристики при дизайне нейросеток. Когда разрабатываешь архитектуру, сталкиваешься с инженерными проблемами, которые затрудняют масштабирование и использование моделей в реальных сценариях. Мне иногда интересно проследить, какие трюки дизайнерской эквилибристики разрабатываются для их разрешения, для dLLM они следующие:
1.Выбор диапазона для уровня шума. Нетрудно заметить, что в предельном случае, когда размер блока = 1, dLLM подход эквивалентен просто AR-подходу, но на практике обнаруживается сильное различие в perplexity для BD3-LMS и AR-модели на одних и тех же данных. Это объясняется повышенной дисперсии градиентов, так происходит из-за того, что для диффузии вычисления градиентов идут только по зашумленным токенам, если установить уровень зашумления в максимум, perplexity выравниваются. Возникает проблема: поиск границ (clipped) для оптимального диапазона уровня зашумления, для этого предлагается data-driven noise schedules - поиск границ вероятности маскирования на основе данных, минимизирующий дисперсию градиентов по батчу данных.
2.KV-кэширование в трансформерах - это трюк для ускорения вычислений для однонаправленного внимания: чтобы не вычислять KV контекст на каждом шаге заново, мы кэшируем отвечающие за контекст Key и Value представления токенов с прошлых шагов и итеративно его пополняем, подобно тут. Проблема кэширования усугубляется для dLLM из-за двунаправленного контекста, т.е. KV должны пересчитываться заново на каждом шаге, что дезавуирует возможные бонусы от диффузии. Эта проблема преодолевается эвристикой через "холостой" прогон по всем токенам для вычисления и кэширования только KV значений и последующего их использования для демаскирования при диффузии.
Эксперименты на датасетах LM1B и OpenWebText показывает заметное превосходство BD3-LMs над всеми предыдущими dLLM (D3PM, S2DD, MDLM), но она все еще немного уступает AR LLM.
Революции и чуда не случилось, по-прежнему сидим с GPT. Но из примечательного, недавно появился dLLM Mercury Coder, который в 5-10 раз быстрее AR-LLM. А также Large Language Diffusion Models (LLaDa) бросает вызов тейку, что LLM хороши, потому что авто-регрессионны. В общем, работа ведется.
Здесь больше статей про LLM, особенно в странных сеттингах.
В последнее время в топах среди тем на AI конференциях можно встретить LLM и диффузию. Нетрудно догадаться, что научный хайп-трейн наконец-то заставит разработать эффективный метод языкового моделирования с помощью диффузии. На самом деле, попытки уже ведутся давно, например в прошлом году появились MDLM и Score Entropy Discrete Diffusion.
Это вопрос может особо остро встать, когда обычные LLM зайдут в тупик и окончательно выйдут на плато. Может быть уже?
У авто-регрессионных (AR) моделей из-за последовательного (слева-направо) вывода есть ограничения: односторонний контекст и усложнен параллелизм. При этом диффузионные dLLM (двунаправленные) языковые модели могут генерировать токены параллельно, но они ограничены фиксированной длиной контекста и на практике все предложенные ранее dLLM показывали перформанс сильно хуже AR.
В работе "Block Discrete Denoising Diffusion Language Models (BD3-LMs)", ICLR 2025, предлагается гибридный подход, использующий лучшее из обеих парадигм вместе.
Принцип архитектуры блочной диффузии BD3-LMs.
Последовательность разбивается на блоки токенов, на уровне каждого блока реализуется диффузионный процесс через зашумление (маскирование ) части токенов и денойзинг (демаскирование через значение logitа). На уровне всей последовательности, сами блоки генерируются авто-регрессионно. В результате преодолеваются проблемы обеих парадигм, и интегрально оно должно работать лучше
Эвристики при дизайне нейросеток. Когда разрабатываешь архитектуру, сталкиваешься с инженерными проблемами, которые затрудняют масштабирование и использование моделей в реальных сценариях. Мне иногда интересно проследить, какие трюки дизайнерской эквилибристики разрабатываются для их разрешения, для dLLM они следующие:
1.Выбор диапазона для уровня шума. Нетрудно заметить, что в предельном случае, когда размер блока = 1, dLLM подход эквивалентен просто AR-подходу, но на практике обнаруживается сильное различие в perplexity для BD3-LMS и AR-модели на одних и тех же данных. Это объясняется повышенной дисперсии градиентов, так происходит из-за того, что для диффузии вычисления градиентов идут только по зашумленным токенам, если установить уровень зашумления в максимум, perplexity выравниваются. Возникает проблема: поиск границ (clipped) для оптимального диапазона уровня зашумления, для этого предлагается data-driven noise schedules - поиск границ вероятности маскирования на основе данных, минимизирующий дисперсию градиентов по батчу данных.
2.KV-кэширование в трансформерах - это трюк для ускорения вычислений для однонаправленного внимания: чтобы не вычислять KV контекст на каждом шаге заново, мы кэшируем отвечающие за контекст Key и Value представления токенов с прошлых шагов и итеративно его пополняем, подобно тут. Проблема кэширования усугубляется для dLLM из-за двунаправленного контекста, т.е. KV должны пересчитываться заново на каждом шаге, что дезавуирует возможные бонусы от диффузии. Эта проблема преодолевается эвристикой через "холостой" прогон по всем токенам для вычисления и кэширования только KV значений и последующего их использования для демаскирования при диффузии.
Эксперименты на датасетах LM1B и OpenWebText показывает заметное превосходство BD3-LMs над всеми предыдущими dLLM (D3PM, S2DD, MDLM), но она все еще немного уступает AR LLM.
Революции и чуда не случилось, по-прежнему сидим с GPT. Но из примечательного, недавно появился dLLM Mercury Coder, который в 5-10 раз быстрее AR-LLM. А также Large Language Diffusion Models (LLaDa) бросает вызов тейку, что LLM хороши, потому что авто-регрессионны. В общем, работа ведется.
Здесь больше статей про LLM, особенно в странных сеттингах.
👍8🔥8🤔2
AI Scientist-v2. Автономный AI исследователь. Что внутри?
Вышла статья и репозиторий AI Scientist-v2 - системы для автоматизации научных исследований с полным циклом от генерации идей и реализации экспериментов до написания статьи.
Стартап Sakana AI (Токио), развивает автоматизацию науки. Прошлая итерация их системы AI Scientist-v1 делала ресерч и продуцировала науко-подобные статьи, но результаты были очень сырые и очевидно не достигали уровня для хоть какого-то адекватного внешнего рецензирования, а система частично зависела от человека. Текущая версия полностью автономна и способна генерировать работы хорошего уровня - недавно стало известно, что их ИИ-сгенерированная статья "Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization" принята (оценки от рецензентов: 6, 7, 6) на один из ICLR 2025 Воркшопов.
Тут уместно заметить, что это все еще далеко не уровень основного трека ICLR, но сейчас сами по себе воркшопы из A* конф могут быть сопоставимы по уровню с основными треками конф уровня B,а бывает, что статьи с воркшопов и сильно лучше работ из основного трека .
Основные улучшения и методология в AI Scientist-v2:
1. Генерация идей. Автоматически предлагаются разные идеи и гипотезы, и с помощью инструментов Semantic Scholar оценивается их разработанность и актуальность. В прошлой версии пайплайн стартовал с заранее заданного шаблона кода приблизительно определяющего идею и эксперименты, и затем итеративно улучшался. Теперь же система стартует с более абстрактного уровня концептуализации. На выходе этой стадии выдаётся мотивированная гипотеза.
2. Интеграция Vision-Language Model (VLM) для анализа качества графиков и фидбека по ним.
3. Агент-менеджер экспериментов - основная часть системы.
3.1 Менеджер экспериментов. Агент координирует последовательно выполняющиеся этапы:
1) Предварительное создание минимального работающего кода для проверки гипотезы.
2) Оптимизация гипер-параметров для экспов.
3) Проверка гипотезы - запуск итоговых экспериментов.
4) Абляционные исследования - оценка важности разных составляющих.
3.2. Древовидная структура для хождения агента по пространству реализаций. Здесь авторы вдохновляются методом AIDE. Каждый этап (1-4) исследования соответствует дереву. Например, этап 1:
Стартуем с корневого узла гипотезы и через LLM (Claude-3-5) генерируем параллельно несколько дочерних вершин дерева - вариаций Python кода экспериментов и скриптов визуализации. Затем код запускаем в интерпретаторе, по итогу его работы вершины помечаются как non-buggy (успешные) и buggy (ошибочные). Далее порождаем следующее поколение дочерних узлов - от buggy через исправление и от non-buggy через оптимизацию, (новые узлы также non-buggy/buggy) и так далее. Какие узлы достойны перейти в следующее поколение решает LLM. Одновременно могут выполняться несколько узлов (это делает систему параллельной). В конце этапа 1 выбирается наилучший листовой узел и переходит на этап 2 в качестве корневого. И по такой же логике выполняются остальные этапы.
Написание текста: по результатам экспов GPT-o1 пишет LaTeX-файл и GPT-4o над ним "рефлексирует", критикуя, а VLM проверяет графики. В итоге получается готовый текст.
Результаты. Авторами была задана тема воркшопа из его аннотации, получено 20 гипотез, вручную выбрано 3 и далее запущен полностью автоматический процесс генерации для 3х статей. По утверждению авторов, без малейших исправлений статьи напрямую отосланы на рецензирование. Помимо одной принятой, 2 другие получили оценки (3, 7, 4) и (3, 3, 3), т.е. ниже порога принятия, но все равно прилично. Принятая статья сразу же была отозвана — без эксплицитной дискуссии по этой теме публиковать такую работу было бы преждевременно.
Кажется, что пора разрабатывать научную инфраструктуру и делать специальные треки на конфах, где будут выставляться ИИ-сгенерированные статьи и проверятся ИИ-рецензентами. Правда есть ощущение, что в 2024-2025 гг негласно это уже и так происходит.
Здесь больше статей про LLM и геометрию.
Вышла статья и репозиторий AI Scientist-v2 - системы для автоматизации научных исследований с полным циклом от генерации идей и реализации экспериментов до написания статьи.
Стартап Sakana AI (Токио), развивает автоматизацию науки. Прошлая итерация их системы AI Scientist-v1 делала ресерч и продуцировала науко-подобные статьи, но результаты были очень сырые и очевидно не достигали уровня для хоть какого-то адекватного внешнего рецензирования, а система частично зависела от человека. Текущая версия полностью автономна и способна генерировать работы хорошего уровня - недавно стало известно, что их ИИ-сгенерированная статья "Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization" принята (оценки от рецензентов: 6, 7, 6) на один из ICLR 2025 Воркшопов.
Тут уместно заметить, что это все еще далеко не уровень основного трека ICLR, но сейчас сами по себе воркшопы из A* конф могут быть сопоставимы по уровню с основными треками конф уровня B,
Основные улучшения и методология в AI Scientist-v2:
1. Генерация идей. Автоматически предлагаются разные идеи и гипотезы, и с помощью инструментов Semantic Scholar оценивается их разработанность и актуальность. В прошлой версии пайплайн стартовал с заранее заданного шаблона кода приблизительно определяющего идею и эксперименты, и затем итеративно улучшался. Теперь же система стартует с более абстрактного уровня концептуализации. На выходе этой стадии выдаётся мотивированная гипотеза.
2. Интеграция Vision-Language Model (VLM) для анализа качества графиков и фидбека по ним.
3. Агент-менеджер экспериментов - основная часть системы.
3.1 Менеджер экспериментов. Агент координирует последовательно выполняющиеся этапы:
1) Предварительное создание минимального работающего кода для проверки гипотезы.
2) Оптимизация гипер-параметров для экспов.
3) Проверка гипотезы - запуск итоговых экспериментов.
4) Абляционные исследования - оценка важности разных составляющих.
3.2. Древовидная структура для хождения агента по пространству реализаций. Здесь авторы вдохновляются методом AIDE. Каждый этап (1-4) исследования соответствует дереву. Например, этап 1:
Стартуем с корневого узла гипотезы и через LLM (Claude-3-5) генерируем параллельно несколько дочерних вершин дерева - вариаций Python кода экспериментов и скриптов визуализации. Затем код запускаем в интерпретаторе, по итогу его работы вершины помечаются как non-buggy (успешные) и buggy (ошибочные). Далее порождаем следующее поколение дочерних узлов - от buggy через исправление и от non-buggy через оптимизацию, (новые узлы также non-buggy/buggy) и так далее. Какие узлы достойны перейти в следующее поколение решает LLM. Одновременно могут выполняться несколько узлов (это делает систему параллельной). В конце этапа 1 выбирается наилучший листовой узел и переходит на этап 2 в качестве корневого. И по такой же логике выполняются остальные этапы.
Написание текста: по результатам экспов GPT-o1 пишет LaTeX-файл и GPT-4o над ним "рефлексирует", критикуя, а VLM проверяет графики. В итоге получается готовый текст.
Результаты. Авторами была задана тема воркшопа из его аннотации, получено 20 гипотез, вручную выбрано 3 и далее запущен полностью автоматический процесс генерации для 3х статей. По утверждению авторов, без малейших исправлений статьи напрямую отосланы на рецензирование. Помимо одной принятой, 2 другие получили оценки (3, 7, 4) и (3, 3, 3), т.е. ниже порога принятия, но все равно прилично. Принятая статья сразу же была отозвана — без эксплицитной дискуссии по этой теме публиковать такую работу было бы преждевременно.
Кажется, что пора разрабатывать научную инфраструктуру и делать специальные треки на конфах, где будут выставляться ИИ-сгенерированные статьи и проверятся ИИ-рецензентами. Правда есть ощущение, что в 2024-2025 гг негласно это уже и так происходит.
Здесь больше статей про LLM и геометрию.
🔥5🤔5👍4
Forwarded from Зоопарк из слоновой кости
#пост_по_регламенту
Итак, закрываем долги. Ловите оставшиеся небольшие тематические папочки от нашего Зоопарка - небольшие, но интересные:
Математика
Физика
Технические науки
Если кто хочет добавиться, пишите в комменты до конца дня (после не имеет практического смысла)
Итак, закрываем долги. Ловите оставшиеся небольшие тематические папочки от нашего Зоопарка - небольшие, но интересные:
Математика
Физика
Технические науки
Если кто хочет добавиться, пишите в комменты до конца дня (после не имеет практического смысла)
Telegram
Math 03-25
Смотритель Зоопарка invites you to add the folder “Math 03-25”, which includes 11 chats.
👍4🫡2🔥1
Геометрия в LLM, решётки и иерархии.
На недавно прошедшей ICLR 2025 было много топовых статей про интерпретацию эмбеддингов нейросеток, в частности про исследование возникающих геометрических структур в представлениях, выучиваемых LLM.
Геометрия концепций в LLM. В работе The Geometry of Categorical and Hierarchical Concepts in LLMs рассматривается вопрос как иерархия категориальных понятий представляется внутри LLM. Авторы опираются на "гипотезу о линейных представлениях" (подробности в статье от этих же авторов), которая утверждает, что смысловые бинарные признаки (мужчина/женщина, правда/ложь..которые выражаются "контр-фактуальными" парами) соответствуют направлениям в пространстве эмбеддингов. Но это исследование идет дальше и расширяет интерпретацию до более сложных концепций: категориальных и не-контр-фактуальных binary contrasts (млекопитающее-птица).
Основные результаты: разрабатывается способ построения векторных представлений понятий (оперировать только направлениями уже недостаточно, необходимо вводить метризацию). Утверждается, что категориальные концепты (например, млекопитающее) могут быть описаны многогранниками🔷 , авторы называют их k-симплексами 💋 , с вершинами соответствующими элементам (слон, тигр, собака) этой категории. Доказывается, что вектора концепций в семантической иерархии живут в ортогональных подпространствах.
Собрав воедино нарратив выше, мы получаем следующую картину структуры представлений, выучиваемых LLM: вся иерархия в пространстве понятий раскладывается в прямую сумму многогранников, т.е. ортогональных подпространств, каждое из которых отвечает за свой уровень иерархии, например: (организмы) ⊕ (животные, растения) ⊕ (птицы, рептилии, рыбы) ⊕ (конкретные представители птиц).
Все эксперименты, валидирующие теоретические выкладки, проводились на датасете WordNet, на Gemma-2B и LLaMA-3-8B.
Формальные понятия и решётки в BERT. Есть такая область - анализ формальных понятий (FCA), довольно классическая тема в CS/AI, которая предлагает способ представления знаний через "формальные концепты" кодирующие отношения объект-атрибут. В FCA центральной конструкцией является решётка понятий - это отношение частичного порядка (поэтому и решётка) на множестве формальных концептов, представляется она как направленный-ациклический граф (конкретно Диаграмма Хасса). Интересно, что у FCA есть прямая и естественная связь с топологией, тут всем советую читать классиков: Topology of nerves and formal concepts.
В работе From Tokens to Lattices (ICLR 2025) показывается, что обученная MLM (маскирующая языковая модель, типа BERT) структурирует знания о мире и иерархию понятий в виде такой вот решётки. Для проверки этого утверждения в модель подаются структуры вида ([MASK_объект] является животным, которое имеет [MASK_атрибут]) и собирается статистика заполнения маскированных токенов. Затем из неё строятся вероятностные формальные концепты и восстанавливается общая структура решетки понятий. Интересно, что этот метод позволяет находить латентные концепты, которые не имеют явных человеческих названий, но которые модель выучила.
Есть ощущение, что само исследование притянуто за уши, но с другой стороны - а минусы будут?😎
Выразительная сила топологических нейросетей. Немного офф-топ. В работе Topological Blindspots (ICLR 2025) исследуются существующие топологические GNN, работающие через message-passing высшего порядка, и замечаются ограничения их выразительной силы: не могут ухватить инварианты планарности, ориентации, а также метрические свойства. Проблема решается введением нового класса более мощных, вдохновленных эквивариантными GNN, топологических нейросеток, называемых multi-cellular networks (MCN). Доказывается, что MCN могут различить любую пару неизоморфных комбинаторных комплексов, что делает их очень выразительными. Однако MCN плохо масштабируется, поэтому предлагается ориентированная на практику её версия - SMCN. Тестируется на специально созданных бенчмарках оценивающих способность улавливать топологические и геометрические свойства данных.
больше постов про LLM в разных сеттингах здесь
На недавно прошедшей ICLR 2025 было много топовых статей про интерпретацию эмбеддингов нейросеток, в частности про исследование возникающих геометрических структур в представлениях, выучиваемых LLM.
Геометрия концепций в LLM. В работе The Geometry of Categorical and Hierarchical Concepts in LLMs рассматривается вопрос как иерархия категориальных понятий представляется внутри LLM. Авторы опираются на "гипотезу о линейных представлениях" (подробности в статье от этих же авторов), которая утверждает, что смысловые бинарные признаки (мужчина/женщина, правда/ложь..которые выражаются "контр-фактуальными" парами) соответствуют направлениям в пространстве эмбеддингов. Но это исследование идет дальше и расширяет интерпретацию до более сложных концепций: категориальных и не-контр-фактуальных binary contrasts (млекопитающее-птица).
Основные результаты: разрабатывается способ построения векторных представлений понятий (оперировать только направлениями уже недостаточно, необходимо вводить метризацию). Утверждается, что категориальные концепты (например, млекопитающее) могут быть описаны многогранниками
Собрав воедино нарратив выше, мы получаем следующую картину структуры представлений, выучиваемых LLM: вся иерархия в пространстве понятий раскладывается в прямую сумму многогранников, т.е. ортогональных подпространств, каждое из которых отвечает за свой уровень иерархии, например: (организмы) ⊕ (животные, растения) ⊕ (птицы, рептилии, рыбы) ⊕ (конкретные представители птиц).
Все эксперименты, валидирующие теоретические выкладки, проводились на датасете WordNet, на Gemma-2B и LLaMA-3-8B.
Формальные понятия и решётки в BERT. Есть такая область - анализ формальных понятий (FCA), довольно классическая тема в CS/AI, которая предлагает способ представления знаний через "формальные концепты" кодирующие отношения объект-атрибут. В FCA центральной конструкцией является решётка понятий - это отношение частичного порядка (поэтому и решётка) на множестве формальных концептов, представляется она как направленный-ациклический граф (конкретно Диаграмма Хасса). Интересно, что у FCA есть прямая и естественная связь с топологией, тут всем советую читать классиков: Topology of nerves and formal concepts.
В работе From Tokens to Lattices (ICLR 2025) показывается, что обученная MLM (маскирующая языковая модель, типа BERT) структурирует знания о мире и иерархию понятий в виде такой вот решётки. Для проверки этого утверждения в модель подаются структуры вида ([MASK_объект] является животным, которое имеет [MASK_атрибут]) и собирается статистика заполнения маскированных токенов. Затем из неё строятся вероятностные формальные концепты и восстанавливается общая структура решетки понятий. Интересно, что этот метод позволяет находить латентные концепты, которые не имеют явных человеческих названий, но которые модель выучила.
Есть ощущение, что само исследование притянуто за уши, но с другой стороны - а минусы будут?
Выразительная сила топологических нейросетей. Немного офф-топ. В работе Topological Blindspots (ICLR 2025) исследуются существующие топологические GNN, работающие через message-passing высшего порядка, и замечаются ограничения их выразительной силы: не могут ухватить инварианты планарности, ориентации, а также метрические свойства. Проблема решается введением нового класса более мощных, вдохновленных эквивариантными GNN, топологических нейросеток, называемых multi-cellular networks (MCN). Доказывается, что MCN могут различить любую пару неизоморфных комбинаторных комплексов, что делает их очень выразительными. Однако MCN плохо масштабируется, поэтому предлагается ориентированная на практику её версия - SMCN. Тестируется на специально созданных бенчмарках оценивающих способность улавливать топологические и геометрические свойства данных.
больше постов про LLM в разных сеттингах здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥5🤩3❤1🤔1