Моя первая ироничная реакция:
ой, ну, кто мог подумать?
Но надо отдать должное: у меня нет уверенности, что речь идёт о "фотокопиях" в этом конкретном случае.
Просто наличие таких фотокопий -- это естественный результат в моем видении формы обозримой вселенной.
ой, ну, кто мог подумать?
Но надо отдать должное: у меня нет уверенности, что речь идёт о "фотокопиях" в этом конкретном случае.
Просто наличие таких фотокопий -- это естественный результат в моем видении формы обозримой вселенной.
предсказание следующей буквы в тексте стало ключевым в целеполагании для громадного успеха LLM.
вангую, что установка на предсказание следующих текстов в хронологически отсортированных текстах станет не меньшим потрясением.
отношение порядка для букв играет ключевую роль для развития нарратива текста. Но для понимания и предсказания того, куда мы идем в историческом масштабе важно сортировать не только буквы.
текст — это одномерная структура, а множество текстов, пусть даже отсортированных во времени — все же нет. Отчасти и поэтому, уверен, что в этом контексте опять будут востребованы идеи, которые использовали в Stable Diffusion моделях.
Каждый текст — это как цветной многомерный пиксель в историческом кино. Мы знаем приблизительно на каком кадре этого кино этот текстовый пиксель появился. А еще, в отличие от обычного кино, "цветовое" (векторное) значение этих текстовых пикселей не любит исчезать со временем.
Историческое кино как бы все время растет в своей размерности, ибо старые кадры проглядываются сквозь свежие.
вангую, что установка на предсказание следующих текстов в хронологически отсортированных текстах станет не меньшим потрясением.
отношение порядка для букв играет ключевую роль для развития нарратива текста. Но для понимания и предсказания того, куда мы идем в историческом масштабе важно сортировать не только буквы.
текст — это одномерная структура, а множество текстов, пусть даже отсортированных во времени — все же нет. Отчасти и поэтому, уверен, что в этом контексте опять будут востребованы идеи, которые использовали в Stable Diffusion моделях.
Каждый текст — это как цветной многомерный пиксель в историческом кино. Мы знаем приблизительно на каком кадре этого кино этот текстовый пиксель появился. А еще, в отличие от обычного кино, "цветовое" (векторное) значение этих текстовых пикселей не любит исчезать со временем.
Историческое кино как бы все время растет в своей размерности, ибо старые кадры проглядываются сквозь свежие.
Вы наверное знаете про межпланетную транспортную сеть?
Она красива и фундаментальна. Но не об этом пост.
Эта сеть является одним из великого множества примеров, где метрики (т.е. функции расстояния, коммутативные относительно своих двух аргументов) -- это неподходящий, неуклюжий инструмент.
Лететь по траектории от планеты А к планете Б -- это вовсе не одно и то же, что лететь по этой же траектории в противоположном направлении от Б к А.
Метрики работают лишь в очень простых постановках, в линеаризируемых масштабах.
Она красива и фундаментальна. Но не об этом пост.
Эта сеть является одним из великого множества примеров, где метрики (т.е. функции расстояния, коммутативные относительно своих двух аргументов) -- это неподходящий, неуклюжий инструмент.
Лететь по траектории от планеты А к планете Б -- это вовсе не одно и то же, что лететь по этой же траектории в противоположном направлении от Б к А.
Метрики работают лишь в очень простых постановках, в линеаризируемых масштабах.
Wikipedia
Межпланетная транспортная сеть
Межпланетная транспортная сеть (англ. interplanetary transport network, ITN, Межпланетный Суперхайвей) — система гравитационно определённых сложных орбит в Солнечной системе, которые требуют небольшого количества топлива. ITN использует точки Лагранжа в…
1/2:
если вы математик, то вам очевидно, что огрублённо вся линейка — это гастроли великолепного трио:
⨁ многомерность
обе группы чаще всего сливаются дуэтом либо в поле ℝ, либо в ℂ, а солирующий фронтмен — аддитивная группа.
но вы вряд ли задумывались, что фронтмена этого великолепного трио, т.е. аддитивную группу, можно без проблем выкинуть с гастрольного тура.
Да-да. Если вы разъезжаете по полям ℝ и ℂ, то можно обойтись без сложения. Всё, что вам нужно — это заменить сложение при помощи двух сезонных музыкантов
𝑎+𝑏 =
и тут вы как математик удивитесь, ведь раз линейка так мощна и фундаментальна, то этот её "доппельгангер" без сложения такой же мощный, но про него почему-то вообще ничего не слышно.
Забавно да?
если вы математик, то вам очевидно, что огрублённо вся линейка — это гастроли великолепного трио:
+
аддитивная группа*
мультипликативная группа⨁ многомерность
обе группы чаще всего сливаются дуэтом либо в поле ℝ, либо в ℂ, а солирующий фронтмен — аддитивная группа.
но вы вряд ли задумывались, что фронтмена этого великолепного трио, т.е. аддитивную группу, можно без проблем выкинуть с гастрольного тура.
Да-да. Если вы разъезжаете по полям ℝ и ℂ, то можно обойтись без сложения. Всё, что вам нужно — это заменить сложение при помощи двух сезонных музыкантов
log
и exp
, ведь:𝑎+𝑏 =
log
(exp
(𝑎+𝑏)) = log
(exp
(𝑎)*exp
(𝑏))и тут вы как математик удивитесь, ведь раз линейка так мощна и фундаментальна, то этот её "доппельгангер" без сложения такой же мощный, но про него почему-то вообще ничего не слышно.
Забавно да?
о фундаментальном
1/2: если вы математик, то вам очевидно, что огрублённо вся линейка — это гастроли великолепного трио: + аддитивная группа * мультипликативная группа ⨁ многомерность обе группы чаще всего сливаются дуэтом либо в поле ℝ, либо в ℂ, а солирующий фронтмен…
2/2:
если вы ML-инженер, то, прочитав предыдущий пост, вы наверное подумали: "ну и чё?"
А то:
из нейронных сеточек можнобез проблем выкинуть операцию сложения, если в вашем нейро-конструкторе валяются
Да, на практике при сегодняшних вычислительных архитектурах у вас возникнут проблемы с вычислительной точностью и возникнут эти проблемы очень быстро, но зацените как прикольно:
нейронные сеточки без сложения 🤓
что любопытно, аналогичный отстрел умножения не пройдет так же весело, даже если в ℂ.
если вы ML-инженер, то, прочитав предыдущий пост, вы наверное подумали: "ну и чё?"
А то:
из нейронных сеточек можно
log
и exp
.Да, на практике при сегодняшних вычислительных архитектурах у вас возникнут проблемы с вычислительной точностью и возникнут эти проблемы очень быстро, но зацените как прикольно:
нейронные сеточки без сложения 🤓
что любопытно, аналогичный отстрел умножения не пройдет так же весело, даже если в ℂ.
1/2:
комрад 𝜋 вот этим комментом спровоцировал меня посмотреть на обычный нейрон с оченьнеприличного любопытного ракурса.
Давайте возьмём в руки обычный канонический нейрон, у которого функцией активации служит обычная сигмоида в виде логистической функции.
Давйте спросим себя:
а можем ли мы обойтись без логистической функции?
можем ли обойтись без экспоненты?
а можем ли мы вообще обойтись без функции активации?
и вы знаете, оказывается можем! Просто вместо нашего обычного нейрона нам теперь понадобятся две вещи:
1. сеточка бесконечной глубины (или ширины!), которая будет реализовывать ряд тейлора для убитой нами функции активации.
2. а чтобы наша сеточка не была тривиальной линейщиной, сводимой к примитивной линейной операции, мы сделаем маленькое (и вполне легитимное?) позволение: мы разрешим в качестве весов нейронов использовать не только дурацкие константы, а также и выходы других нейронов. Благодаря этому у нас появляются полиномы!
и всё. Больше ничего не надо!
Нам не нужна функция активации, если у нас есть возможность умножать сигнал сам на себя и право на сети бесконечной глубины и/или ширины!
комрад 𝜋 вот этим комментом спровоцировал меня посмотреть на обычный нейрон с очень
Давайте возьмём в руки обычный канонический нейрон, у которого функцией активации служит обычная сигмоида в виде логистической функции.
Давйте спросим себя:
а можем ли мы обойтись без логистической функции?
можем ли обойтись без экспоненты?
а можем ли мы вообще обойтись без функции активации?
и вы знаете, оказывается можем! Просто вместо нашего обычного нейрона нам теперь понадобятся две вещи:
1. сеточка бесконечной глубины (или ширины!), которая будет реализовывать ряд тейлора для убитой нами функции активации.
2. а чтобы наша сеточка не была тривиальной линейщиной, сводимой к примитивной линейной операции, мы сделаем маленькое (и вполне легитимное?) позволение: мы разрешим в качестве весов нейронов использовать не только дурацкие константы, а также и выходы других нейронов. Благодаря этому у нас появляются полиномы!
и всё. Больше ничего не надо!
Нам не нужна функция активации, если у нас есть возможность умножать сигнал сам на себя и право на сети бесконечной глубины и/или ширины!
2/2: какая гипотеза естественно просится из предыдущего поста?
в нынешнем упрощенном мире веса нейронов — это просто настраиваемые в процессе обучения константы. Это довольно жёсткое ограничение. Но это ограничение похоже скрашивается нелинейной функцией активации.
Похоже, что нелинейные функция активации как бы дают нам возможность заглянуть в асимптотику бесконечно больших сетей без функции активации, но более гибкими динамическими весами.
Или?
в нынешнем упрощенном мире веса нейронов — это просто настраиваемые в процессе обучения константы. Это довольно жёсткое ограничение. Но это ограничение похоже скрашивается нелинейной функцией активации.
Похоже, что нелинейные функция активации как бы дают нам возможность заглянуть в асимптотику бесконечно больших сетей без функции активации, но более гибкими динамическими весами.
Или?
Сейчас и дистилляция, и прунинг в тренде машинного обучения.
Забавно, что и то, и другое входит в базовые рычаги высокоуровневой белковой эволюции:
Прунинг -- это выбрасывание половины генетического материала во время мейоза. То есть выбрасывание половины генетического материала при передачеследующему поколению наследнику. Нормально работает только при половом размножении.
Дистилляция -- педагогика, образование, поведенческий и культурный импринтинг, в том числе обучение особи языку
И тут ещё Стефен Вольфрам решил поиграться с упрощением сетей и стал в этом контексте рассуждать про эволюцию -- 50 раз упомянул и почти столько же раз упомянул mutation. Впрочем, ни разу не упомянул ни gene, ни crossover, ни meiosis. Но работа тоже сильно попахивает прунингом.
Забавно, что и то, и другое входит в базовые рычаги высокоуровневой белковой эволюции:
Прунинг -- это выбрасывание половины генетического материала во время мейоза. То есть выбрасывание половины генетического материала при передаче
Дистилляция -- педагогика, образование, поведенческий и культурный импринтинг, в том числе обучение особи языку
И тут ещё Стефен Вольфрам решил поиграться с упрощением сетей и стал в этом контексте рассуждать про эволюцию -- 50 раз упомянул и почти столько же раз упомянул mutation. Впрочем, ни разу не упомянул ни gene, ни crossover, ни meiosis. Но работа тоже сильно попахивает прунингом.
Stephenwolfram
What’s Really Going On in Machine Learning? Some Minimal Models
Stephen Wolfram explores minimal models and their visualizations, aiming to explain the underneath functionality of neural nets and ultimately machine learning.
Мы хотим пользоваться лучшими ИИ.
Это задаёт эволюцию в ИИ.
Лучшие модели выживают, худшие уходят в небытие.
Однако мы, люди — это очень медленный фидбек этого эволюционного RL-цикла в ИИ.
Не нужно быть семи пядей во лбу, чтобы понять, что человек вскоре будет выкинут из эволюционного цикла ИИ — чтобы модели стали круче, чтобы крутые модели появлялись раньше, чтобы специализированных моделей стало не просто больше, а чтобы их стало во намного раз больше, чем людей.
в один день мы осозна́ем, что ИИ-агенты уже эволюционируют без нас, что там уже своя атмосфера развития, и эта атмосфера понятна нам лишь кое-где — так же, как нам понятен машинный код откомпилированной программы — лишь чуть-чуть, лишь кое-где.
Эволюция ИИ еще толком не началась, но старт очень близок
Это задаёт эволюцию в ИИ.
Лучшие модели выживают, худшие уходят в небытие.
Однако мы, люди — это очень медленный фидбек этого эволюционного RL-цикла в ИИ.
Не нужно быть семи пядей во лбу, чтобы понять, что человек вскоре будет выкинут из эволюционного цикла ИИ — чтобы модели стали круче, чтобы крутые модели появлялись раньше, чтобы специализированных моделей стало не просто больше, а чтобы их стало во намного раз больше, чем людей.
в один день мы осозна́ем, что ИИ-агенты уже эволюционируют без нас, что там уже своя атмосфера развития, и эта атмосфера понятна нам лишь кое-где — так же, как нам понятен машинный код откомпилированной программы — лишь чуть-чуть, лишь кое-где.
Эволюция ИИ еще толком не началась, но старт очень близок
У меня вполне внушительный опыт в программировании -- 35 лет. Писал на многих языках, и ещё на многих читал.
Вчера был второй день моей жизни, когда я весь день программировал на человеческих языках.
Боюсь, пришла эра, когда т.н. высокоуровневые языки программирования начнут уходить "под капот". Может не в той же мере, в какой ушёл под капот ассемблер, но изменение будет колоссальным, тектоническим.
Не удивлюсь, если в резюме программисты станут не стесняясь писать "язык программирования -- английский, другими не владею"
Нынешние языки программирования останутся, но станут более нишевыми профессиональными скилами, какими нынче являются знания библиотек, фреймворков и платформ.
Эра силиконовых языков капсулизируется. Гусеницы силиконовых языков превращаются в куколки.
Какие бабочки ожидаются?
Вчера был второй день моей жизни, когда я весь день программировал на человеческих языках.
Боюсь, пришла эра, когда т.н. высокоуровневые языки программирования начнут уходить "под капот". Может не в той же мере, в какой ушёл под капот ассемблер, но изменение будет колоссальным, тектоническим.
Не удивлюсь, если в резюме программисты станут не стесняясь писать "язык программирования -- английский, другими не владею"
Нынешние языки программирования останутся, но станут более нишевыми профессиональными скилами, какими нынче являются знания библиотек, фреймворков и платформ.
Эра силиконовых языков капсулизируется. Гусеницы силиконовых языков превращаются в куколки.
Какие бабочки ожидаются?
Cursor AI любите? я тоже, как новую домашнюю зверушку. Но, боюсь, она может нехило подрасти...
Думаю, что фундаментальный курс всех этих Copilot, CursorAI, etc будет корректирован. Они уйдут от интерактивного кодинга в сторону one-shot материализации ваших хотелок (приложение, сервис, документация, статья, etc).
Вот, держите пример, как материализация будет делаться в один выстрел по вашему техническому заданию. Стреляет правда пока не идеально, осечки нередки, но уже вполне сносно постреливает!
Кст, в этом примере жирная пасхалка 🤓
Думаю, что фундаментальный курс всех этих Copilot, CursorAI, etc будет корректирован. Они уйдут от интерактивного кодинга в сторону one-shot материализации ваших хотелок (приложение, сервис, документация, статья, etc).
Вот, держите пример, как материализация будет делаться в один выстрел по вашему техническому заданию. Стреляет правда пока не идеально, осечки нередки, но уже вполне сносно постреливает!
Кст, в этом примере жирная пасхалка 🤓
Cursor Community Forum
Bootstrap.md or create your target in one shot!
All use Cursor AI as an interactive coding tool. Cool. But not fully. LLMs evolve, so there will be less and less intermediate interactions. You already could use Cursor AI as a “higher level non-interactive compiler materializer” working in one shot. …
вдруг осознал, что reinforcement learning — это ближайший родственник разностных уравнений.
(кстати разностные уравнения — ближайшие родственники дифференциальных уравнений)
RL policies — это всё, что у нас обычно в диффурах стоит в правой части.
а если вы говорите про higher order RL-policies (Meta RL, HRL, Multi-Level Policies, L2L, RL-policies of RL-policies), то всё это как бы — про системы дифференциальных уравнений высшего порядка.
Хотелось написать "Вот и всё." в конце.
Нет, конечно. Не всё.
Одно из главных отличий между RL и системой диффуров — RL сразу бросают в холодные пучины недифференцируемых поверхностей.
RL — это скорее про системы стохастических дифференциальнных уравнений
P.S. я выше писал, что человеческие эмоции — это просто RL-policies у нас, у кожаных мешков. Ну, вот, получилось, что эмоции — это просто производные разных порядков в системе кожаных стохастических дифференциальных уравнений.
(кстати разностные уравнения — ближайшие родственники дифференциальных уравнений)
RL policies — это всё, что у нас обычно в диффурах стоит в правой части.
а если вы говорите про higher order RL-policies (Meta RL, HRL, Multi-Level Policies, L2L, RL-policies of RL-policies), то всё это как бы — про системы дифференциальных уравнений высшего порядка.
Хотелось написать "Вот и всё." в конце.
Нет, конечно. Не всё.
Одно из главных отличий между RL и системой диффуров — RL сразу бросают в холодные пучины недифференцируемых поверхностей.
RL — это скорее про системы стохастических дифференциальнных уравнений
P.S. я выше писал, что человеческие эмоции — это просто RL-policies у нас, у кожаных мешков. Ну, вот, получилось, что эмоции — это просто производные разных порядков в системе кожаных стохастических дифференциальных уравнений.
я придерживаюсь собственной очень простой (хотя и крейзи) интерпретации того, что происходит с фотонами возле краев стенок в эксперименте с (двойной) щелью:
Когда фотон подходит достаточно близко к лептону или кварку, траектория фотона искривляется.
Более того, траектория фотона изгибается аналогично тому, как пространство-время искривляется вблизи сферы Шварцшильда черной дыры. Фотон путешествует некоторое время по сфере Шварцшильда. После неполного обращения по сфере или после многократного "кругосветного путешествия" вокруг сферы Шварцшильда фотон наконец покидает её.
По сути, я склоняюсь к тому, что:
Частицы, обладающие массой, создают гравитационное линзирование, подобно черным дырам.
Вот вам вариант с кликбейтным заголовком:
Все частицы с массой — это маленькие черные дыры.
Эти маленькие чёрные дыры рутинно создают гравитационное линзирование на микроуровне. Именно это "микро-лизирование" мы интерпретируем как отражение, рассеяние, поглощение или преломление света -- в зависимости от конфигурации этих малюсеньких гравитационных линз, то есть в зависимости от типа вещества, с которым взаимодействует свет.
Когда фотон подходит достаточно близко к лептону или кварку, траектория фотона искривляется.
Более того, траектория фотона изгибается аналогично тому, как пространство-время искривляется вблизи сферы Шварцшильда черной дыры. Фотон путешествует некоторое время по сфере Шварцшильда. После неполного обращения по сфере или после многократного "кругосветного путешествия" вокруг сферы Шварцшильда фотон наконец покидает её.
По сути, я склоняюсь к тому, что:
Частицы, обладающие массой, создают гравитационное линзирование, подобно черным дырам.
Вот вам вариант с кликбейтным заголовком:
Все частицы с массой — это маленькие черные дыры.
Эти маленькие чёрные дыры рутинно создают гравитационное линзирование на микроуровне. Именно это "микро-лизирование" мы интерпретируем как отражение, рассеяние, поглощение или преломление света -- в зависимости от конфигурации этих малюсеньких гравитационных линз, то есть в зависимости от типа вещества, с которым взаимодействует свет.
YouTube
DIFFRACTION OF LIGHT WAVES THROUGH AN APERTURE
Download SCIENCETUTS App to Access 120+ hours of Free content.
For more information:
http://www.7activestudio.com
[email protected]
http://www.7activemedical.com/
[email protected]
http://www.sciencetuts.com/
…
For more information:
http://www.7activestudio.com
[email protected]
http://www.7activemedical.com/
[email protected]
http://www.sciencetuts.com/
…
Спасибо @che_shr_cat за обзор отличной статьи.
Печально, что мы все еще рассматриваем softmax просто как «удобный инструмент для нормализации».
Softmax имеет гораздо более глубокое значение. Это обобщение логистической функции.
Когда мы используем softmax, мы невольно оказываемся среди этих фундаментальных концепций:
1. Мы рассматриваем данные как происходящие из мультиномиального распределения.
2. Мы ваяем и шлифуем нейронную сеть так, чтобы во время обучения она действовала как система дифференциальных уравнений, более конкретно как система уравнений в репликаторной динамике (см. replicator equation), а также как:
3. ... как модель распределения Гиббса-Больцмана из статистической физики (где температура так естественна, правда?)
И, наконец, печально, что мы все еще связываем себя по ногам, когда залипаем в уже ставшем привычным «обучить, а затем предоставить модель только для инференса». Мы все еще далеки от open-endedness. Залипая на этом подходе мы деплоим в продакшен "сети-старички", которые не хотят и не умеют уже обучаться
Печально, что мы все еще рассматриваем softmax просто как «удобный инструмент для нормализации».
Softmax имеет гораздо более глубокое значение. Это обобщение логистической функции.
Когда мы используем softmax, мы невольно оказываемся среди этих фундаментальных концепций:
1. Мы рассматриваем данные как происходящие из мультиномиального распределения.
2. Мы ваяем и шлифуем нейронную сеть так, чтобы во время обучения она действовала как система дифференциальных уравнений, более конкретно как система уравнений в репликаторной динамике (см. replicator equation), а также как:
3. ... как модель распределения Гиббса-Больцмана из статистической физики (где температура так естественна, правда?)
И, наконец, печально, что мы все еще связываем себя по ногам, когда залипаем в уже ставшем привычным «обучить, а затем предоставить модель только для инференса». Мы все еще далеки от open-endedness. Залипая на этом подходе мы деплоим в продакшен "сети-старички", которые не хотят и не умеют уже обучаться
Gonzo ML
Make softmax great again
softmax is not enough (for sharp out-of-distribution)
о фундаментальном
Спасибо @che_shr_cat за обзор отличной статьи. Печально, что мы все еще рассматриваем softmax просто как «удобный инструмент для нормализации». Softmax имеет гораздо более глубокое значение. Это обобщение логистической функции. Когда мы используем softmax…
ну, и чтобы два раза не вставать, вот вкратце и следующие эпатажные естественные утверждения:
1. в отличие от фазы обучения, инференс во всяких GPT- образных архитектурах уже не пахнет диффурами. Всё уже надёжно укатано в асфальт прямого распространения по сеточке.
2. в рекурентных сеточках (типа mamba-архитектуры) даже в момент инференса мы без проблем можем видеть работу диффуров.
(краткое объяснение с которым я в сути согласен).
3. в GPT-архитектуре нет "дифференциальной" жизни после обучения. Она убита при деплое для инференса. Но её туда можно вернуть. Первое, что нужно — это легализовать изменение весов в рамках инференса в ходе обратного (рекурентного) распространения.
4. да, как сказано выше в п.2, в рекуррентных сеточках "дифференциальная жизнь" есть даже в фазе инференса, но (так же, как и в п3 случае выше) нет обучения весов при рекуррентном ходе.
5. autoGrad и символьное дифференцирование — не такой уж уникальный ингредиент успешного обучения нейронных сеточек. Всё великолепно обошлось бы и без этих двух крепких парней. Вы ведь любите softmax? Ну, так что ж вы не берёте даром брошенное приданное? Там же производная считается на раз плюнуть:
make damn sigmoid great again! 🤓
ну или сразу сделайте уж softmax great наконец, он этого достоин!
1. в отличие от фазы обучения, инференс во всяких GPT- образных архитектурах уже не пахнет диффурами. Всё уже надёжно укатано в асфальт прямого распространения по сеточке.
2. в рекурентных сеточках (типа mamba-архитектуры) даже в момент инференса мы без проблем можем видеть работу диффуров.
(краткое объяснение с которым я в сути согласен).
3. в GPT-архитектуре нет "дифференциальной" жизни после обучения. Она убита при деплое для инференса. Но её туда можно вернуть. Первое, что нужно — это легализовать изменение весов в рамках инференса в ходе обратного (рекурентного) распространения.
4. да, как сказано выше в п.2, в рекуррентных сеточках "дифференциальная жизнь" есть даже в фазе инференса, но (так же, как и в п3 случае выше) нет обучения весов при рекуррентном ходе.
5. autoGrad и символьное дифференцирование — не такой уж уникальный ингредиент успешного обучения нейронных сеточек. Всё великолепно обошлось бы и без этих двух крепких парней. Вы ведь любите softmax? Ну, так что ж вы не берёте даром брошенное приданное? Там же производная считается на раз плюнуть:
f'(x) = f(x)(1-f(x))
make damn sigmoid great again! 🤓
ну или сразу сделайте уж softmax great наконец, он этого достоин!
ChatGPT
ChatGPT - GPT Архитектура и обучение
Shared via ChatGPT
Вам иногда кажется, что всё самое важное уже сделано в математике?
Ха-ха. Мы всё ещё застряли в самом начальном этапе средневековой декартовой математики, которая положила серьезное начало аналитической геометрии. А что там с неаналитическими геометриями, то есть с синтетическими?
А ведь синтетические геометрии (да-да, мн.ч.) эквивалентны аналитической геометрии. То есть ничем не хуже, а на самом деле во многом даже лучше!
Первая аксиоматика синтетической геометрии была предложена Евклидом, т.е. более двух тысячелетий назад. Но до теории категорий еще было далеко.
Заметьте, здесь геометрия лишь в качестве примера, но четырёхвековое залипание в аналитичность — практически везде в математике (кроме теорката, теормножа, матлогики)
И вот теория категорий уже подъехала на вечеринку, но "тотальная декартова одержимость" до сих пор не отпускает математические тренды 🥲
Ха-ха. Мы всё ещё застряли в самом начальном этапе средневековой декартовой математики, которая положила серьезное начало аналитической геометрии. А что там с неаналитическими геометриями, то есть с синтетическими?
А ведь синтетические геометрии (да-да, мн.ч.) эквивалентны аналитической геометрии. То есть ничем не хуже,
Первая аксиоматика синтетической геометрии была предложена Евклидом, т.е. более двух тысячелетий назад. Но до теории категорий еще было далеко.
Заметьте, здесь геометрия лишь в качестве примера, но четырёхвековое залипание в аналитичность — практически везде в математике (кроме теорката, теормножа, матлогики)
И вот теория категорий уже подъехала на вечеринку, но "тотальная декартова одержимость" до сих пор не отпускает математические тренды 🥲
весь ML, весь матстат, вся теория обработки сигналов пронизаны важной мыслью, которая к сожалению бессмысленно догматизируется:
"отделение полезного сигнала от шума сводится к уменьшению дисперсии остатка".
В результате все вариационные методы фокусируются на минимизации дисперсии остатка. Все исследователи фокусируются на вариационных методах — все заняты работой, хотя почему-то не всегда успешно 🤓
Дело в том, что модель сигнала в вариационных методах почти без исключения предполагает аддитивную природу отношения между полезным сигналом и остаточным шумом.
Вот обычный пример сигнала мультипликативной природы, в котором дисперсия остатка после выделения полезного сигнала оказывается некисло выше дисперсии исходного сигнала.
И на практике довольно редко можно исправить такую ситуацию простым логарифмированием. Часто это из-за банальных аддитивных смещений в отрицательные значения, но вовсе нередко из-за того, что знак является существенной частью сигнала.
Комплексное логарифмирование звучит как панацея, но умеем ли мы ловко с ним работать? А уместно ли логарифмирование вообще в случае неприятного небольшого аддитивного смещения?
"отделение полезного сигнала от шума сводится к уменьшению дисперсии остатка".
В результате все вариационные методы фокусируются на минимизации дисперсии остатка. Все исследователи фокусируются на вариационных методах — все заняты работой, хотя почему-то не всегда успешно 🤓
Дело в том, что модель сигнала в вариационных методах почти без исключения предполагает аддитивную природу отношения между полезным сигналом и остаточным шумом.
Вот обычный пример сигнала мультипликативной природы, в котором дисперсия остатка после выделения полезного сигнала оказывается некисло выше дисперсии исходного сигнала.
И на практике довольно редко можно исправить такую ситуацию простым логарифмированием. Часто это из-за банальных аддитивных смещений в отрицательные значения, но вовсе нередко из-за того, что знак является существенной частью сигнала.
Комплексное логарифмирование звучит как панацея, но умеем ли мы ловко с ним работать? А уместно ли логарифмирование вообще в случае неприятного небольшого аддитивного смещения?
материя и чёрные дыры — это способ, которым упаковывается неевклидовость пространства-времени.
(Это не общезначимое утверждение. Это то, как я вижу черные дыры, лептоны и кварки.)
(Это не общезначимое утверждение. Это то, как я вижу черные дыры, лептоны и кварки.)
у меня года два чесался вопрос:
а работают ли языковые модели, если входной текст скармливать в модель не жирными токенами, не посимвольно, и даже не по байтам, а экстремально — по битам?
я всё ждал появления папир по этой теме, но вот сегодня меня достало ждать и я проверил: оказывается всё работает 😳
Если вам интересно, то вот исходники, а вот Google Colab Notebook.
Возможно вам будет забавно:
1. в основу взят знаменитый nanoGPT (автор Андрей Карпатый).
2. за 2 часа (!) при помощи Cursor AI + Claude-3.5-Sonnet, я прикрутил к nanoGPT побитовый токенизатор, обучил и протестировал.
Код не пришлось писать вообще! и я от этого немножко в шоке...
а работают ли языковые модели, если входной текст скармливать в модель не жирными токенами, не посимвольно, и даже не по байтам, а экстремально — по битам?
я всё ждал появления папир по этой теме, но вот сегодня меня достало ждать и я проверил: оказывается всё работает 😳
Если вам интересно, то вот исходники, а вот Google Colab Notebook.
Возможно вам будет забавно:
1. в основу взят знаменитый nanoGPT (автор Андрей Карпатый).
2. за 2 часа (!) при помощи Cursor AI + Claude-3.5-Sonnet, я прикрутил к nanoGPT побитовый токенизатор, обучил и протестировал.
Код не пришлось писать вообще! и я от этого немножко в шоке...
любопытно: оказывается есть движ рассматривать трансформеры, как квантовые спин-модели.
Если вы погрузитесь глубже, то окажется, что есть движ про вычислительные машины на базе не только спин-, изинг- и прочих моделей, но базе т.н. интегрирующих моделей.
Похоже, трансформеры на квантовых компьютерах -- не такая уж дичь, как может показаться на первый взгляд
Если вы погрузитесь глубже, то окажется, что есть движ про вычислительные машины на базе не только спин-, изинг- и прочих моделей, но базе т.н. интегрирующих моделей.
Похоже, трансформеры на квантовых компьютерах -- не такая уж дичь, как может показаться на первый взгляд