tgoop.com/roguelike_theory/649
Last Update:
Категория промптов
Можно сгенерировать в Midjourney картинку по промпту "cat", потом скормить эту картинку для обратной операции генерации промпта из картинки, и получить некое произвольное уточнение кота. У меня получилось "картина маслом оранжевый кот, в стиле цифровой аэрографии, очень подробная иллюстрация, темно-золотой и светло-голубой, Казимеж Домбровский, текучий и рыхлый, иллюстрация".
Можно было бы придумать некую обратную операцию, которая наоборот, ведет от подробного промпта к архетипу. Что-то типа – я ввожу "картина маслом оранжевый кот", получаю несколько картинок, обобщаю их обратно в текст и получаю, например, "кот". Может быть, помимо чисто языковый категорий, есть спослб так исследовать, например, иерархию художников или медиумов внутри Midjourney (типа я закинул Сезанна и получил Будена).
Люди много так с Миджорни играются, двигаясь между промптами и картинками и обратно, и находят разные странные архетипы. Например, как-то так (с негативными промптами) получилась "Loab".
В этих операциях есть нечто, что открывает семантическую структуру модели. Я думаю, что можно построить из этого что-то типа "enriched category" (это такая категория, где у морфизмов есть дополнительная инфорация, например какая-нибудь вероятность) – такие используются для моделирования семантики языка на основе какого-то корпуса. А тут можно делать это не на корпусе, а на конкретной генеративной модели – и исследовать семантику не одного языка, а движения между двумя (в духе Юрия Лотмана). Тогда эти две операции (произвольное уточнение и архетипичное обобщение) будут сопряженными функторами (adjoint) к генерации картинок. (Или чет типа того). Подозреваю, что закон "сохранения данных" (что какие-то операции с моделями не могут создавать новую информацию сами по себе) обеспечивает определенную степень "хорошего поведения" этих категорий.
Если морфизм между промптами это возможность уточнения (скажем от "кот" к "оранжевый кот"), то у категории есть начальный объект "что угодно", есть операция умножения (минимальное уточнение обоих промптов) и так далее.
С одной стороны, эти категории порождает некая конкретная модель, и в них есть что-то произвольное. С другой стороны, есть смысл предполагать, что при росте корпусов и их приближению к некой культурной насыщенности, эти категории будут очень похожи для разных очень больших моделей. С точки зрения экономики, это принципиальный вопрос: правда ли, что все "большие модели" будут очень похожи на друг друга по функциональности? Получается идея "культуры" как некоего предела корпусов.
BY roguelike theory
Share with your friend now:
tgoop.com/roguelike_theory/649