tgoop.com/deeplearning_ru/963
Last Update:
TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.
TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.
Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.
TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.
Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.
@ai_machinelearning_big_data
#AI #ML #T2I #TIPO #LLM