Telegram Web
Higgsfield Soul - новая text2image модель?

Ребята явно решили замахнуться на кусок пирога Midjourney. В твиттере сейчас только о них и говорят, называя их новый генератор картинок Soul самым реалистичным и эстетичным. Но так ли это?

Higgsfield — это изначально апка с видеогенераторами. Я про нее никогда не писал, потому что в целом это аггретатор моделей, а не какая-то новая модель. Просто на сайте есть куча пресетов и нейроэффектов (по сути, LoRA для видео). Иногда это даёт прикольный результат, и для определённых задач выходит лучше и быстрее, чем пытаться добиться того же через промпт в другом генераторе. Для художников удобно, но с технической точки зрения ничего любопытного.

А теперь про их новую t2i-модель — Soul. Судя по черри-пикам в твиттере, это и правда очень красивая и реалистичная модель. Что мы видим на самом сайте? Куча готовых пресетов и стилей. Я взял рандомный промпт из галереи (отмечу, что все они там очень длинные) и провёл тесты:

1. Оригинальный промпт + оригинальный пресет «office beach».
2. Оригинальный промпт + пресет «general» (то есть базовая, не затюненная версия модели).
3. Другой промпт из галереи + оригинальный пресет «office beach».
4. Другой промпт + его родной пресет «movie».
5. Другой промпт + пресет «general».

Для сравнения я прогнал те же промпты через Runway (6,7) и Flux dev (8,9).

Итог предсказуем: магии не случилось. Удивлен, что generation diversity ≈ 0, что видно из последней пикчи (10), они больше похожи на вариации одной общей картинки, а не на новые изображения. Есть подозрение, что они просто берут случайную фотку из трейна (ближайшуюу по клип скору) по заданному стилю и в этом же стиле перерисовывают, помешивая промпт и добавляя LoRA. По сути, это тот же Flux либо HiDream, но с пачкой действительно качественных LoRA-пресетов. Какие-то вещи повторить быстро и легко можно, но вряд ли выйдет создать что-то принципиально новое.

И что самое ироничное, со всеми этими «четырёхэтажными» промптами, которые даже не влезли в лимит Runway в 1000 знаков, последний, по-моему, справился даже лучше! Может, чуть меньше реализма, но с точки зрения стиля, атмосферы и эстетики... Просто посмотрите на ковбоя от Runway.

P.S. Все генерации сделаны с первого раза.

higgsfield.ai

@ai_newz
1😁5532❤‍🔥27👍17💯10🔥5😍2🤩1💔1
Над Cursor сгущаются тучи

Тут вокруг самой популярной тулы для вайбкодинга возник небольшой скандал. Шестнадцатого июня команда анонсировала новые условия для Pro ($20) плана: безлимит на использование агента, но с рейтлимитами . Существующим подписчикам при этом дали возможность перейти обратно на старые условиях — 500 запросов к премиум моделям в месяц. Условия казались хорошими, поэтому мало кто переключился назад.

Тридцатого июня блогпост с анонсом втихую обновили, после чего оказалось что всё было слишком хорошо чтобы быть правдой. "Безлимит" хоть и существует, но касается лишь авто‑выбора моделей (что автоматом исключает все ризонеры), а ручной выбор конкретных моделей ограничен двадцатью долларами по API прайсингу, за всё что выше нужно платить. По факту лимиты сильно порезали, особенно для ризонер моделей.

Подлил масла в огонь тот факт, что Cursor не показывает цену запроса прямо в IDE, а прайслист с ценами на модели отсутствует. Вчера компания опубликовала блогпост, где извинилась и пообещала рефанднуть излишние траты за последние три недели ([email protected]). Но тем не менее доверие подорвано и комьюнити — половина /r/cursor сейчас посвящена переходу на Claude Code и другие альтернативы.

В целом причины изменения прайсинга понятны — с приходом ризонеров цена на два разных запроса к одной модели может спокойно отличаться на порядок. А прайсинг подписки у Cursor делался под прошлое поколение моделей, поэтому пришлось адаптироваться под современные реалии. Но коммуникация при переходе была из рук вон отвратительной.

А тем временем, компания активно ищет новые способы монетизации юзербазы и всё больше переходит на per-usage pricing. Помимо Max режима, который ввели несколько месяцев назад, по плате за токены теперь всё чаще работают новые фичи (те же background agents). Но при этом Anysphere же не забыли сделать свою подписку за $200, куда же без неё. Недавний раунд финансирования даёт свои плоды.

Пивот в бизнес модели происходит при этом в самый неудачный момент — Anthropic, OpenAI и Google в последние несколько месяцев зашли на рынок кодинг агентов. Вертикальная интеграция даёт им возможность давать условия получше врапперов. Anysphere пытается удержаться на плаву: ведут агрессивный найм и на днях переманили двух лидов Claude Code. Собирают и довольно сильную команду для тренировки моделей. Поможет ли это всё стартапу выжить — покажет только время.

@ai_newz
3107💔51👍37😁26🔥9🙏4🦄2
Нейродайджест за неделю (#76)

Стартапы и бизнес
- Что я делаю как CEO — о важном 😎
- AWS — Акселератор от Амазона для AI-стартапов, подача до 10-го июля.
- Oracle — История становления одного из самых больших поставщика компьюта на рынке.

Генеративные модели
- Higgsfield Soul — Критический обзор новой text2image модельки с тестами.

Прочее
- Факап Cursor — Пример того, как не надо себя вести когда меняешь ценовую политику.

> Читать дайджест #75

#дайджест
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
20👍8🔥8
Вышел доклад от François Chollet, который я слушал ещё 3 недели назад в Сан-Франциско на YC AI Startup School.

Это, кстати, был один из 3 самых интересных докладов (другие два - это Карпатый и Chelsea Finn).

В докладе Шолле показывает, что до AGI нам еще далековато, что существующие бенчи слишком простые, и показывает свой новый бенч ARC-AGI-2. На новом бенче средний человек набирает 60%, а команда из нескольких — 100%. В то время как o3-high выбивает только 6.5%, а Claude Opus 4 (Thinking 16K) - 8.6%. Показывая, что пропасть между лучшими LLM и человеком тут огромная.

Старый ARC-AGI-1 продержался пять лет, потому что он был вызовом для обычных LLM, которые хороши в запоминании, но пасуют когда дело доходит до настоящего мышления. Ризонеры наконец-то смогли его решать (но все равно не полностью), поэтому сделали ARC-AGI-2, который опять же бьёт в самую слабую точку современных LLM — их способность к подвижному интеллекту (fluid intelligence). Он проверяет умение работать с символами, многошаговыми правилами и контекстом, где тупой перебор не работает. Шолле ожидает, что этот бенч не продержится так долго, потому что именно в ризонинге будет происходить самый быстрый прогресс в ближайшие годы.

Но ARC-2 — это не предел. Шолле уже затизерил ARC-AGI-3, который должен выйти в 2026 году. Он будет ещё жёстче — бенчмарк будет построен в виде интерактивных игр, требующих от ИИ ставить цели и по-настоящему адаптироваться, а не подбирать решение грубой силой. Фокус этого бенча — эффективность обучения, сравнимую с человеческой. Системы должны будут не просто решить задачу, а сделать это быстро и с небольшим количеством примеров. ARC-3 целится в то, чтобы продержаться больше трёх лет.

В конце он объявил о создании своей новой лабы — NDEA. Их цель — строить тот самый ИИ, который нужен для настоящих прорывов: самообучающийся движок для синтеза программ, способный не на автоматизацию, а на изобретения. По сути, они хотят создать систему, которая сможет ускорять научный прогресс, а бенчмарки ARC будут для них главным мерилом успеха.

https://www.youtube.com/watch?v=5QcCeSsNRks

@ai_newz
166🔥94👍40🫡6❤‍🔥4🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
Там чет мунвели тизерят свою видео-генерацию для киноиндустрии, натренированную на "чистых данных". Ну, ну. Посмотрим.

Пока модель потыкать нельзя.

@ai_newz
49👍17😁6🔥4💔3🦄2🤯1😱1
SmolLM 3 — полностью открытая 3B модель от Huggingface

Это самая сильная 3B модель — она опережает Llama-3-3B и Qwen 2.5-3B, но отстаёт от более крупных 4B Qwen 3 и Gemma 3. Модель — гибридный ризонер, как новые Claude или Qwen 3.

Самое ценное в релизе — блогпост с деталями тренировки и опубликованные конфиги, так что воспроизвести модель будет крайне просто. Модель тренировали 24 дня на 384 GPU H100 (220к часов) по трёхстадийной схеме: сначала Web + Code + Math, затем постепенно повышали долю кода и математики. После основного претрейна добавили mid-training для расширения контекста, затем mid-training на ризонинг. К сожалению, ризонингу модель учили исключительно на готовых ризонинг трейсах, RL тут совсем не использовался.

Посттрейнили с SFT на 1,8B токенов: 1B без reasoning-трейсов и 0,8B с /think, данные взяли из 22 открытых датасетов. Тренировали 4 эпохи (~8B токенов) с BFD-packing и маскировали лосс на пользовательских репликах, чтобы не штрафовать system-промпты и tool-calls. Затем модель тюнили с Anchored Preference Optimization: реальные пары из Tulu 3 дополнили синтетическими chosen vs rejected ответами Qwen3-32B/0.6B, покрыв оба режима /think и /no_think. После этого несколько чекпоинтов полученных при тюне с APO смешали в одну, а уже её смерджили с мидтрейн-чекпоинтом — так сохранили 128k контекст, без просадки на математике и коде.

Иметь такие открытые рецепты в общем доступе крайне важно — они служат бейзлайном, поверх которого можно последовательно улучшать любой этап пайплайна. Без таких рецептов, делать ресёрч по претрейну гораздо сложнее.

Блогпост

Веса
Конфиги для тренировки с помощью nanotron

@ai_newz
161🔥79👍40❤‍🔥6🦄2
Вышел Grok 4

SOTA на нескольких бенчах — выбивает идеальный результат на AIME25. Результаты на ARC-AGI-2 почти в два раза выше чем у прошлого лидера — Claude 4 Opus, 15.9% против 8,6%.

Но больше всего xAI гордятся Humanity's Last Exam, которому посвятили почти половину презентации. Результаты и правда хорошие — с максимальным компьютом и с доступом к инструментам модель выдаёт 44,4% (50.7% на текстовой части). Без тулюза всё ещё SOTA, но с меньшим отрывом — модель выбивает 25.4%, против 21.6% у Gemini 2.5 Pro.

Базовая модель та же самая что у Grok 3 (Grok 4 изначально хотели запустить как Grok 3.5, но решили потренировать подольше). Основное отличие — на тренировку ризонингу потрачено в 10x больше компьюта. Теперь компьют на RL примерно равен компьюту на претрейн, с чем я вас и поздравляю 🥳. Что важно — модель теперь нативно учат тулюзу во время RL, как и o3 с o4-mini.

С мультимодальностью всё не очень — бенчмарки показали почти исключительно текстовые, а на HLE видна заметная просадка. Илон это обещает поправить уже со следующей версией базовой модели. А вот контекст удвоили до 256k.

Запустили и API, цена за токен такая же как у Grok 3 и Claude Sonnet, но модель очень разговорчивая — на реальных задачах она стоит почти как Claude Opus 4. Grok 4 Mini не состоялся, а жаль — Grok 3 Mini крайне хорошая модель за свою цену, хотелось бы апдейта.

А тем временем компьют xAI расширяется с неслыханными темпами — Илон говорит что они собираются начать тренировку своей видеомодели на 100k+ GB200 через 3-4 недели. Уже есть деньги и на следующее расширение Colossus — в конце прошлого месяца компания привлекла 10 миллиардов долларов. Половину от инвесторов, а половину — в долг.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
78🔥50👍25😁4❤‍🔥2😱2
Что лучше чем подписка за $200? Подписка за $300!

Только бы такие инновации в бизнес модели не начали копировать другие компании.

@ai_newz
😁137🤯3210😱6💔4❤‍🔥1
2025/07/10 11:31:14
Back to Top
HTML Embed Code: