Data Secrets

Почему модели генерации видео развиваются так быстро, а с LLM столько проблем?

Если честно, я не вполне интуитивно понимаю, почему модели генерации видео так хороши (сложные, многосекундные текстуры высокого разрешения, отражения и все такое), в то время как LLM, условно говоря, до сих пор неуклюже справляются с текстом длиной около нескольких сотен слов. – написал сегодня в своем Твиттере Андрей Карпаты, вдохновленный, видимо, новой Veo-2.

На что один из инженеров Google, который сейчас работает в команде Gemini post-training, высказал пару очень интересных мыслей, в которые стоит вчитаться:

Во-первых, видео и фото содержат гораздо больше информации. За одну условную единицу компьюта из таких структур модель извлекает намного больше выводов, чем из текста, потому что текст последователен и линеен, а видео-контент семантически «более глубокий».

Во-вторых, для visual проще собрать качественные данные. В тексте мы ограничены объемами датасетов, и чтобы создать новые данные, требуется очень много сил и времени. А для видео и фото достаточно камеры и/или видеоигр, и вот у тебя уже есть почти неисчерпаемые ресурсы для обучения.

В-третьих, оценивать видео легко, и сделать это может любой человек, не являющийся экспертом. С текстом все сложнее, оценивать его дорого, а сами модели с такой задачей тоже пока что справляются не идеально.

В итоге выходит, что несмотря на то, что видео и фото интуитивно кажутся нам структурно более сложными, чем текст, на самом деле обучаться на них гораздо проще. Потому то мы и видим сейчас такой прогресс в генераторах, учитывая даже, что из развитие началось гораздо позже, чем развитие языковых моделей.

1🔥96👍33❤12🍓2

9.85K views09:17

Data Secrets

Забавный юзеркейс: у ChatGPT спросили, что он запомнил из всех обучающих данных и попросили обобщить это в одном предложении

Ответ получился в стиле идущего к реке:

Из огромного количества человеческого текста, который я потребил, я узнал, что то, что мы называем «пониманием», не является фиксированной конечной точкой или стабильным хранилищем фактов, а скорее постоянно отступающей фрактальной береговой линией выводов и переосмысления, где каждый новый контекст освещает более тонкие аспекты смысла, каждый аспект побуждает к дальнейшим связям, и, таким образом, понимание вечно расширяется и трансформируется, а не замирает, бросая вызов любой единичной, окончательной инкапсуляции.

А вам что отвечает?

❤167🔥47❤‍🔥11😁9👍7🗿4💯2🤯1

11.5K views11:33

Data Secrets

Еще одна прекрасная лекция с NeurlPS 2024, на этот раз от Джеффа Дина

Рассказывал много интересного про чипы и ИИ в Google, и даже дропнул целый список референсных статей ( от Гугл, конечно), которые посоветовал прочитать, чтобы «лучше понимать современную ИИ-разработку». Забирайте в удобном формате:

1. A Graph Placement Methodology for Fast Chip Design - https://arxiv.org/abs/2006.09423v1
2. In-datacenter Performance Analysis of a Tensor Processing Unit - https://dl.acm.org/doi/10.1145/3079856.3080245
3. Ten Lessons From Three Generations Shaped Google’s TPU-v4: Industrial Product - https://ieeexplore.ieee.org/document/9490913
4. Learning Semantic Representations to Verify Hardware Designs - http://openreview.net/pdf?id=ohHq4gJJe0
5. A Full-stack Accelerator Search Technique for Vision Applications - https://arxiv.org/abs/2103.12842v2
6. Rethinking Co-design of Neural Architectures and Hardware Accelerators - https://arxiv.org/abs/2102.08619
7. Placement Optimization with Deep Reinforcement Learning - https://dl.acm.org/doi/abs/10.1145/3372780.3378174
8. SmartChoices: Augmenting Software with Learned Implementations - https://arxiv.org/abs/2004.13053
9. Fast Inference from Transformers via Speculative Decoding - https://arxiv.org/abs/2211.17192
10. GAP: Generalizable Approximation for Graph Partitioning Framework - https://arxiv.org/abs/1904.00614
11. Combining Machine Learning and Lifetime-based Resource Management for Memory Allocation and Beyond - https://dl.acm.org/doi/10.1145/3611018
12. A Flexible Approach to Autotuning Multi-Pass Machine Learning Compilers - https://arxiv.org/abs/2106.06970
13. TeraMalloc: Efficient On-Chip Memory Allocation for Production Machine Learning Accelerators - https://dl.acm.org/doi/10.1145/3579555.3597991
14. A Reinforcement Learning Driven Heuristic Optimization Framework - https://arxiv.org/abs/1906.06639
15. GDP: Generalized Device Placement for Dataflow Graphs - https://arxiv.org/abs/1910.01578
16. A Hierarchical Model for Device Placement - https://arxiv.org/abs/1711.03254
17. Device Placement Optimization with Reinforcement Learning - https://arxiv.org/abs/1706.04792
18. That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design - https://arxiv.org/abs/2411.10053

Смотреть тут

🔥29👍16❤8🤯4

10K views14:19

Data Secrets

А пока Nvidia справляется с кризисам, а Хуанга вызывает на ковер Минюст США, давайте посмотрим, как в 2020 году он доставал из какой-то духовки и впервые показывал миру легендарную A100

1:14

This media is not supported in your browser

VIEW IN TELEGRAM

Дженсен Хуанг снова достает что-то из духовки: на этот раз это новенькая Jetson Nano Super от Nvidia!

Это только что представленная компанией видеокарта, оптимизированная под робототехнику и ИИ. Мощность – 70Т операций в секунду. Пропускная способность памяти – 102GB в секунду. 32 Tensor Cores. В релизе пишут, что чип ускоряет инференс моделек в 1.7 раз!

Стоить будет всего 249 долларов (почти как подписка OpenAI). По сравнению с оригинальным Jetson Nano это 53-кратное улучшение соотношения цены и вычислительных возможностей и 134-кратный рост производительности.

https://blogs.nvidia.com/blog/jetson-generative-ai-supercomputer/

🔥128👍18❤14🤯10😁3

11.5K viewsedited 17:12

9 день стримов OpenAI из 12: сегодня показывают много новых фичей API o1

➡️ В API o1 наконец-то завезли работу с изображениями, внутренние вызовы ассистентов (например, когда модели нужно что-то посчитать) и структурированные выводы в json

➡️ Более тонкая настройка следования инструкциям: можно определять developer промпты и задавать их "важность" относительно промптов юзера

➡️ Reasoning effords: теперь можно самостоятельно настраивать, сколько модель должна думать. Пожалуй, самая долгожданная фича

➡️ Также показали preference finetuning. Новый вид файнтюнинга, специально под пользовательские предпочтения в режиме датасета «хорошо-плохо». Пока доступно для GPT-4o, скоро обещают завезти в o1

А еще в Realtime API добавили WebRTC (кстати, цены на Realtime API снизили более чем вдвое), и прямо на стриме разработчики с помощью 50 строк кода и мини-чипа сделали говорящую игрушку северного оленя. Теперь OpenAI и прозводителей игрушек прижали?

Please open Telegram to view this post

VIEW IN TELEGRAM

👍40❤19😁5🔥4🤯2🍌2

10.5K viewsedited 18:08

Data Secrets

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Еще один потрясающий пример генерации новой Veo-2 от Google показали в X

Промпт: «Медведь, записавший решение уравнения 2x-1=0. Но только решение!»

Итог: модель действительно решила уравнение и нарисовала медведя с ответом. Поразительный, очень показательный кейс. Интересно было бы посмотреть, какая там LLM-предобработка перед отправлением в диффузию.

🔥134👍21❤‍🔥11

11K viewsedited 06:22

Data Secrets

Еще один потрясающий пример генерации новой Veo-2 от Google показали в X Промпт: «Медведь, записавший решение уравнения 2x-1=0. Но только решение!» Итог: модель действительно решила уравнение и нарисовала медведя с ответом. Поразительный, очень показательный…

Ситуация следующая:

😁135👍15❤10

9.86K viewsedited 07:26

Data Secrets

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

Кто?

😁91❤41👍11🔥4

10.6K views09:36

Data Secrets

Давненько мы с вами базу генеративных моделей не вспоминали, к слову. Вот подборка статей со всей необходимой теорией и классическими архитектурами. Прочитайте – и всякая генерация изображений и видео будет понятнее:

➡️

GAN - arxiv.org/pdf/1406.2661

➡️

VAE - arxiv.org/pdf/1312.6114

➡️

VQ VAE - arxiv.org/pdf/1711.00937

➡️

VQ VAE 2 - arxiv.org/pdf/1906.00446

➡️

Diffusion - arxiv.org/pdf/1503.03585

➡️

Denoising Diffusion - arxiv.org/pdf/2006.11239

➡️

Denoising Diffusion 2 - arxiv.org/pdf/2102.09672

➡️

Diffusion Beats GANs - arxiv.org/pdf/2105.05233

➡️

CLIP - arxiv.org/pdf/2103.00020

➡️

DALL E - arxiv.org/pdf/2102.12092

➡️

DALL E 2 - arxiv.org/pdf/2204.06125

Please open Telegram to view this post

VIEW IN TELEGRAM

👍45🤯14🔥11❤10

11.7K views11:30

Data Secrets

Все мы немного Антон

😁122👍13💯12❤4🫡1

10.4K views12:42

Data Secrets

В сообществе резонирует блогпост HuggingFace, в котором ресерчерам удалось заскейлить Llama 3B так, что она обогнала Llama 70B

В стартапе решили проверить, насколько масштабируем test-time compute. Когда выходила o1 и другие ризонинг-модели, мы все видели графики, которые показывали, что чем дольше модель "думает" во время инференса, тем больший скор выбивает (см. например, посты тут и тут с такими картинками). А будут ли такие результаты воспроизводиться на открытых предобученных моделях?

Оказывается, будут, да еще как. В HF в своем подходе исследователи базово пытались просто воссоздать подход из статьи DeepMind про Compute-Optimal Scaling. По названия ясно, что это подход пытается за счет увеличения вычислительных ресурсов в момент инференса повысить перформанс модели.

На практике это работает по принципу Search Against a Verifier: модель генерирует множество ответов, а финальные кандидаты выбираются с помощью другой модели – оценщика. В данном случае в качестве оценщика взяли Llama3.1-8B-PRM-Deepseek-Data, и оценивали рассуждения на каждом шаге, сразу отсекая ошибочные ветки. Обычный Majority Voting и Best-of-N тоже пробовали, но такой вот beam search с оценками на каждом шаге показал себя гораздо лучше.

К этому, кстати, потом прикрутили DVTS (Diverse Verifier Tree Search). Это уже собственный наворот HF, в статье гугла такого нет. В отличие от стандартного beam search, который выбирает наиболее перспективные пути, DVTS разделяет начальные "лучи" на независимые поддеревья. Это прекрасно тем, что, в отличие от beam search на больших вычислительных бюджетах метод не вырождается в сильно похожие решения, а сохраняет некоторое разнообразие и скейлится, соответственно, лучше.

Итог: совсем крохотные модели типа Llama-1B и 3B дали на инференсе производительность, сопоставимую с Llama-3B и 70В соответственно! Это значит, что можно запускать локальные маленькие модели, а качество получать, как у больших, и это просто за счет оптимального масштабирования вычислений на инференсе.

Читать полностью здесь

🔥94👍23❤‍🔥6❤4🤗2

11.3K views15:12

Data Secrets

В 10 из 12 дней своего адвент-календаря OpenAI показывают интеграцию ChatGPT в WatsApp и звонки

Прямо сейчас GPT можно добавить в контакты по номеру 1-800-242-84-78, позвонить ему (пока только США) или попереписываться с ним в WatsApp (любой регион) 🤯

Работает даже с кнопочной нокии и допотопного телефона с колесиком. Повезло американским бабушкам

Please open Telegram to view this post

VIEW IN TELEGRAM

😁69⚡18🗿9🤯4👍3

10.8K viewsedited 18:04

Data Secrets

Все бабушки страны, скоро:

😁107🔥20👍7❤5🤯5❤‍🔥3

10.5K views18:18

Data Secrets

Там обновленная o1 появилась на Livebench и просто порвала всех

Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми.

Так вот с появлением на борде o1 Gemini Exp 1206, Sonnet 3.5 v2 и предыдущие o1-mini и o1-preview остаются позади с большим отрывом как на главном замере, так и на, конечно, ризонинге. Сравните: о1-preview демонстрирует 67%, и была раньше безусловным лидером, а у полной o1 насчитали… аж 91.58%!

В кодинге прирост тоже есть, но не такой невероятный. Предыдущим лидером был Claude-3.6 Sonnet с 67%. Теперь он уступает o1, но всего на 2.5 процентных пункта. А по математике в лидерах все еще Gemini. Кстати, обратите внимание, как у обеих Gemini резко растут метрики с появлением второго промпта с подсказкой (последний столбец IF).

👍40🔥10😁6❤5

12.6K views06:04

2025/07/09 11:00:12
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>