Почему модели генерации видео развиваются так быстро, а с LLM столько проблем?
На что один из инженеров Google, который сейчас работает в команде Gemini post-training, высказал пару очень интересных мыслей, в которые стоит вчитаться:
Во-первых, видео и фото содержат гораздо больше информации. За одну условную единицу компьюта из таких структур модель извлекает намного больше выводов, чем из текста, потому что текст последователен и линеен, а видео-контент семантически «более глубокий».
Во-вторых, для visual проще собрать качественные данные. В тексте мы ограничены объемами датасетов, и чтобы создать новые данные, требуется очень много сил и времени. А для видео и фото достаточно камеры и/или видеоигр, и вот у тебя уже есть почти неисчерпаемые ресурсы для обучения.
В-третьих, оценивать видео легко, и сделать это может любой человек, не являющийся экспертом. С текстом все сложнее, оценивать его дорого, а сами модели с такой задачей тоже пока что справляются не идеально.
В итоге выходит, что несмотря на то, что видео и фото интуитивно кажутся нам структурно более сложными, чем текст, на самом деле обучаться на них гораздо проще. Потому то мы и видим сейчас такой прогресс в генераторах, учитывая даже, что из развитие началось гораздо позже, чем развитие языковых моделей.
Если честно, я не вполне интуитивно понимаю, почему модели генерации видео так хороши (сложные, многосекундные текстуры высокого разрешения, отражения и все такое), в то время как LLM, условно говоря, до сих пор неуклюже справляются с текстом длиной около нескольких сотен слов. – написал сегодня в своем Твиттере Андрей Карпаты, вдохновленный, видимо, новой Veo-2.
На что один из инженеров Google, который сейчас работает в команде Gemini post-training, высказал пару очень интересных мыслей, в которые стоит вчитаться:
Во-первых, видео и фото содержат гораздо больше информации. За одну условную единицу компьюта из таких структур модель извлекает намного больше выводов, чем из текста, потому что текст последователен и линеен, а видео-контент семантически «более глубокий».
Во-вторых, для visual проще собрать качественные данные. В тексте мы ограничены объемами датасетов, и чтобы создать новые данные, требуется очень много сил и времени. А для видео и фото достаточно камеры и/или видеоигр, и вот у тебя уже есть почти неисчерпаемые ресурсы для обучения.
В-третьих, оценивать видео легко, и сделать это может любой человек, не являющийся экспертом. С текстом все сложнее, оценивать его дорого, а сами модели с такой задачей тоже пока что справляются не идеально.
В итоге выходит, что несмотря на то, что видео и фото интуитивно кажутся нам структурно более сложными, чем текст, на самом деле обучаться на них гораздо проще. Потому то мы и видим сейчас такой прогресс в генераторах, учитывая даже, что из развитие началось гораздо позже, чем развитие языковых моделей.
1🔥96👍33❤12🍓2
Забавный юзеркейс: у ChatGPT спросили, что он запомнил из всех обучающих данных и попросили обобщить это в одном предложении
Ответ получился в стиле идущего к реке:
А вам что отвечает?
Ответ получился в стиле идущего к реке:
Из огромного количества человеческого текста, который я потребил, я узнал, что то, что мы называем «пониманием», не является фиксированной конечной точкой или стабильным хранилищем фактов, а скорее постоянно отступающей фрактальной береговой линией выводов и переосмысления, где каждый новый контекст освещает более тонкие аспекты смысла, каждый аспект побуждает к дальнейшим связям, и, таким образом, понимание вечно расширяется и трансформируется, а не замирает, бросая вызов любой единичной, окончательной инкапсуляции.
А вам что отвечает?
❤167🔥47❤🔥11😁9👍7🗿4💯2🤯1
Еще одна прекрасная лекция с NeurlPS 2024, на этот раз от Джеффа Дина
Рассказывал много интересного про чипы и ИИ в Google, и даже дропнул целый список референсных статей ( от Гугл, конечно), которые посоветовал прочитать, чтобы «лучше понимать современную ИИ-разработку». Забирайте в удобном формате:
1. A Graph Placement Methodology for Fast Chip Design - https://arxiv.org/abs/2006.09423v1
2. In-datacenter Performance Analysis of a Tensor Processing Unit - https://dl.acm.org/doi/10.1145/3079856.3080245
3. Ten Lessons From Three Generations Shaped Google’s TPU-v4: Industrial Product - https://ieeexplore.ieee.org/document/9490913
4. Learning Semantic Representations to Verify Hardware Designs - http://openreview.net/pdf?id=ohHq4gJJe0
5. A Full-stack Accelerator Search Technique for Vision Applications - https://arxiv.org/abs/2103.12842v2
6. Rethinking Co-design of Neural Architectures and Hardware Accelerators - https://arxiv.org/abs/2102.08619
7. Placement Optimization with Deep Reinforcement Learning - https://dl.acm.org/doi/abs/10.1145/3372780.3378174
8. SmartChoices: Augmenting Software with Learned Implementations - https://arxiv.org/abs/2004.13053
9. Fast Inference from Transformers via Speculative Decoding - https://arxiv.org/abs/2211.17192
10. GAP: Generalizable Approximation for Graph Partitioning Framework - https://arxiv.org/abs/1904.00614
11. Combining Machine Learning and Lifetime-based Resource Management for Memory Allocation and Beyond - https://dl.acm.org/doi/10.1145/3611018
12. A Flexible Approach to Autotuning Multi-Pass Machine Learning Compilers - https://arxiv.org/abs/2106.06970
13. TeraMalloc: Efficient On-Chip Memory Allocation for Production Machine Learning Accelerators - https://dl.acm.org/doi/10.1145/3579555.3597991
14. A Reinforcement Learning Driven Heuristic Optimization Framework - https://arxiv.org/abs/1906.06639
15. GDP: Generalized Device Placement for Dataflow Graphs - https://arxiv.org/abs/1910.01578
16. A Hierarchical Model for Device Placement - https://arxiv.org/abs/1711.03254
17. Device Placement Optimization with Reinforcement Learning - https://arxiv.org/abs/1706.04792
18. That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design - https://arxiv.org/abs/2411.10053
Смотреть тут
Рассказывал много интересного про чипы и ИИ в Google, и даже дропнул целый список референсных статей ( от Гугл, конечно), которые посоветовал прочитать, чтобы «лучше понимать современную ИИ-разработку». Забирайте в удобном формате:
1. A Graph Placement Methodology for Fast Chip Design - https://arxiv.org/abs/2006.09423v1
2. In-datacenter Performance Analysis of a Tensor Processing Unit - https://dl.acm.org/doi/10.1145/3079856.3080245
3. Ten Lessons From Three Generations Shaped Google’s TPU-v4: Industrial Product - https://ieeexplore.ieee.org/document/9490913
4. Learning Semantic Representations to Verify Hardware Designs - http://openreview.net/pdf?id=ohHq4gJJe0
5. A Full-stack Accelerator Search Technique for Vision Applications - https://arxiv.org/abs/2103.12842v2
6. Rethinking Co-design of Neural Architectures and Hardware Accelerators - https://arxiv.org/abs/2102.08619
7. Placement Optimization with Deep Reinforcement Learning - https://dl.acm.org/doi/abs/10.1145/3372780.3378174
8. SmartChoices: Augmenting Software with Learned Implementations - https://arxiv.org/abs/2004.13053
9. Fast Inference from Transformers via Speculative Decoding - https://arxiv.org/abs/2211.17192
10. GAP: Generalizable Approximation for Graph Partitioning Framework - https://arxiv.org/abs/1904.00614
11. Combining Machine Learning and Lifetime-based Resource Management for Memory Allocation and Beyond - https://dl.acm.org/doi/10.1145/3611018
12. A Flexible Approach to Autotuning Multi-Pass Machine Learning Compilers - https://arxiv.org/abs/2106.06970
13. TeraMalloc: Efficient On-Chip Memory Allocation for Production Machine Learning Accelerators - https://dl.acm.org/doi/10.1145/3579555.3597991
14. A Reinforcement Learning Driven Heuristic Optimization Framework - https://arxiv.org/abs/1906.06639
15. GDP: Generalized Device Placement for Dataflow Graphs - https://arxiv.org/abs/1910.01578
16. A Hierarchical Model for Device Placement - https://arxiv.org/abs/1711.03254
17. Device Placement Optimization with Reinforcement Learning - https://arxiv.org/abs/1706.04792
18. That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design - https://arxiv.org/abs/2411.10053
Смотреть тут
🔥29👍16❤8🤯4
Data Secrets
А пока Nvidia справляется с кризисам, а Хуанга вызывает на ковер Минюст США, давайте посмотрим, как в 2020 году он доставал из какой-то духовки и впервые показывал миру легендарную A100
This media is not supported in your browser
VIEW IN TELEGRAM
Дженсен Хуанг снова достает что-то из духовки: на этот раз это новенькая Jetson Nano Super от Nvidia!
Это только что представленная компанией видеокарта, оптимизированная под робототехнику и ИИ. Мощность – 70Т операций в секунду. Пропускная способность памяти – 102GB в секунду. 32 Tensor Cores. В релизе пишут, что чип ускоряет инференс моделек в 1.7 раз!
Стоить будет всего 249 долларов (почти как подписка OpenAI). По сравнению с оригинальным Jetson Nano это 53-кратное улучшение соотношения цены и вычислительных возможностей и 134-кратный рост производительности.
https://blogs.nvidia.com/blog/jetson-generative-ai-supercomputer/
Это только что представленная компанией видеокарта, оптимизированная под робототехнику и ИИ. Мощность – 70Т операций в секунду. Пропускная способность памяти – 102GB в секунду. 32 Tensor Cores. В релизе пишут, что чип ускоряет инференс моделек в 1.7 раз!
Стоить будет всего 249 долларов (почти как подписка OpenAI). По сравнению с оригинальным Jetson Nano это 53-кратное улучшение соотношения цены и вычислительных возможностей и 134-кратный рост производительности.
https://blogs.nvidia.com/blog/jetson-generative-ai-supercomputer/
🔥128👍18❤14🤯10😁3
Media is too big
VIEW IN TELEGRAM
9 день стримов OpenAI из 12: сегодня показывают много новых фичей API o1
➡️ В API o1 наконец-то завезли работу с изображениями, внутренние вызовы ассистентов (например, когда модели нужно что-то посчитать) и структурированные выводы в json
➡️ Более тонкая настройка следования инструкциям: можно определять developer промпты и задавать их "важность" относительно промптов юзера
➡️ Reasoning effords: теперь можно самостоятельно настраивать, сколько модель должна думать. Пожалуй, самая долгожданная фича
➡️ Также показали preference finetuning. Новый вид файнтюнинга, специально под пользовательские предпочтения в режиме датасета «хорошо-плохо». Пока доступно для GPT-4o, скоро обещают завезти в o1
А еще в Realtime API добавили WebRTC (кстати, цены на Realtime API снизили более чем вдвое), и прямо на стриме разработчики с помощью 50 строк кода и мини-чипа сделали говорящую игрушку северного оленя. Теперь OpenAI и прозводителей игрушек прижали?
А еще в Realtime API добавили WebRTC (кстати, цены на Realtime API снизили более чем вдвое), и прямо на стриме разработчики с помощью 50 строк кода и мини-чипа сделали говорящую игрушку северного оленя. Теперь OpenAI и прозводителей игрушек прижали?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40❤19😁5🔥4🤯2🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
Еще один потрясающий пример генерации новой Veo-2 от Google показали в X
Промпт: «Медведь, записавший решение уравнения 2x-1=0. Но только решение!»
Итог: модель действительно решила уравнение и нарисовала медведя с ответом. Поразительный, очень показательный кейс. Интересно было бы посмотреть, какая там LLM-предобработка перед отправлением в диффузию.
Промпт: «Медведь, записавший решение уравнения 2x-1=0. Но только решение!»
Итог: модель действительно решила уравнение и нарисовала медведя с ответом. Поразительный, очень показательный кейс. Интересно было бы посмотреть, какая там LLM-предобработка перед отправлением в диффузию.
🔥134👍21❤🔥11
Data Secrets
Еще один потрясающий пример генерации новой Veo-2 от Google показали в X Промпт: «Медведь, записавший решение уравнения 2x-1=0. Но только решение!» Итог: модель действительно решила уравнение и нарисовала медведя с ответом. Поразительный, очень показательный…
Ситуация следующая:
😁135👍15❤10
Давненько мы с вами базу генеративных моделей не вспоминали, к слову. Вот подборка статей со всей необходимой теорией и классическими архитектурами. Прочитайте – и всякая генерация изображений и видео будет понятнее:
➡️ GAN - arxiv.org/pdf/1406.2661
➡️ VAE - arxiv.org/pdf/1312.6114
➡️ VQ VAE - arxiv.org/pdf/1711.00937
➡️ VQ VAE 2 - arxiv.org/pdf/1906.00446
➡️ Diffusion - arxiv.org/pdf/1503.03585
➡️ Denoising Diffusion - arxiv.org/pdf/2006.11239
➡️ Denoising Diffusion 2 - arxiv.org/pdf/2102.09672
➡️ Diffusion Beats GANs - arxiv.org/pdf/2105.05233
➡️ CLIP - arxiv.org/pdf/2103.00020
➡️ DALL E - arxiv.org/pdf/2102.12092
➡️ DALL E 2 - arxiv.org/pdf/2204.06125
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45🤯14🔥11❤10
В сообществе резонирует блогпост HuggingFace, в котором ресерчерам удалось заскейлить Llama 3B так, что она обогнала Llama 70B
В стартапе решили проверить, насколько масштабируем test-time compute. Когда выходила o1 и другие ризонинг-модели, мы все видели графики, которые показывали, что чем дольше модель "думает" во время инференса, тем больший скор выбивает (см. например, посты тут и тут с такими картинками). А будут ли такие результаты воспроизводиться на открытых предобученных моделях?
Оказывается, будут, да еще как. В HF в своем подходе исследователи базово пытались просто воссоздать подход из статьи DeepMind про Compute-Optimal Scaling. По названия ясно, что это подход пытается за счет увеличения вычислительных ресурсов в момент инференса повысить перформанс модели.
На практике это работает по принципу Search Against a Verifier: модель генерирует множество ответов, а финальные кандидаты выбираются с помощью другой модели – оценщика. В данном случае в качестве оценщика взяли Llama3.1-8B-PRM-Deepseek-Data, и оценивали рассуждения на каждом шаге, сразу отсекая ошибочные ветки. Обычный Majority Voting и Best-of-N тоже пробовали, но такой вот beam search с оценками на каждом шаге показал себя гораздо лучше.
К этому, кстати, потом прикрутили DVTS (Diverse Verifier Tree Search). Это уже собственный наворот HF, в статье гугла такого нет. В отличие от стандартного beam search, который выбирает наиболее перспективные пути, DVTS разделяет начальные "лучи" на независимые поддеревья. Это прекрасно тем, что, в отличие от beam search на больших вычислительных бюджетах метод не вырождается в сильно похожие решения, а сохраняет некоторое разнообразие и скейлится, соответственно, лучше.
Итог: совсем крохотные модели типа Llama-1B и 3B дали на инференсе производительность, сопоставимую с Llama-3B и 70В соответственно! Это значит, что можно запускать локальные маленькие модели, а качество получать, как у больших, и это просто за счет оптимального масштабирования вычислений на инференсе.
Читать полностью здесь
В стартапе решили проверить, насколько масштабируем test-time compute. Когда выходила o1 и другие ризонинг-модели, мы все видели графики, которые показывали, что чем дольше модель "думает" во время инференса, тем больший скор выбивает (см. например, посты тут и тут с такими картинками). А будут ли такие результаты воспроизводиться на открытых предобученных моделях?
Оказывается, будут, да еще как. В HF в своем подходе исследователи базово пытались просто воссоздать подход из статьи DeepMind про Compute-Optimal Scaling. По названия ясно, что это подход пытается за счет увеличения вычислительных ресурсов в момент инференса повысить перформанс модели.
На практике это работает по принципу Search Against a Verifier: модель генерирует множество ответов, а финальные кандидаты выбираются с помощью другой модели – оценщика. В данном случае в качестве оценщика взяли Llama3.1-8B-PRM-Deepseek-Data, и оценивали рассуждения на каждом шаге, сразу отсекая ошибочные ветки. Обычный Majority Voting и Best-of-N тоже пробовали, но такой вот beam search с оценками на каждом шаге показал себя гораздо лучше.
К этому, кстати, потом прикрутили DVTS (Diverse Verifier Tree Search). Это уже собственный наворот HF, в статье гугла такого нет. В отличие от стандартного beam search, который выбирает наиболее перспективные пути, DVTS разделяет начальные "лучи" на независимые поддеревья. Это прекрасно тем, что, в отличие от beam search на больших вычислительных бюджетах метод не вырождается в сильно похожие решения, а сохраняет некоторое разнообразие и скейлится, соответственно, лучше.
Итог: совсем крохотные модели типа Llama-1B и 3B дали на инференсе производительность, сопоставимую с Llama-3B и 70В соответственно! Это значит, что можно запускать локальные маленькие модели, а качество получать, как у больших, и это просто за счет оптимального масштабирования вычислений на инференсе.
Читать полностью здесь
🔥94👍23❤🔥6❤4🤗2
В 10 из 12 дней своего адвент-календаря OpenAI показывают интеграцию ChatGPT в WatsApp и звонки
Прямо сейчас GPT можно добавить в контакты по номеру 1-800-242-84-78, позвонить ему (пока только США) или попереписываться с ним в WatsApp (любой регион)🤯
Работает даже с кнопочной нокии и допотопного телефона с колесиком. Повезло американским бабушкам
Прямо сейчас GPT можно добавить в контакты по номеру 1-800-242-84-78, позвонить ему (пока только США) или попереписываться с ним в WatsApp (любой регион)
Работает даже с кнопочной нокии и допотопного телефона с колесиком. Повезло американским бабушкам
Please open Telegram to view this post
VIEW IN TELEGRAM
😁69⚡18🗿9🤯4👍3
Там обновленная o1 появилась на Livebench и просто порвала всех
Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми.
Так вот с появлением на борде o1 Gemini Exp 1206, Sonnet 3.5 v2 и предыдущие o1-mini и o1-preview остаются позади с большим отрывом как на главном замере, так и на, конечно, ризонинге. Сравните: о1-preview демонстрирует 67%, и была раньше безусловным лидером, а у полной o1 насчитали… аж 91.58%!
В кодинге прирост тоже есть, но не такой невероятный. Предыдущим лидером был Claude-3.6 Sonnet с 67%. Теперь он уступает o1, но всего на 2.5 процентных пункта. А по математике в лидерах все еще Gemini. Кстати, обратите внимание, как у обеих Gemini резко растут метрики с появлением второго промпта с подсказкой (последний столбец IF).
Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми.
Так вот с появлением на борде o1 Gemini Exp 1206, Sonnet 3.5 v2 и предыдущие o1-mini и o1-preview остаются позади с большим отрывом как на главном замере, так и на, конечно, ризонинге. Сравните: о1-preview демонстрирует 67%, и была раньше безусловным лидером, а у полной o1 насчитали… аж 91.58%!
В кодинге прирост тоже есть, но не такой невероятный. Предыдущим лидером был Claude-3.6 Sonnet с 67%. Теперь он уступает o1, но всего на 2.5 процентных пункта. А по математике в лидерах все еще Gemini. Кстати, обратите внимание, как у обеих Gemini резко растут метрики с появлением второго промпта с подсказкой (последний столбец IF).
👍40🔥10😁6❤5