Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
5749 - Telegram Web
Telegram Web
Почему модели генерации видео развиваются так быстро, а с LLM столько проблем?

Если честно, я не вполне интуитивно понимаю, почему модели генерации видео так хороши (сложные, многосекундные текстуры высокого разрешения, отражения и все такое), в то время как LLM, условно говоря, до сих пор неуклюже справляются с текстом длиной около нескольких сотен слов. – написал сегодня в своем Твиттере Андрей Карпаты, вдохновленный, видимо, новой Veo-2.


На что один из инженеров Google, который сейчас работает в команде Gemini post-training, высказал пару очень интересных мыслей, в которые стоит вчитаться:

Во-первых, видео и фото содержат гораздо больше информации. За одну условную единицу компьюта из таких структур модель извлекает намного больше выводов, чем из текста, потому что текст последователен и линеен, а видео-контент семантически «более глубокий».

Во-вторых, для visual проще собрать качественные данные. В тексте мы ограничены объемами датасетов, и чтобы создать новые данные, требуется очень много сил и времени. А для видео и фото достаточно камеры и/или видеоигр, и вот у тебя уже есть почти неисчерпаемые ресурсы для обучения.

В-третьих, оценивать видео легко, и сделать это может любой человек, не являющийся экспертом. С текстом все сложнее, оценивать его дорого, а сами модели с такой задачей тоже пока что справляются не идеально.

В итоге выходит, что несмотря на то, что видео и фото интуитивно кажутся нам структурно более сложными, чем текст, на самом деле обучаться на них гораздо проще. Потому то мы и видим сейчас такой прогресс в генераторах, учитывая даже, что из развитие началось гораздо позже, чем развитие языковых моделей.
1🔥96👍3312🍓2
Забавный юзеркейс: у ChatGPT спросили, что он запомнил из всех обучающих данных и попросили обобщить это в одном предложении

Ответ получился в стиле идущего к реке:

Из огромного количества человеческого текста, который я потребил, я узнал, что то, что мы называем «пониманием», не является фиксированной конечной точкой или стабильным хранилищем фактов, а скорее постоянно отступающей фрактальной береговой линией выводов и переосмысления, где каждый новый контекст освещает более тонкие аспекты смысла, каждый аспект побуждает к дальнейшим связям, и, таким образом, понимание вечно расширяется и трансформируется, а не замирает, бросая вызов любой единичной, окончательной инкапсуляции.


А вам что отвечает?
167🔥47❤‍🔥11😁9👍7🗿4💯2🤯1
Еще одна прекрасная лекция с NeurlPS 2024, на этот раз от Джеффа Дина

Рассказывал много интересного про чипы и ИИ в Google, и даже дропнул целый список референсных статей ( от Гугл, конечно), которые посоветовал прочитать, чтобы «лучше понимать современную ИИ-разработку». Забирайте в удобном формате:

1. A Graph Placement Methodology for Fast Chip Design - https://arxiv.org/abs/2006.09423v1
2. In-datacenter Performance Analysis of a Tensor Processing Unit - https://dl.acm.org/doi/10.1145/3079856.3080245
3. Ten Lessons From Three Generations Shaped Google’s TPU-v4: Industrial Product - https://ieeexplore.ieee.org/document/9490913
4. Learning Semantic Representations to Verify Hardware Designs - http://openreview.net/pdf?id=ohHq4gJJe0
5. A Full-stack Accelerator Search Technique for Vision Applications - https://arxiv.org/abs/2103.12842v2
6. Rethinking Co-design of Neural Architectures and Hardware Accelerators - https://arxiv.org/abs/2102.08619
7. Placement Optimization with Deep Reinforcement Learning - https://dl.acm.org/doi/abs/10.1145/3372780.3378174
8. SmartChoices: Augmenting Software with Learned Implementations - https://arxiv.org/abs/2004.13053
9. Fast Inference from Transformers via Speculative Decoding - https://arxiv.org/abs/2211.17192
10. GAP: Generalizable Approximation for Graph Partitioning Framework - https://arxiv.org/abs/1904.00614
11. Combining Machine Learning and Lifetime-based Resource Management for Memory Allocation and Beyond - https://dl.acm.org/doi/10.1145/3611018
12. A Flexible Approach to Autotuning Multi-Pass Machine Learning Compilers - https://arxiv.org/abs/2106.06970
13. TeraMalloc: Efficient On-Chip Memory Allocation for Production Machine Learning Accelerators - https://dl.acm.org/doi/10.1145/3579555.3597991
14. A Reinforcement Learning Driven Heuristic Optimization Framework - https://arxiv.org/abs/1906.06639
15. GDP: Generalized Device Placement for Dataflow Graphs - https://arxiv.org/abs/1910.01578
16. A Hierarchical Model for Device Placement - https://arxiv.org/abs/1711.03254
17. Device Placement Optimization with Reinforcement Learning - https://arxiv.org/abs/1706.04792
18. That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design - https://arxiv.org/abs/2411.10053

Смотреть тут
🔥29👍168🤯4
Data Secrets
А пока Nvidia справляется с кризисам, а Хуанга вызывает на ковер Минюст США, давайте посмотрим, как в 2020 году он доставал из какой-то духовки и впервые показывал миру легендарную A100
This media is not supported in your browser
VIEW IN TELEGRAM
Дженсен Хуанг снова достает что-то из духовки: на этот раз это новенькая Jetson Nano Super от Nvidia!

Это только что представленная компанией видеокарта, оптимизированная под робототехнику и ИИ. Мощность – 70Т операций в секунду. Пропускная способность памяти – 102GB в секунду. 32 Tensor Cores. В релизе пишут, что чип ускоряет инференс моделек в 1.7 раз!

Стоить будет всего 249 долларов (почти как подписка OpenAI). По сравнению с оригинальным Jetson Nano это 53-кратное улучшение соотношения цены и вычислительных возможностей и 134-кратный рост производительности.

https://blogs.nvidia.com/blog/jetson-generative-ai-supercomputer/
🔥128👍1814🤯10😁3
Media is too big
VIEW IN TELEGRAM
9 день стримов OpenAI из 12: сегодня показывают много новых фичей API o1

➡️ В API o1 наконец-то завезли работу с изображениями, внутренние вызовы ассистентов (например, когда модели нужно что-то посчитать) и структурированные выводы в json

➡️ Более тонкая настройка следования инструкциям: можно определять developer промпты и задавать их "важность" относительно промптов юзера

➡️ Reasoning effords: теперь можно самостоятельно настраивать, сколько модель должна думать. Пожалуй, самая долгожданная фича

➡️ Также показали preference finetuning. Новый вид файнтюнинга, специально под пользовательские предпочтения в режиме датасета «хорошо-плохо». Пока доступно для GPT-4o, скоро обещают завезти в o1

А еще в Realtime API добавили WebRTC (кстати, цены на Realtime API снизили более чем вдвое), и прямо на стриме разработчики с помощью 50 строк кода и мини-чипа сделали говорящую игрушку северного оленя. Теперь OpenAI и прозводителей игрушек прижали?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4019😁5🔥4🤯2🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
Еще один потрясающий пример генерации новой Veo-2 от Google показали в X

Промпт: «Медведь, записавший решение уравнения 2x-1=0. Но только решение!»

Итог: модель действительно решила уравнение и нарисовала медведя с ответом. Поразительный, очень показательный кейс. Интересно было бы посмотреть, какая там LLM-предобработка перед отправлением в диффузию.
🔥134👍21❤‍🔥11
Давненько мы с вами базу генеративных моделей не вспоминали, к слову. Вот подборка статей со всей необходимой теорией и классическими архитектурами. Прочитайте – и всякая генерация изображений и видео будет понятнее:

➡️GAN - arxiv.org/pdf/1406.2661
➡️ VAE - arxiv.org/pdf/1312.6114
➡️ VQ VAE - arxiv.org/pdf/1711.00937
➡️ VQ VAE 2 - arxiv.org/pdf/1906.00446
➡️ Diffusion - arxiv.org/pdf/1503.03585
➡️ Denoising Diffusion - arxiv.org/pdf/2006.11239
➡️ Denoising Diffusion 2 - arxiv.org/pdf/2102.09672
➡️ Diffusion Beats GANs - arxiv.org/pdf/2105.05233
➡️ CLIP - arxiv.org/pdf/2103.00020
➡️ DALL E - arxiv.org/pdf/2102.12092
➡️ DALL E 2 - arxiv.org/pdf/2204.06125
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45🤯14🔥1110
Все мы немного Антон
😁122👍13💯124🫡1
В сообществе резонирует блогпост HuggingFace, в котором ресерчерам удалось заскейлить Llama 3B так, что она обогнала Llama 70B

В стартапе решили проверить, насколько масштабируем test-time compute. Когда выходила o1 и другие ризонинг-модели, мы все видели графики, которые показывали, что чем дольше модель "думает" во время инференса, тем больший скор выбивает (см. например, посты тут и тут с такими картинками). А будут ли такие результаты воспроизводиться на открытых предобученных моделях?

Оказывается, будут, да еще как. В HF в своем подходе исследователи базово пытались просто воссоздать подход из статьи DeepMind про Compute-Optimal Scaling. По названия ясно, что это подход пытается за счет увеличения вычислительных ресурсов в момент инференса повысить перформанс модели.

На практике это работает по принципу Search Against a Verifier: модель генерирует множество ответов, а финальные кандидаты выбираются с помощью другой модели – оценщика. В данном случае в качестве оценщика взяли Llama3.1-8B-PRM-Deepseek-Data, и оценивали рассуждения на каждом шаге, сразу отсекая ошибочные ветки. Обычный Majority Voting и Best-of-N тоже пробовали, но такой вот beam search с оценками на каждом шаге показал себя гораздо лучше.

К этому, кстати, потом прикрутили DVTS (Diverse Verifier Tree Search). Это уже собственный наворот HF, в статье гугла такого нет. В отличие от стандартного beam search, который выбирает наиболее перспективные пути, DVTS разделяет начальные "лучи" на независимые поддеревья. Это прекрасно тем, что, в отличие от beam search на больших вычислительных бюджетах метод не вырождается в сильно похожие решения, а сохраняет некоторое разнообразие и скейлится, соответственно, лучше.

Итог: совсем крохотные модели типа Llama-1B и 3B дали на инференсе производительность, сопоставимую с Llama-3B и 70В соответственно! Это значит, что можно запускать локальные маленькие модели, а качество получать, как у больших, и это просто за счет оптимального масштабирования вычислений на инференсе.

Читать полностью здесь
🔥94👍23❤‍🔥64🤗2
В 10 из 12 дней своего адвент-календаря OpenAI показывают интеграцию ChatGPT в WatsApp и звонки

Прямо сейчас GPT можно добавить в контакты по номеру 1-800-242-84-78, позвонить ему (пока только США) или попереписываться с ним в WatsApp (любой регион) 🤯

Работает даже с кнопочной нокии и допотопного телефона с колесиком. Повезло американским бабушкам
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6918🗿9🤯4👍3
Все бабушки страны, скоро:
😁107🔥20👍75🤯5❤‍🔥3
Там обновленная o1 появилась на Livebench и просто порвала всех

Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми.

Так вот с появлением на борде o1 Gemini Exp 1206, Sonnet 3.5 v2 и предыдущие o1-mini и o1-preview остаются позади с большим отрывом как на главном замере, так и на, конечно, ризонинге. Сравните: о1-preview демонстрирует 67%, и была раньше безусловным лидером, а у полной o1 насчитали… аж 91.58%!

В кодинге прирост тоже есть, но не такой невероятный. Предыдущим лидером был Claude-3.6 Sonnet с 67%. Теперь он уступает o1, но всего на 2.5 процентных пункта. А по математике в лидерах все еще Gemini. Кстати, обратите внимание, как у обеих Gemini резко растут метрики с появлением второго промпта с подсказкой (последний столбец IF).
👍40🔥10😁65
2025/07/09 11:00:12
Back to Top
HTML Embed Code: