Дмитрий Савостьянов Вещает

Forwarded from MISTER SOSISTER ~ AI-NATIVE ERA

YC как и Alliance делится идеями в которые они хотят инвестировать в request for startups, и буквально сегодня они этот список обновили!

Очень увлекательное чтиво с ожидаемыми (МЛ для роботов, лекарство от рака, пространственные вычесления (AR)) и очень даже неожиданными напрявлениями (стейблы, climate tech (который уже все похоронили), оборонка (!), коммерческий опенсорс, внутренние энтерпрайз тулы). YC обычно знают о чем говорят, поэтому подумайте о тех идеях, которые сюда не вошли, и почему так.

Весь список с подробными комментариями по ссылкам:

1. Applying machine learning to robotics
2. Using machine learning to simulate the physical world
3. New defense technology
4. Bring manufacturing back to America
5. New space companies
6. Climate tech
7. Commercial open source companies
8. Spatial computing
9. New enterprise resource planning software (ERPs)
10. Developer tools inspired by existing internal tools
11. Explainable AI
12. LLMs for manual back office processes in legacy enterprises
13. AI to build enterprise software
14. Stablecoin finance
15. A way to end cancer
16. Foundation models for biological systems
17. The managed service organization model for healthcare
18. Eliminating middlemen in healthcare
19. Better enterprise glue
20. Small fine-tuned models as an alternative to giant generic ones

595 views22:06

182 шутки про говно

Вот знаете, бывает настроение выдать кринжатины вам в чат. Сегодня я решил дать волю своим слабостям и пошалить. Держите анекдоты про говно.

Раз

Приходит Пятачек к Винни Пуху и спрашивает: 
— Винни, что ты ешь?
— Мед!
А чо он говном воняет?
— Я его второй раз ем!

Два

Едет мужик по деревне, развозит навоз.
Сгружает в одном из дворов.
Хозяйка, оценивая качество сырья, восхищаясь:
— Какой хороший у тебя однако навоз!
Мужик: 
— Говна не возим!

Еще 180 для ценителей

💩14🔥5

700 views12:13

Дмитрий Савостьянов Вещает

0:08

Media is too big

VIEW IN TELEGRAM

OpenAI анонсировали свою text-to-video под названием Sora. На первый взгляд выглядит на порядок лучше существующих аналогов.

https://openai.com/sora

😱5🔥3

3.7K views18:57

Дмитрий Савостьянов Вещает

This media is not supported in your browser

VIEW IN TELEGRAM

Даже артефакты выглядят прикольно

😁9👍3

732 views19:15

Дмитрий Савостьянов Вещает

Разбираем Tech Report про OpenAI Sora

Раньше у text-to-video моделей возникала проблема с консистентностью кадров. Например, вы просите сгенерировать девушку с развивающимися волосами и, если повезет, получаете видео, где лицо плывет, волосинки телепортируются в пространстве, прическа в целом живет своей жизнью.

Вторая проблема заключалась в том, что модели могли генерировать короткие видео продолжительностью в несколько секунд и делали это в квадратном разрешении (условно 256х256).

Что предлагают ребята из OpenAI?

Видео разбиваем на патчи в пространстве-времени. Идея уходит корнями в Vision Transformer (ViT). Только здесь патчи скорее всего не просто 16x16 участки изображения, но стопки (тензоры) таких изображений для нескольких подряд идущих кадров.

Основную работу выполняет диффузионная модель, которая берет на вход случайный шум и итеративно превращает его в пространственно-временные патчи. Подробнее про диффузионные модели можете почитать здесь.

Видео в высоком разрешении весят много. Память в видеокартах ограничена. Поэтому модель использует Encoder, который сжимает видео в латентное пространство меньшей размерности, диффузия идет в нем, а дальше результат разжимается в привычные нам кадры с пикселями с помощью Decoder. Все точно также как в случае с VAE в Stable Diffusion.

Обучение идет не просто на видео, но на парах видео + текстовое описание. Причем описания апскейлятся с помощью GPT-4 по аналогии с тем, как это делалось в DALL-E 3. Вот мой пост с объяснением.

На выходе получается мощная нейросетка, которая умеет:
- генерировать видео по текстовому описанию
- дополнять видео (модель генерирует продолжение)
- превращать изображения в видео (т.к. изображение — это видео из 1 кадра)
- редактировать видео с помощью текстовых промптов. Например, изменять сеттинг (стиль)
- бесшовно склеивать видео. Вы подаете 2 ролика, а модель генерирует интерполяцию между ними

От OpenAI мало технических подробностей. Чтобы лучше понимать, как все работает, советую почитать статью Motion Diffusion Model (MDM)

👍8🔥2

954 viewsedited 08:14

Дмитрий Савостьянов Вещает

Я уже думал он бессмертный и сможет вынести всё. Грустно...

😢23😭6😁2

899 views12:54

Дмитрий Савостьянов Вещает