Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
517 - Telegram Web
Telegram Web
YC как и Alliance делится идеями в которые они хотят инвестировать в request for startups, и буквально сегодня они этот список обновили!

Очень увлекательное чтиво с ожидаемыми (МЛ для роботов, лекарство от рака, пространственные вычесления (AR)) и очень даже неожиданными напрявлениями (стейблы, climate tech (который уже все похоронили), оборонка (!), коммерческий опенсорс, внутренние энтерпрайз тулы). YC обычно знают о чем говорят, поэтому подумайте о тех идеях, которые сюда не вошли, и почему так.

Весь список с подробными комментариями по ссылкам:

1. Applying machine learning to robotics
2. Using machine learning to simulate the physical world
3. New defense technology
4. Bring manufacturing back to America
5. New space companies
6. Climate tech
7. Commercial open source companies
8. Spatial computing
9. New enterprise resource planning software (ERPs)
10. Developer tools inspired by existing internal tools
11. Explainable AI
12. LLMs for manual back office processes in legacy enterprises
13. AI to build enterprise software
14. Stablecoin finance
15. A way to end cancer
16. Foundation models for biological systems
17. The managed service organization model for healthcare
18. Eliminating middlemen in healthcare
19. Better enterprise glue
20. Small fine-tuned models as an alternative to giant generic ones
182 шутки про говно

Вот знаете, бывает настроение выдать кринжатины вам в чат. Сегодня я решил дать волю своим слабостям и пошалить. Держите анекдоты про говно.

Раз
Приходит Пятачек к Винни Пуху и спрашивает: 
— Винни, что ты ешь?
— Мед!
А чо он говном воняет?
— Я его второй раз ем!


Два
Едет мужик по деревне, развозит навоз.
Сгружает в одном из дворов.
Хозяйка, оценивая качество сырья, восхищаясь:
— Какой хороший у тебя однако навоз!
Мужик:
— Говна не возим!


Еще 180 для ценителей
💩14🔥5
Media is too big
VIEW IN TELEGRAM
OpenAI анонсировали свою text-to-video под названием Sora. На первый взгляд выглядит на порядок лучше существующих аналогов.

https://openai.com/sora
😱5🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Даже артефакты выглядят прикольно
😁9👍3
Разбираем Tech Report про OpenAI Sora

Раньше у text-to-video моделей возникала проблема с консистентностью кадров. Например, вы просите сгенерировать девушку с развивающимися волосами и, если повезет, получаете видео, где лицо плывет, волосинки телепортируются в пространстве, прическа в целом живет своей жизнью.

Вторая проблема заключалась в том, что модели могли генерировать короткие видео продолжительностью в несколько секунд и делали это в квадратном разрешении (условно 256х256).

Что предлагают ребята из OpenAI?

Видео разбиваем на патчи в пространстве-времени. Идея уходит корнями в Vision Transformer (ViT). Только здесь патчи скорее всего не просто 16x16 участки изображения, но стопки (тензоры) таких изображений для нескольких подряд идущих кадров.

Основную работу выполняет диффузионная модель, которая берет на вход случайный шум и итеративно превращает его в пространственно-временные патчи. Подробнее про диффузионные модели можете почитать здесь.

Видео в высоком разрешении весят много. Память в видеокартах ограничена. Поэтому модель использует Encoder, который сжимает видео в латентное пространство меньшей размерности, диффузия идет в нем, а дальше результат разжимается в привычные нам кадры с пикселями с помощью Decoder. Все точно также как в случае с VAE в Stable Diffusion.

Обучение идет не просто на видео, но на парах видео + текстовое описание. Причем описания апскейлятся с помощью GPT-4 по аналогии с тем, как это делалось в DALL-E 3. Вот мой пост с объяснением.

На выходе получается мощная нейросетка, которая умеет:
- генерировать видео по текстовому описанию
- дополнять видео (модель генерирует продолжение)
- превращать изображения в видео (т.к. изображение — это видео из 1 кадра)
- редактировать видео с помощью текстовых промптов. Например, изменять сеттинг (стиль)
- бесшовно склеивать видео. Вы подаете 2 ролика, а модель генерирует интерполяцию между ними

От OpenAI мало технических подробностей. Чтобы лучше понимать, как все работает, советую почитать статью Motion Diffusion Model (MDM)
👍8🔥2
Я уже думал он бессмертный и сможет вынести всё. Грустно...
😢23😭6😁2
Game Assistant

Пишу себе на досуге голосового помощника для игр. Идея простая, всегда приятнее играть в компании товарища-задрота, который может подсказать по игре. Типа заходишь такой в абилити драфт в дотке, спрашиваешь как работают скиллы после патча, что с чем закомбинить, а он тебе выдает имбу.

Прототип написал за пару присестов. Далеко ходить не стал, для распознавания речи использую Whisper, для ответов GPT, для синтеза речи OpenAI text-to-speech.

На бекенде в ChatGPT зарядил задачи по написанию конфигов для GCP, Docker, Nginx. Самому оставалось только апишку накидать, и даже здесь мне помогал Copilot, который явно лучше меня знает FastAPI.

На фронте позвал товарища, который написал апку на Overwolf — аналог Electron.js, только с фичами для игр типа оверлея и доступа к данным.

На выходе получилось приложение под Windows, которому можно задавать вопросы в играх по нажатию push-to-talk хоткея. Ответ возвращает голосом + субтитрами поверх игры.

Поигравшись с прототипом 5 минут, стали очевидны следующие шаги:

- GPT-4 тратит по 20 сек на генерацию ответа, что вообще не user friendly, потому что пользователь в это время тупо ждёт. Повод посмотреть че там новенького в open source
- LLM допускает ошибки, например выдает неправильный урон или поведение из прошлых патчей. Повод прикрутить поиск по игровым wiki
- OpenAI TTS на русском языке звучит кринжово. Благо есть куча стартапов на эту тему, надо будет посмотреть аналоги

Самое приятное во всей истории с AI, LLM, ко-ко-ко, что за выходные успеваешь и прототип сделать, и в дотку покатать, вместо того чтобы документацию штудировать.
👍5🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Will Smith зарофлил в тиктоке по поводу Sora и прогресса в text-to-video.
😁18👍2
Media is too big
VIEW IN TELEGRAM
Между делом совершаю подходы к YouTube. Уже начинает получаться что-то похожее на правду, хотя геморрой с производством пока что перевешивает🫠
🔥10👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Субботний контент 👻

На видео юный охотник за приведениями (со звуком). Между вылазками любит приходить ко мне на колени и долбить по клавиатуре, чиста Copilot.
Please open Telegram to view this post
VIEW IN TELEGRAM
7😁4🥰3👍1
Подрубаю рубрику "1 зритель". Код писать мне уже впадлу, поэтому буду играть в Dota 2.

Чат трансляции под этим постом.
2025/07/08 15:39:29
Back to Top
HTML Embed Code: