Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
627 - Telegram Web
Telegram Web
Сегодня мы с мужиками выкатили в бету uthana.com — AI для анимирования персонажей.

Работает так:
1. Загружаете своего персонажа с произвольным скелетом
2. Вводите промпт в text-to-motion
3. Скачиваете fbx / glb к себе в Maya / движок и кайфуете

Сверху приделали video-to-motion, animation looping и даже keyword search по датасету на случай, когда AI не вывозит.

В этом году планируем докатить in-betweening (inpainting-редактирование по времени и суставам) и прототип real-time генерации с упором на locomotion в разных стилях, который можно будет дергать из игрового движка.

Видео
Анонс раунда (a16z, $4.3M)
Сайт
🔥17
This media is not supported in your browser
VIEW IN TELEGRAM
Microsoft представила Copilot для видеоигр

Инструмент на базе генеративного искусственного интеллекта Copilot for Gaming будет помогать пользователям Xbox скачивать и проходить игры.

Microsoft заявляет, что Copilot for Gaming сможет анализировать действия игрока в играх, находить ошибки и советовать, как их исправить.

Тестирование начнется в апреле с приложения для мобильных устройств.

https://www.theverge.com/news/628666/microsoft-xbox-copilot-for-gaming
3🤪2
Подкаст про GenAI в анимации

Сходил к мужикам, рассказал про анимации в играх и как их можно генерировать с помощью нейросетей.

Краткое содержание:

- Первые 20 минут можно смело пропустить — там каша.
- С 20-й по 60-ю минуту: что такое анимации и как они устроены.
- На 59-й минуте: почему AI в анимации — это круто (спойлер: SOTA на 1 GPU).
- После 60-й минуты — разговор про нейросетки: VQVAE + LLM, диффузии, real-time и прочее.

Советую слушать на x1.5+

https://devzen.ru/episode-492/
👍6
Сгорел.

Фотография сделана в марте 2018. Я прожил в Москве до 22 лет. Март ассоциируется у меня с подвохом, когда в 20-х числах может выпасть метр снега. Вильнюс в этом плане не сильно лучше.

Так вот, сегодня я поехал кататься на велосипеде по Ирвайну и сгорел на солнце за 2 часа. В марте…

Начинает проявляться обратная сторона Калифорнии, к которой жизнь меня не готовила.
😱3❤‍🔥2🌚2
Неделю искал баг

Работаю над нейросетью, которая сможет генерировать анимации в реальном времени в игровом движке в разных стилях.

Обучаю, запускаю, вижу jitter — дрожание в суставах. Персонаж в общих чертах выполняет анимацию, но все суставы дрожат, root дергается, выглядит сомнительно.

Под капотом диффузия, которая генерирует движения из шума. Сначала уповал на нее, перечитал статьи вдоль и поперек, от руки сделал все выкладки, написал тесты, вроде все работает.

Далее крутил loss, прикрутил jerk — 3-ю производную по времени. Улучшений нет.

Зашел с другой стороны, накинул аугментаций в DataLoader со сглаживанием траектории root и вращений. Оверфитил на одном сэмпле, учил на датасетах разных размеров, ничего не помогает.

В конечном счете решил, что да и хуй с ним, потом вернусь к проблеме. Экспортнул в ONNX, прогоняю тестовый инференс, работает идеально, никакого jitter.

Угадайте в чем была ошибка…
61
Про Cursor и Vibe Coding

Сейчас среди разработчиков царят те же настроения, что два года назад охватили художников после выхода Stable Diffusion.

Есть два лагеря: одни отрицают и плюются, другие активно используют AI. Я определённо во втором лагере и в восторге от прогресса, но без нюансов не обошлось.

Cursor — это форк VSCode, где разработчики основательно поработали над качеством автодополнения (tab) и встроили чат, который отлично работает с кодом. К слову, это самый быстрорастущий стартап в истории — что-то около $200M ARR всего за год-два.

Наибольший буст я ощущаю там, где у меня меньше экспертизы — в задачах, связанных с фронтендом. За последний месяц сделал нативное macOS-приложение на Swift, несколько веб-сервисов для личных нужд, закрыл пару фронтенд-фичей на работе. Без Cursor даже не стал бы за это браться. Часто использую чат в формате vibe coding — прошу продумать архитектуру, предложить тесты, только потом перехожу к коду. Активно юзаю git, не стесняюсь дропать итерации, на которые потратил до 10 минут и начинать заново.

Когда же работаю над ML-задачами, особенно при воспроизведении статей, чаще пишу маленькие куски в Jupyter вообще без автокомплита (может и зря, судя по прошлому посту). Смотрю глазами на промежуточные тензоры, подключаю визуализации — и только потом переношу в основной репозиторий. Тем не менее, Cursor ускоряет работу и здесь — Tab-комплит работает куда лучше GitHub Copilot, особенно в связке с mypy. Но по продуктивности всё равно не дотягивает до вайб-говнокодинга фронта.

В целом, производительность выросла на порядок. Могу пилить полноценные прототипы сервисов в соло — раньше для этого требовалась команда из 2-3 человек. Освободилось больше времени на математику и литкод, что в перспективе бустит карьеру.

В краткосрочной перспективе — сплошные плюсы. В долгосрочной — возможно, придётся больше работать ртом 😏
💯12🔥311👍1🤝1
Квантовый компьютер

В последнее время всё чаще слышу про квантовые компьютеры. Microsoft активно продвигают идею топологического кубита. Дженсен (CEO Nvidia) организовал двухчасовую панель на GTC, целиком посвящённую квантовым вычислениям.

Дополнительная мотивация:
- где-то когда-то слышал, что квантовые компьютеры могут быстрее минимизировать функции — а значит, ускорять обучение нейросетей;
- вроде при достаточно большом числе кубитов можно быстро раскладывать большие числа на простые множители, ломать классическую криптографию, подписывать транзакции — наводить суету и балдеть.

На фоне всего этого хайпа появилось желание хотя бы немного разобраться в теме.

А сегодня 3Blue1Brown как будто под заказ выпустил видео, где на примере алгоритма Грувера объясняет базовую идею квантовых вычислений. Мне так зашло, что даже решил поделиться своими заметками.
9
Text-To-Speech

Работаю над проектом, где надо было сравнить различные модели и сервисы для генерации речи по тексту. Интересным открытием стала open source нейросеть Kokoro. В ней всего 82М параметров, при этом она входит в топ-10 TTS Arena и выдает солидное качество.

На выходных расчехлил cursor и под пивас накидал библиотеку, чтобы можно было через единый интерфейс тестировать разных провайдеров. Выложил в открытый доступ, может кому-нибудь пригодится.

Проще всего попробовать в Colab.
Код: https://github.com/arch1baald/utts

pip install utts
🔥13
Посмотрел на днях подкаст с CEO Cursor. Он рассказывал, что изначально компания делала продукт для mechanical engineering. Затем они пивотнулись в инструмент для кодинга, вдохновившись GitHub Copilot. Причём сначала пытались писать свою IDE с нуля, и только после второго пивота решили сделать форк VSCode.

Ответ на вопрос о конкурентных преимуществах не особо впечатлил: ставка на кастомные модели, команду и то, что они смогут деливерить быстрее и лучше всех.

Пару дней назад OpenAI купили Windsurf за $3B. Google и Meta явно делают подобные инструменты внутри. Интересно, останется ли Cursor в нашей жизни через 2–3 года — или канет в небытие.

https://youtu.be/En5cSXgGvZM?si=a5n8VGplxH5RtXbm
👌2
В Штатах у всех есть личные сайты.

В рунете разработчики пишут статьи на Хабр и приземляют трафик в свои телеграм-каналы. Дальше телега начинает расти за счёт репостов, а с какого-то момента можно уже запускать коллаборации.

В США я пока не до конца разобрался, но складывается ощущение, что там разработчики публикуют статьи на своих персональных блогах, кидают ссылки на Hacker News и Reddit, а потом приземляют трафик в email-рассылки, Twitter и LinkedIn.

Короче, я решил тоже завести сайт. А чтобы было совсем трушно — писать его самостоятельно. На заре карьеры опытные линуксоиды говорили мне: «Хочешь распечатать документ — напиши драйвер для принтера». Теперь вспоминаю эту фразу каждый раз, когда оказывается, что мне нужно реализовать базовую фичу: превью картинок, воспроизведение медиа в статье, поддержку формул, которые в условном Notion доступны из коробки.

Иногда закрадывается мысль, что вместо создания контента, я имитирую бурную деятельность, зато с полным контролем над кодом!
😁11
Forwarded from эйай ньюз
Veo 3 — новая лучша модель для генерации видео

Похоже, новая SOTA для видео. Кроме видео может генерить ещё и звуки, в том числе и диалоги! Все видосы в посте были сгенерены чисто через Veo 3. Будет доступна уже сегодня.

@ai_newz
🔥6
$6B на устройства от Джони Айва + $3B на windsurf для кода. Такое ощущение, что Альтман, отказавшись от идеи коммерциализации OpenAI, включил режим “бабки — не проблема”
🤣8
OpenAI купила компанию Джони Айва за $6.5 миллиардов

Сэм Альтман и ключевой дизайнер Apple Джони Айв представили компанию io, приобретенную OpenAI.

Io создает новые устройства для взаимодействия с искусственным интеллектом. Первый продукт может быть представлен публике в 2026 году.

https://www.wsj.com/tech/ai/former-apple-design-guru-jony-ive-to-take-expansive-role-at-openai-5787f7da
Купил себе новую игрушку — очки Meta & Ray Ban. Теперь могу фотографировать глазами. Из интересного, они выводят звук куда-то над ухом и это неплохо работает. Внутри есть Meta AI, пытаюсь попросить его позвонить ChatGPT, но пока не выходит. Приходится тыкать руками.
🔥62👀1
2025/07/08 15:39:31
Back to Top
HTML Embed Code: