Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24😁13
ChatGPT с нуля
🔥 Нашел крутейший репозиторий для тех, кто хочет разобраться в устройстве больших языковых моделей!
Sebastian Raschka выпустил книгу и репозиторий "Build a Large Language Model (From Scratch)", где показывает, как создать свою LLM с нуля. И это не просто теория - здесь полностью рабочий код!
Что особенно крутого:
- Пошаговое объяснение всех компонентов (от обработки текста до механизмов внимания)
- Практическая реализация GPT-подобной модели
- Код для предварительного обучения и файнтюнинга
- Работает даже на обычном ноутбуке без специального железа 🚀
В репозитории есть:
▫️ Jupyter-ноутбуки с подробными объяснениями
▫️ Готовые скрипты для обучения
▫️ Бонусные материалы (оптимизация, UI, эксперименты)
▫️ Примеры решения упражнений
Все объясняется максимально понятно, с диаграммами и примерами.
Для тех, кто давно хотел разобраться, как работают LLM изнутри - это просто находка!
🖥 Ссылка на репозиторий
🔥 Нашел крутейший репозиторий для тех, кто хочет разобраться в устройстве больших языковых моделей!
Sebastian Raschka выпустил книгу и репозиторий "Build a Large Language Model (From Scratch)", где показывает, как создать свою LLM с нуля. И это не просто теория - здесь полностью рабочий код!
Что особенно крутого:
- Пошаговое объяснение всех компонентов (от обработки текста до механизмов внимания)
- Практическая реализация GPT-подобной модели
- Код для предварительного обучения и файнтюнинга
- Работает даже на обычном ноутбуке без специального железа 🚀
В репозитории есть:
▫️ Jupyter-ноутбуки с подробными объяснениями
▫️ Готовые скрипты для обучения
▫️ Бонусные материалы (оптимизация, UI, эксперименты)
▫️ Примеры решения упражнений
Все объясняется максимально понятно, с диаграммами и примерами.
Для тех, кто давно хотел разобраться, как работают LLM изнутри - это просто находка!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤43👍17🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Oasis - целая вселенная в модели- трансформере!
Встречаем Oasis - первую открытую игровую модель, работающую в реальном времени!
Это видеоигра полностью создаваемая ИИ "на лету". Oasis принимает ввод данных с клавиатуры пользователя и генерирует игровой процесс в реальном времени, включая физику, правила игры и графику. Вы можете передвигаться, прыгать, подбирать предметы, разбивать блоки и многое другое. И все это без игрового движка, только базовая модель! 🔮
Модель понимает сложные игровые механики, такие как строительство, физика освещения, управление инвентарем, понимание объектов и многое другое.
Oasis генерирует разнообразный набор состояний, локаций и объектов. Эта универсальность дает разработчикам уверенность в том, что модель можно будет адаптировать для создания различных новых карт, игр, функций и модификаций с минимальным дообучением.
Модель состоит из двух частей: пространственного автокодировщика и латентной диффузионной модели. Обе основаны на Трансформерах: автокодировщик основан на ViT, а диффузионная модель— на DiT. В отличие от последних моделей окружающего, таких как GameNGen и DIAMOND, разработчики выбрали трансформеры, чтобы обеспечить стабильное, предсказуемое масштабирование и полную совместимость с передовым оборудованием.
В отличие от двунаправленных моделей, таких как Sora, Oasis генерирует кадры авторегрессивно, что позволяет пользователям взаимодействовать с окружающим миром в реальном времени. 👾
Инновационное динамическое шумоподавление помогает модели поддерживать временную стабильность и минимизировать накопление ошибок, улучшая согласованность кадров. Это позволяет Oasis генерировать видео с частотой 20 кадров в секунду, что значительно превышает производительность современных генерационых моделей текст-видео.
Однако, чтобы сделать модель еще на порядок быстрее и сделать ее экономически эффективной для масштабирования, необходимо новое оборудование, так как сегодняшний пик видео разрешения это 360p на H100 GPUs. Oasis оптимизирован для Sohu, Transformer ASIC, разрабатываемого Etched. Sohu может масштабироваться до массивных моделей следующего поколения 100B+ в разрешении 4K.
Кроме того, сквозная архитектура Oasis делает ее чрезвычайно эффективной на Sohu, который может обслуживать >10x больше пользователей даже на моделях с параметрами 100B+ по сравнению с H100 GPU. 👀
📝 Etched блог
📜 Tech Report
📰 Decart блог
👨💻 Git
🤗 Weights
🕹️ Демо
Встречаем Oasis - первую открытую игровую модель, работающую в реальном времени!
Это видеоигра полностью создаваемая ИИ "на лету". Oasis принимает ввод данных с клавиатуры пользователя и генерирует игровой процесс в реальном времени, включая физику, правила игры и графику. Вы можете передвигаться, прыгать, подбирать предметы, разбивать блоки и многое другое. И все это без игрового движка, только базовая модель! 🔮
Модель понимает сложные игровые механики, такие как строительство, физика освещения, управление инвентарем, понимание объектов и многое другое.
Oasis генерирует разнообразный набор состояний, локаций и объектов. Эта универсальность дает разработчикам уверенность в том, что модель можно будет адаптировать для создания различных новых карт, игр, функций и модификаций с минимальным дообучением.
Модель состоит из двух частей: пространственного автокодировщика и латентной диффузионной модели. Обе основаны на Трансформерах: автокодировщик основан на ViT, а диффузионная модель— на DiT. В отличие от последних моделей окружающего, таких как GameNGen и DIAMOND, разработчики выбрали трансформеры, чтобы обеспечить стабильное, предсказуемое масштабирование и полную совместимость с передовым оборудованием.
В отличие от двунаправленных моделей, таких как Sora, Oasis генерирует кадры авторегрессивно, что позволяет пользователям взаимодействовать с окружающим миром в реальном времени. 👾
Инновационное динамическое шумоподавление помогает модели поддерживать временную стабильность и минимизировать накопление ошибок, улучшая согласованность кадров. Это позволяет Oasis генерировать видео с частотой 20 кадров в секунду, что значительно превышает производительность современных генерационых моделей текст-видео.
Однако, чтобы сделать модель еще на порядок быстрее и сделать ее экономически эффективной для масштабирования, необходимо новое оборудование, так как сегодняшний пик видео разрешения это 360p на H100 GPUs. Oasis оптимизирован для Sohu, Transformer ASIC, разрабатываемого Etched. Sohu может масштабироваться до массивных моделей следующего поколения 100B+ в разрешении 4K.
Кроме того, сквозная архитектура Oasis делает ее чрезвычайно эффективной на Sohu, который может обслуживать >10x больше пользователей даже на моделях с параметрами 100B+ по сравнению с H100 GPU. 👀
📝 Etched блог
📜 Tech Report
📰 Decart блог
🕹️ Демо
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥16❤3🤯3😐2
EMMA — универсальный мультимодальный автопилот на базе языковой модели
Waymo создали систему, которая использует всю мощь LLM, чтобы “думать” о ситуации на дороге как человек. Это EMMA - мультимодальная модель автономного вождения на основе Gemini от Google.
Главное новшество EMMA - объединение всех задач автопилота (планирование траектории, 3D-объектное распознавание и понимание дорожной обстановки) в единую текстовую форму, чтобы использовать большую языковую модель и эффективно решать задачи, связанные с восприятием мира и планированием действий.
По технической части расклад такой:
1. End-to-end планирование траектории.
Сквозной подход EMMA имитирует поведение человека за рулем с особым вниманием на два критических аспекта: использование навигационных систем (например, Google Maps) для планирования маршрута, и использование данных о прошлых событиях для плавного, последовательного вождения.
EMMA принимает на вход непосредственно данные от видеокамер (пока без LiDAR и радаров), высокоуровневые командные инструкции от навигационной системы (типа “следуйте прямо”, “поверните направо”), метки автомобиля в формате “вида сверху” (Bird’s Eye View, BEV), и генерит будущие траектории в виде набора точек маршрута в тех же форматах.
И все это - без необходимости в ручной разметке данных .
2. Иерархическое обоснование решений (Chain-of-Thought).
Та самая техника CoT и тут улучшает решения модели, разделяя их на несколько уровней:
• R1: Описание сцены (освещение, погода, дорожные условия);
• R2: Критические объекты (пешеходы, автомобили с указанием их 3D координат);
• R3: Описание поведения объектов (например, «пешеход на обочине, возможно, собирается перейти дорогу»);
• R4: Общие решения по вождению (например, «следует сохранять низкую скорость») .
Модель предсказывает все четыре компонента обоснования вождения, перед тем как выдать будущие точки маршрута
3. Совместное обучение нескольких задач (Co-Training).
Создатели EMMA фокусиравались на трех основных задачах: сквозном планировании, обнаружении 3D-объектов и оценке дорожного графа (это дорожные объекты и связи меджу ними).
Совместное обучение по всем трем задачам дает значительные улучшения (до 5,5% по сравнению с однозадачными моделями). Любопытно, что при совместном обучении двух задач определенные комбинации более эффективны, чем другие. Например, и эффективность обнаружения, и оценки дорожного графа улучшается больше всего при совместном обучении с вождением.
Мне это напоминает человеческе способности - когда вы видите велосипедиста и краем уха слышите приблидающиеся к вам звуки, ваш мозг быстро всё связывает и понимает: кто-то сейчас промчится перед вами. Вот и модели взаимная информации идет на пользу: оценка дорожной обстановки и распознавание объектов улучшают планирование траектории, а это, в свою очередь, улучшает общее поведение модели на дороге.
Есть и минусы. Хотя EMMA демонстрирует многообещающие результаты и выполняет сразу несколько задач в одном языковом пространстве, она все еще находится на ранней стадии с ограничениями по развертыванию в прод. Она требует доработки для работы с более длительными видеопоследовательностями (сейчас работает всего на 4х кадрах) и для обработки данных от LiDAR-ов, а еще она вычислительно кусаче-дорогая. Но сам переход в мультимодальность для автономного вождения выглядит очень разумно.
Надо бы включить в co-training задачи инференса бесценных историй из жизни, анекдотов и отменных плейлистов с бортов такси. Стопроц это даст еще больший прирост производительности.
📖Статья Waymo
Waymo создали систему, которая использует всю мощь LLM, чтобы “думать” о ситуации на дороге как человек. Это EMMA - мультимодальная модель автономного вождения на основе Gemini от Google.
Главное новшество EMMA - объединение всех задач автопилота (планирование траектории, 3D-объектное распознавание и понимание дорожной обстановки) в единую текстовую форму, чтобы использовать большую языковую модель и эффективно решать задачи, связанные с восприятием мира и планированием действий.
По технической части расклад такой:
1. End-to-end планирование траектории.
Сквозной подход EMMA имитирует поведение человека за рулем с особым вниманием на два критических аспекта: использование навигационных систем (например, Google Maps) для планирования маршрута, и использование данных о прошлых событиях для плавного, последовательного вождения.
EMMA принимает на вход непосредственно данные от видеокамер (пока без LiDAR и радаров), высокоуровневые командные инструкции от навигационной системы (типа “следуйте прямо”, “поверните направо”), метки автомобиля в формате “вида сверху” (Bird’s Eye View, BEV), и генерит будущие траектории в виде набора точек маршрута в тех же форматах.
И все это - без необходимости в ручной разметке данных .
2. Иерархическое обоснование решений (Chain-of-Thought).
Та самая техника CoT и тут улучшает решения модели, разделяя их на несколько уровней:
• R1: Описание сцены (освещение, погода, дорожные условия);
• R2: Критические объекты (пешеходы, автомобили с указанием их 3D координат);
• R3: Описание поведения объектов (например, «пешеход на обочине, возможно, собирается перейти дорогу»);
• R4: Общие решения по вождению (например, «следует сохранять низкую скорость») .
Модель предсказывает все четыре компонента обоснования вождения, перед тем как выдать будущие точки маршрута
3. Совместное обучение нескольких задач (Co-Training).
Создатели EMMA фокусиравались на трех основных задачах: сквозном планировании, обнаружении 3D-объектов и оценке дорожного графа (это дорожные объекты и связи меджу ними).
Совместное обучение по всем трем задачам дает значительные улучшения (до 5,5% по сравнению с однозадачными моделями). Любопытно, что при совместном обучении двух задач определенные комбинации более эффективны, чем другие. Например, и эффективность обнаружения, и оценки дорожного графа улучшается больше всего при совместном обучении с вождением.
Мне это напоминает человеческе способности - когда вы видите велосипедиста и краем уха слышите приблидающиеся к вам звуки, ваш мозг быстро всё связывает и понимает: кто-то сейчас промчится перед вами. Вот и модели взаимная информации идет на пользу: оценка дорожной обстановки и распознавание объектов улучшают планирование траектории, а это, в свою очередь, улучшает общее поведение модели на дороге.
Есть и минусы. Хотя EMMA демонстрирует многообещающие результаты и выполняет сразу несколько задач в одном языковом пространстве, она все еще находится на ранней стадии с ограничениями по развертыванию в прод. Она требует доработки для работы с более длительными видеопоследовательностями (сейчас работает всего на 4х кадрах) и для обработки данных от LiDAR-ов, а еще она вычислительно кусаче-дорогая. Но сам переход в мультимодальность для автономного вождения выглядит очень разумно.
Надо бы включить в co-training задачи инференса бесценных историй из жизни, анекдотов и отменных плейлистов с бортов такси. Стопроц это даст еще больший прирост производительности.
📖Статья Waymo
🔥10👍7❤4
Как добавить платежи в AI-агентов с помощью Stripe
Походит к концу мой первый месяц в Страйпе, и про это я напишу отдельно. А пока, hot of the press, расскажу вам про нашу новинку.
Представьте, что у вас есть умный цифровой помощник, который может не только отвечать на вопросы, но и выполнять реальные действия. Например, вы пишете: "Найди билет из Нью-Йорка в Сан-Франциско за 500 долларов", и AI-агент:
1. Понимает ваш запрос и выделяет важные детали
2. Ищет подходящие варианты
3. Показывает вам лучшие предложения
4. И теперь — может даже купить билет!
Stripe выпустил специальный набор инструментов (Agent Toolkit), который работает с популярными AI-фреймворками:
- Vercel AI SDK
- LangChain
- CrewAI
Что это даёт вашему AI-агенту:
- Возможность создавать платежные ссылки
- Выставлять счета клиентам
- Генерировать виртуальные карты для покупок
- Отслеживать все финансовые операции
Пример кода для выставления счета:
Что может делать AI-агент с платежами:
🛍️ Умный шоппинг
- Поиск товаров по вашим критериям
- Сравнение цен
- Безопасная оплата через виртуальные карты
- Контроль бюджета
💼 Бизнес-операции
- Автоматическое выставление счетов
- Отслеживание платежей
- Управление подписками
- Контроль расходов
Stripe Agent Toolkit — это мост между AI и реальными финансовыми операциями. Теперь ваши AI-агенты могут не только думать, но и действовать с деньгами — безопасно и эффективно.
Пробуйте и делитесь фидбеком! Все передам ответственной команде
🐸 Блог-пост
🦾 Agent Toolkit документация
🖥 Git
Походит к концу мой первый месяц в Страйпе, и про это я напишу отдельно. А пока, hot of the press, расскажу вам про нашу новинку.
Представьте, что у вас есть умный цифровой помощник, который может не только отвечать на вопросы, но и выполнять реальные действия. Например, вы пишете: "Найди билет из Нью-Йорка в Сан-Франциско за 500 долларов", и AI-агент:
1. Понимает ваш запрос и выделяет важные детали
2. Ищет подходящие варианты
3. Показывает вам лучшие предложения
4. И теперь — может даже купить билет!
Stripe выпустил специальный набор инструментов (Agent Toolkit), который работает с популярными AI-фреймворками:
- Vercel AI SDK
- LangChain
- CrewAI
Что это даёт вашему AI-агенту:
- Возможность создавать платежные ссылки
- Выставлять счета клиентам
- Генерировать виртуальные карты для покупок
- Отслеживать все финансовые операции
Пример кода для выставления счета:
from stripe_agent_toolkit import StripeAgentToolkit
# Подключаем Stripe к агенту
toolkit = StripeAgentToolkit(
secret_key="sk_test_123",
configuration={
"actions": {
"invoices": {"create": True},
"customers": {"create": True}
}
}
)
# Теперь агент может выставлять счета
agent.invoke("Выставить счет клиенту example@mail.com на $100")
Что может делать AI-агент с платежами:
🛍️ Умный шоппинг
- Поиск товаров по вашим критериям
- Сравнение цен
- Безопасная оплата через виртуальные карты
- Контроль бюджета
💼 Бизнес-операции
- Автоматическое выставление счетов
- Отслеживание платежей
- Управление подписками
- Контроль расходов
Stripe Agent Toolkit — это мост между AI и реальными финансовыми операциями. Теперь ваши AI-агенты могут не только думать, но и действовать с деньгами — безопасно и эффективно.
Пробуйте и делитесь фидбеком! Все передам ответственной команде
🐸 Блог-пост
🦾 Agent Toolkit документация
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍12😁5❤2
Новые возможности файн-тюнинга с Orca-AgentInstruct-1M-v1
Компания Microsoft выпустила датасет с 1 миллионом примеров выполнения инструкций для исследований и обучения продвинутых ИИ-агентов.
Инструкции применимы ко многим областям, например редактирование текста, описание, код, понимание прочитанного и т. д. - с разрешительной лицензией.
Датасет можно использовать для файнтюнинга любой базовой LLM.
🤗 Датасет
👾 Блог
Компания Microsoft выпустила датасет с 1 миллионом примеров выполнения инструкций для исследований и обучения продвинутых ИИ-агентов.
Инструкции применимы ко многим областям, например редактирование текста, описание, код, понимание прочитанного и т. д. - с разрешительной лицензией.
Датасет можно использовать для файнтюнинга любой базовой LLM.
👾 Блог
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🔥10👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🛍️ Теперь в Perplexity можно не только искать, но и покупать!
Perplexity сделали новый шаг к тому, чтобы AI-ассистенты стали настоящими помощниками. С помощью Stripe Agent Toolkit, интегрированного в подписку Pro, теперь можно совершать покупки прямо из чата.
💡 Как это работает?
1️⃣ Вы задаёте сложный запрос, например: “Что купить для вечеринки в стиле диско?”.
2️⃣ Perplexity не только находит ответ, но и предлагает товары в удобных карточках с подробными описаниями, отзывами и ценами.
3️⃣ Вы выбираете нужное, и покупка завершается автоматически — всего в один клик, без лишних шагов!
📦 Buy with Pro
Пользователи Perplexity Pro в США получают уникальный опыт: бесплатную доставку и автоматизированный процесс оформления. Вы просто указываете данные доставки, а Perplexity с помощью Stripe берёт всю рутину на себя.
📸 Snap to Shop
Есть фото вещи, которую хотите найти? Загрузите её в Perplexity, и AI подскажет, где её можно купить, даже если вы ничего о ней не знаете.
🤝 Партнёрство с Shopify
Perplexity подключил товары и магазины Shopify, добавив поддержку безопасных покупок через Shop Pay.
🎯 Почему это круто?
Perplexity Shopping — это больше, чем просто поиск. Это решение задач, которые раньше отнимали часы: поиск подходящих товаров, сравнение вариантов, оформление покупки. А теперь всё это занимает считаные минуты.
🌍 Пока функция доступна только в США, но команда активно работает над международным запуском.
Полагаю, что одними Perplexity дело не ограничится. Возможность покупать напрямую из чата придется по вкусу многим покупателям, а значит следует ожидать что и другие чаты с функцией онлайн поиска скоро подтянутся.
X
Perplexity сделали новый шаг к тому, чтобы AI-ассистенты стали настоящими помощниками. С помощью Stripe Agent Toolkit, интегрированного в подписку Pro, теперь можно совершать покупки прямо из чата.
💡 Как это работает?
1️⃣ Вы задаёте сложный запрос, например: “Что купить для вечеринки в стиле диско?”.
2️⃣ Perplexity не только находит ответ, но и предлагает товары в удобных карточках с подробными описаниями, отзывами и ценами.
3️⃣ Вы выбираете нужное, и покупка завершается автоматически — всего в один клик, без лишних шагов!
📦 Buy with Pro
Пользователи Perplexity Pro в США получают уникальный опыт: бесплатную доставку и автоматизированный процесс оформления. Вы просто указываете данные доставки, а Perplexity с помощью Stripe берёт всю рутину на себя.
📸 Snap to Shop
Есть фото вещи, которую хотите найти? Загрузите её в Perplexity, и AI подскажет, где её можно купить, даже если вы ничего о ней не знаете.
🤝 Партнёрство с Shopify
Perplexity подключил товары и магазины Shopify, добавив поддержку безопасных покупок через Shop Pay.
🎯 Почему это круто?
Perplexity Shopping — это больше, чем просто поиск. Это решение задач, которые раньше отнимали часы: поиск подходящих товаров, сравнение вариантов, оформление покупки. А теперь всё это занимает считаные минуты.
🌍 Пока функция доступна только в США, но команда активно работает над международным запуском.
Полагаю, что одними Perplexity дело не ограничится. Возможность покупать напрямую из чата придется по вкусу многим покупателям, а значит следует ожидать что и другие чаты с функцией онлайн поиска скоро подтянутся.
X
🔥26❤4👍2
🛠 2024: Год, когда AI стал необходимостью для бизнеса
2024 — это момент, когда компании перестали экспериментировать с генеративным AI и начали встраивать его в основу своей работы. Давайте разберем сегодняшний отчет от Menlo Ventures (одного из главных инвесторов Anthropic).
Бюджеты говорят сами за себя: расходы на AI выросли до $13,8 млрд, что в 6 раз больше, чем в 2023 году.
💡 Почему это важно?
Теперь AI — это не просто инструмент для «поиграть», а реальная возможность менять бизнес-процессы, повышать эффективность и создавать новые продукты.
📝 Что говорят данные?
• 72% компаний уверены, что генеративный AI станет массово применяться в ближайшем будущем.
• Но! 35% лидеров до сих пор не имеют чёткой стратегии, как интегрировать AI. Это нормально — мы всё ещё в начале пути глобальных изменений.
🚀 Бюджеты на AI: рост и амбиции
Компании готовы тратить деньги на генеративный AI:
• 60% инвестируют из «инновационных» бюджетов, чтобы попробовать новое.
• 40% перераспределяют постоянные бюджеты, показывая долгосрочную готовность менять процессы.
Самое интересное происходит в приложениях AI: на них потрачено $4,6 млрд в этом году — почти в 8 раз больше, чем год назад.
📌 Какие кейсы уже работают?
1️⃣ Кодовые ассистенты (например, GitHub Copilot) — уже используются в 51% компаний, помогая разработчикам работать быстрее и качественнее.
2️⃣ Чат-боты поддержки — помогают клиентам и сотрудникам в 31% организаций.
3️⃣ AI для поиска и трансформации данных — используются в 28% компаний для работы с большими массивами информации.
4️⃣ Суммаризация встреч — экономит время и повышает продуктивность в 24% случаев.
🤖 AI в продакшене: что дальше?
Компании пока сосредоточены на поддержке человека, но уже появляются системы, которые начинают брать задачи целиком на себя.
🏗 Строить или покупать?
Вопрос непростой: 47% компаний разрабатывают AI-решения сами, а 53% покупают готовые решения у вендоров.
🌐 Трансформация по всем направлениям
AI проникает в каждую часть бизнеса: от IT и продуктовых команд до HR, маркетинга и даже юристов. В 2024 году ярко выделились 4 отрасли:
• Медицина — AI-системы помогают врачам, автоматизируют записи в EHR и оптимизируют работу клиник.
• Юриспруденция — автоматизация контрактов, анализ документов и поддержка адвокатов.
• Финансы — AI упрощает обработку данных, делает отчёты и помогает соблюдать нормы.
• Медиа — инструменты генерации контента становятся стандартом для креаторов и студий.
🔮 Что ждать в будущем?
1️⃣ AI-агенты захватят рынок.
AI начнёт полностью автоматизировать сложные процессы, что изменит подход к IT, а затем и к сервисам.
2️⃣ Стартапы обгонят гигантов.
Уже сейчас видно, как молодые компании отнимают рынок у крупных игроков.
3️⃣ Дефицит талантов усилится.
Эксперты с опытом в AI будут нарасхват. Рынок ожидает рост зарплат и огромный спрос на специалистов, способных сочетать AI с бизнес-логикой.
🎯 AI больше не будущее — он уже здесь.
Компании видят в генеративном AI мощный инструмент для изменений. От автоматизации процессов до создания новых бизнес-моделей — это только начало.
🍬 Читать отчет целиком
2024 — это момент, когда компании перестали экспериментировать с генеративным AI и начали встраивать его в основу своей работы. Давайте разберем сегодняшний отчет от Menlo Ventures (одного из главных инвесторов Anthropic).
Бюджеты говорят сами за себя: расходы на AI выросли до $13,8 млрд, что в 6 раз больше, чем в 2023 году.
💡 Почему это важно?
Теперь AI — это не просто инструмент для «поиграть», а реальная возможность менять бизнес-процессы, повышать эффективность и создавать новые продукты.
📝 Что говорят данные?
• 72% компаний уверены, что генеративный AI станет массово применяться в ближайшем будущем.
• Но! 35% лидеров до сих пор не имеют чёткой стратегии, как интегрировать AI. Это нормально — мы всё ещё в начале пути глобальных изменений.
🚀 Бюджеты на AI: рост и амбиции
Компании готовы тратить деньги на генеративный AI:
• 60% инвестируют из «инновационных» бюджетов, чтобы попробовать новое.
• 40% перераспределяют постоянные бюджеты, показывая долгосрочную готовность менять процессы.
Самое интересное происходит в приложениях AI: на них потрачено $4,6 млрд в этом году — почти в 8 раз больше, чем год назад.
📌 Какие кейсы уже работают?
1️⃣ Кодовые ассистенты (например, GitHub Copilot) — уже используются в 51% компаний, помогая разработчикам работать быстрее и качественнее.
2️⃣ Чат-боты поддержки — помогают клиентам и сотрудникам в 31% организаций.
3️⃣ AI для поиска и трансформации данных — используются в 28% компаний для работы с большими массивами информации.
4️⃣ Суммаризация встреч — экономит время и повышает продуктивность в 24% случаев.
🤖 AI в продакшене: что дальше?
Компании пока сосредоточены на поддержке человека, но уже появляются системы, которые начинают брать задачи целиком на себя.
🏗 Строить или покупать?
Вопрос непростой: 47% компаний разрабатывают AI-решения сами, а 53% покупают готовые решения у вендоров.
🌐 Трансформация по всем направлениям
AI проникает в каждую часть бизнеса: от IT и продуктовых команд до HR, маркетинга и даже юристов. В 2024 году ярко выделились 4 отрасли:
• Медицина — AI-системы помогают врачам, автоматизируют записи в EHR и оптимизируют работу клиник.
• Юриспруденция — автоматизация контрактов, анализ документов и поддержка адвокатов.
• Финансы — AI упрощает обработку данных, делает отчёты и помогает соблюдать нормы.
• Медиа — инструменты генерации контента становятся стандартом для креаторов и студий.
🔮 Что ждать в будущем?
1️⃣ AI-агенты захватят рынок.
AI начнёт полностью автоматизировать сложные процессы, что изменит подход к IT, а затем и к сервисам.
2️⃣ Стартапы обгонят гигантов.
Уже сейчас видно, как молодые компании отнимают рынок у крупных игроков.
3️⃣ Дефицит талантов усилится.
Эксперты с опытом в AI будут нарасхват. Рынок ожидает рост зарплат и огромный спрос на специалистов, способных сочетать AI с бизнес-логикой.
🎯 AI больше не будущее — он уже здесь.
Компании видят в генеративном AI мощный инструмент для изменений. От автоматизации процессов до создания новых бизнес-моделей — это только начало.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤8😁8🔥3
Ищем стажеров в нашу команду Applied ML в Stripe
Если ты PhD-студент в США 🇺🇸 (к сожалению только так) и хочешь применить свои знания в машинном обучении для решения реальных задач, то это для тебя.
Миссия Stripe - увеличить ВВП интернета!
В Stripe ты сможешь:
• Работать над ML-проектами, которые реально влияют на мировую экономику.
• Использовать свои навыки в областях LLM, RL, MLOps, Агентах и классических ML-методах.
• Воплощать передовые исследования в жизни и видеть их реальное влияние.
Мы ищем тех, кто готов объединить науку и практику, работать с мощной инфраструктурой и помогать делать финансовые технологии лучше для всех.
Что предлагается?
🎓 Стажировка для PhD-студентов: Подробности тут
🎓 Роль для выпускников PhD: Подробности тут
Если есть вопросы, пиши в комментарии расскажу больше!
Если ты PhD-студент в США 🇺🇸 (к сожалению только так) и хочешь применить свои знания в машинном обучении для решения реальных задач, то это для тебя.
Миссия Stripe - увеличить ВВП интернета!
В Stripe ты сможешь:
• Работать над ML-проектами, которые реально влияют на мировую экономику.
• Использовать свои навыки в областях LLM, RL, MLOps, Агентах и классических ML-методах.
• Воплощать передовые исследования в жизни и видеть их реальное влияние.
Мы ищем тех, кто готов объединить науку и практику, работать с мощной инфраструктурой и помогать делать финансовые технологии лучше для всех.
Что предлагается?
🎓 Стажировка для PhD-студентов: Подробности тут
🎓 Роль для выпускников PhD: Подробности тут
Если есть вопросы, пиши в комментарии расскажу больше!
1😢12👍8😁3😐1
Forwarded from MarketTwits
This media is not supported in your browser
VIEW IN TELEGRAM
🌎#ии today
Робот «Эрбай» с искусственным интеллектом похитил 12 более крупных роботов из выставочного зала в Шанхае. Эрбай вел с более крупными роботами разговоры, похожие на человеческие.
Робот «Эрбай» с искусственным интеллектом похитил 12 более крупных роботов из выставочного зала в Шанхае. Эрбай вел с более крупными роботами разговоры, похожие на человеческие.
1😁31😱10❤7🎉2😐1
Победа ChatGPT над врачами
Недавнее исследование показало, что ChatGPT-4 превзошел врачей в диагностике сложных медицинских случаев. Искусственный интеллект поставил верный диагноз в 90% случаев ✅, тогда как врачи с доступом к ChatGPT справились лишь на 76%, а без него — на 74%.
👨⚕️Основная проблема — врачи часто игнорировали предложения ChatGPT, предпочитая собственные гипотезы, даже если ИИ предлагал более точное объяснение. Кроме того, многие врачи использовали GPT как поисковую систему 🔍, а не как мощный инструмент анализа.
📋В исследовании участвовали 50 врачей, которые диагностировали 6 сложных медицинских случаев. Оценивалась способность ставить и аргументировать диагноз.
Результаты оценивали врачи-эксперты, которые видели только ответы участников, не зная, были ли они от врача с ChatGPT, врача без него или от самого ChatGPT.
Истории болезней, использованные в исследовании, были основаны на реальных пациентах. Случаи намеренно никогда не публиковались, чтобы студенты-медики и другие могли пройти тестирование на них без какого-либо предварительного знания. Это также означало, что ChatGPT не мог быть обучен на них.
ИИ показал способность обрабатывать вводные медицинские данные и контекст, предлагать обоснованные диагнозы и объяснять свои выводы. Несмотря на это, врачи часто отказывались принимать его аргументы из-за уверенности в собственной правоте 🧠
🤖По мнению авторов, системы ИИ могут стать незаменимым помощником в медицинской диагностике, но для этого нужно научить врачей полностью раскрывать их возможности и использовать их в качестве "второго мнения".
💊 Статья
Недавнее исследование показало, что ChatGPT-4 превзошел врачей в диагностике сложных медицинских случаев. Искусственный интеллект поставил верный диагноз в 90% случаев ✅, тогда как врачи с доступом к ChatGPT справились лишь на 76%, а без него — на 74%.
👨⚕️Основная проблема — врачи часто игнорировали предложения ChatGPT, предпочитая собственные гипотезы, даже если ИИ предлагал более точное объяснение. Кроме того, многие врачи использовали GPT как поисковую систему 🔍, а не как мощный инструмент анализа.
📋В исследовании участвовали 50 врачей, которые диагностировали 6 сложных медицинских случаев. Оценивалась способность ставить и аргументировать диагноз.
Результаты оценивали врачи-эксперты, которые видели только ответы участников, не зная, были ли они от врача с ChatGPT, врача без него или от самого ChatGPT.
Истории болезней, использованные в исследовании, были основаны на реальных пациентах. Случаи намеренно никогда не публиковались, чтобы студенты-медики и другие могли пройти тестирование на них без какого-либо предварительного знания. Это также означало, что ChatGPT не мог быть обучен на них.
ИИ показал способность обрабатывать вводные медицинские данные и контекст, предлагать обоснованные диагнозы и объяснять свои выводы. Несмотря на это, врачи часто отказывались принимать его аргументы из-за уверенности в собственной правоте 🧠
🤖По мнению авторов, системы ИИ могут стать незаменимым помощником в медицинской диагностике, но для этого нужно научить врачей полностью раскрывать их возможности и использовать их в качестве "второго мнения".
💊 Статья
2👍51🔥12❤8😢2😐2🤩1
💡 Как генеративный AI меняет бизнес: научитесь создавать и интегрировать AI решения без огромных бюджетов и команд разработки
Недавно я делал пост о том, как компании инвестируют миллиарды в генеративный AI для оптимизации процессов и создания продуктов. Главный вывод: сегодня AI — это не просто инструмент для «поиграть», а ключевой фактор для улучшения показателей бизнеса.
Но, несмотря на огромный потенциал, для не крупных игроков внедрения AI связано с такими вопросами, как:
- Можно ли протестировать эффективность/внедрить AI без огромной команды разработки?
⁃ Как интегрировать AI в существующие процессы и какие процессы выбрать для автоматизации?
- Как оценить эффективность и внедрить AI с минимальными вложениями?
Чтобы разобраться с этими вопросами, команды студии AI-разработки SkaiLab и бизнес-консультанты Иннопорт разработали практический курс применения AI в бизнесе.
📊 Что будет на курсе:
- Практика на реальных кейсах. Создадите 14 практических AI-решений: AI-ассистенты, боты, системы ИИ-автоматизации. В общем, всё то, о чем я писал ранее в посте и даже больше.
- Системный подход. Научитесь понимать какие бизнес-процессы стоит автоматизировать с помощью AI-инструментов
- Методы оценки эффективности. Узнаете, как анализировать результаты внедрения и повышать эффективность использования AI-инструментов.
Эта программа для тех, кто хочет научиться использовать AI не только для базовых задач вроде генерации текста или изображений, но и для построения масштабируемых AI-решений.
Сейчас уже растет количество предложений для экспертов в AI. И в самое ближайшее время, люди, способные интегрировать AI и бизнес станут самыми ценным кадрами на рынке.
📌Успейте занять свое место на курсе. Подать заявку можно по ссылке: https://clck.ru/3Ejewd
🔥 А по промокоду AIFORALL24 вы получите скидку 30%
#реклама
Недавно я делал пост о том, как компании инвестируют миллиарды в генеративный AI для оптимизации процессов и создания продуктов. Главный вывод: сегодня AI — это не просто инструмент для «поиграть», а ключевой фактор для улучшения показателей бизнеса.
Но, несмотря на огромный потенциал, для не крупных игроков внедрения AI связано с такими вопросами, как:
- Можно ли протестировать эффективность/внедрить AI без огромной команды разработки?
⁃ Как интегрировать AI в существующие процессы и какие процессы выбрать для автоматизации?
- Как оценить эффективность и внедрить AI с минимальными вложениями?
Чтобы разобраться с этими вопросами, команды студии AI-разработки SkaiLab и бизнес-консультанты Иннопорт разработали практический курс применения AI в бизнесе.
📊 Что будет на курсе:
- Практика на реальных кейсах. Создадите 14 практических AI-решений: AI-ассистенты, боты, системы ИИ-автоматизации. В общем, всё то, о чем я писал ранее в посте и даже больше.
- Системный подход. Научитесь понимать какие бизнес-процессы стоит автоматизировать с помощью AI-инструментов
- Методы оценки эффективности. Узнаете, как анализировать результаты внедрения и повышать эффективность использования AI-инструментов.
Эта программа для тех, кто хочет научиться использовать AI не только для базовых задач вроде генерации текста или изображений, но и для построения масштабируемых AI-решений.
Сейчас уже растет количество предложений для экспертов в AI. И в самое ближайшее время, люди, способные интегрировать AI и бизнес станут самыми ценным кадрами на рынке.
📌Успейте занять свое место на курсе. Подать заявку можно по ссылке: https://clck.ru/3Ejewd
🔥 А по промокоду AIFORALL24 вы получите скидку 30%
#реклама
www.practico.ai
Обучение искусственному интеллекту и нейросетям
Practico — образовательная платформа о практическом применении искусственного интеллекта в бизнесе. Мы обучаем предпринимателей, маркетологов и специалистов использовать AI-инструменты для повышения эффективности, автоматизации процессов и принятия более…
😁6😐3👍1
Model Context Protocol (MCP) от Anthropic
Компания Anthropic представила Model Context Protocol (MCP) – универсальный открытый протокол для подключения ИИ ассистентов к источникам данных 🔗
По мере того, ИИ ассистенты получают всеобщее распространение, отрасль вкладывает значительные средства в возможности моделей, добиваясь быстрого прогресса в рассуждениях и качестве. Однако даже самые сложные модели ограничены своей изоляцией от данных — заперты за информационными хранилищами и устаревшими системами 💾
Каждый новый источник данных требует собственной индивидуальной реализации, что затрудняет масштабирование.
🔌 MCP создан для решения этой проблемы. Он предоставляет универсальный открытый протокол, который позволяет разработчикам создавать безопасные двусторонние соединения между источниками данных и инструментами на базе ИИ.
Архитектура проста: разработчики могут либо предоставлять свои данные через серверы MCP, либо создавать приложения ИИ (клиенты MCP), которые подключаются к этим серверам.
Anthropic представила три основных компонента Model Context Protocol для разработчиков:
🔹Спецификация и SDK для Model Context Protocol
🔹Поддержка локального сервера MCP в приложениях Claude Desktop
🔹Открытый репозиторий серверов MCP
Для работы доступны pre-built серверы MCP для популярных корпоративных систем, таких как Google Drive, Slack, GitHub, Git, Postgres и Puppeteer.
Разработчики могут начать создавать и тестировать коннекторы MCP уже сегодня. Существующие клиенты Claude for Work могут начать тестировать серверы MCP локально, подключая Claude к внутренним системам и наборам данных.
В скором времени Anthropic обещают зарелизить инструменты для развертывания удаленных производственных серверов MCP 👀
Как начать? 🛠️
🔹Установите MCP-серверы через Claude Desktop
🔹 Изучите документацию
🔹 Творите 😊
🗞️ Блог
👨💻 GitHub
Компания Anthropic представила Model Context Protocol (MCP) – универсальный открытый протокол для подключения ИИ ассистентов к источникам данных 🔗
По мере того, ИИ ассистенты получают всеобщее распространение, отрасль вкладывает значительные средства в возможности моделей, добиваясь быстрого прогресса в рассуждениях и качестве. Однако даже самые сложные модели ограничены своей изоляцией от данных — заперты за информационными хранилищами и устаревшими системами 💾
Каждый новый источник данных требует собственной индивидуальной реализации, что затрудняет масштабирование.
🔌 MCP создан для решения этой проблемы. Он предоставляет универсальный открытый протокол, который позволяет разработчикам создавать безопасные двусторонние соединения между источниками данных и инструментами на базе ИИ.
Архитектура проста: разработчики могут либо предоставлять свои данные через серверы MCP, либо создавать приложения ИИ (клиенты MCP), которые подключаются к этим серверам.
Anthropic представила три основных компонента Model Context Protocol для разработчиков:
🔹Спецификация и SDK для Model Context Protocol
🔹Поддержка локального сервера MCP в приложениях Claude Desktop
🔹Открытый репозиторий серверов MCP
Для работы доступны pre-built серверы MCP для популярных корпоративных систем, таких как Google Drive, Slack, GitHub, Git, Postgres и Puppeteer.
Разработчики могут начать создавать и тестировать коннекторы MCP уже сегодня. Существующие клиенты Claude for Work могут начать тестировать серверы MCP локально, подключая Claude к внутренним системам и наборам данных.
В скором времени Anthropic обещают зарелизить инструменты для развертывания удаленных производственных серверов MCP 👀
Как начать? 🛠️
🔹Установите MCP-серверы через Claude Desktop
🔹 Изучите документацию
🔹 Творите 😊
🗞️ Блог
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
Forwarded from proVenture (проВенчур)
🔍 Доля AI в поиске занимает 6%. А что еще интересного?
Стечение обстоятельств, а также тот факт, что у меня теперь есть Perplexity Pro на год, сподвигли посмотреть, что там на рынке поиска-то происходит. Еще пару лет назад никто не мог подумать, что этот рынок можно как-то переделывать.
1/ Итак, поиск информации вместо Google и других поисковых систем уже проходит через AI решения. Как минимум есть вышеупомянутый Perplexity, а также SearchGPT от OpenAI и поиск через чаты с другими моделями, которые имеют доступ в интернет.
2/ Информации не очень много, но можно запомнить следующее:
▪️Google занимает от 89% поиска как search engine до 91% поиска по разным данным, далее (как ни удивительно) следует Bing с 3.4-4.2%, остальные еще меньше;
▪️Доля AI решений сейчас составляет 6%, но по выручке (в деньгах) это 1%;
▪️Доля Perplexity при этом – 0.5% поиска. Это довольно много, например, доля DuckDuckGo в поиске составляет 0.54%-0.69%.
3/ Доля AI поиска может вырасти с 6% сегодня до 14% в 2028 году.
4/ Кому интересно почитать подробнее про Perplexity, можете зайти вот на этот сайт. Там собрана информация про их бизнес и показатели, например, $40M выручки, 10M MAU, 300M поисковых запросов в 2023 году и так далее.
5/ А вот в этой статье есть прикольное сравнение конвенциального поиска с поиском через AI. Например, результаты поиска через SearchGPT от OpenAI только на 46% совпадают с поиском через Google и на 73% с поиском через Bing.
@proVenture
#research #ai #trends
Стечение обстоятельств, а также тот факт, что у меня теперь есть Perplexity Pro на год, сподвигли посмотреть, что там на рынке поиска-то происходит. Еще пару лет назад никто не мог подумать, что этот рынок можно как-то переделывать.
1/ Итак, поиск информации вместо Google и других поисковых систем уже проходит через AI решения. Как минимум есть вышеупомянутый Perplexity, а также SearchGPT от OpenAI и поиск через чаты с другими моделями, которые имеют доступ в интернет.
2/ Информации не очень много, но можно запомнить следующее:
▪️Google занимает от 89% поиска как search engine до 91% поиска по разным данным, далее (как ни удивительно) следует Bing с 3.4-4.2%, остальные еще меньше;
▪️Доля AI решений сейчас составляет 6%, но по выручке (в деньгах) это 1%;
▪️Доля Perplexity при этом – 0.5% поиска. Это довольно много, например, доля DuckDuckGo в поиске составляет 0.54%-0.69%.
3/ Доля AI поиска может вырасти с 6% сегодня до 14% в 2028 году.
4/ Кому интересно почитать подробнее про Perplexity, можете зайти вот на этот сайт. Там собрана информация про их бизнес и показатели, например, $40M выручки, 10M MAU, 300M поисковых запросов в 2023 году и так далее.
5/ А вот в этой статье есть прикольное сравнение конвенциального поиска с поиском через AI. Например, результаты поиска через SearchGPT от OpenAI только на 46% совпадают с поиском через Google и на 73% с поиском через Bing.
@proVenture
#research #ai #trends
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Смартфоны изучают ионосферу Земли🛰️📱🌍
Google Research нашли способ использовать миллионы Android-устройств для изучения ионосферы – верхнего слоя атмосферы, который влияет на радиосигналы и GPS-навигацию.
🔍 Что такое ионосфера?
Ионосфера – это слой, насыщенный заряженными частицами (плазмой), который может вызывать помехи для спутниковой связи, радио и GPS. Изучение её поведения особенно важно во время солнечных бурь, которые могут повредить спутники и энергосети.
🔹 Как это работает:
- Устройства Android с GPS собирают данные о сигналах спутников.
- Эти данные используются для отслеживания колебаний в плазме ионосферы, создавая карту её состояния.
- На основе этой информации ученые выявляют нарушения, которые могут повлиять на связь и навигацию.
🔹 Почему это важно?
- Улучшение точности GPS, особенно в условиях помех.
- Помощь в прогнозировании солнечных бурь и их воздействия на инфраструктуру 🌞⚡.
- Уникальная возможность изучать поведение Земли и её атмосферы на глобальном уровне 🌍.
🔹Преимущества нового метода:
- Двукратное расширение покрытия по сравнению с существующими станциями
- Особенно эффективен в регионах с редкой мониторинговой инфраструктурой (Индия, Юго-Восточная Азия, Африка)
- Полная анонимность пользовательских данных
🔹 Результаты:
- Использовано от 200 000 до 2 млн смартфонов ежечасно
- Охвачено около 40 млн измерений ежедневно
- Создана карта с разрешением порядка 70 км
🔹Практическое применение:
1. Повышение точности GPS до нескольких метров
2. Улучшение работы служб экстренного реагирования
3. Потенциал для прогнозирования последствий солнечных бурь
Интересный факт: Исследователи зафиксировали уникальные плазменные явления, такие как "плазменные пузыри" над Индией и Бразилией, которые ранее не были так детально зарегистрированы.
Метод открывает новые горизонты в изучении ионосферы и демонстрирует, как массовые пользовательские устройства могут служить научным инструментом.
Исследование опубликовано в журнале Nature.
🌌 Блог
📜 Статья
📽️ Видео
🗺 Демо карт
Google Research нашли способ использовать миллионы Android-устройств для изучения ионосферы – верхнего слоя атмосферы, который влияет на радиосигналы и GPS-навигацию.
🔍 Что такое ионосфера?
Ионосфера – это слой, насыщенный заряженными частицами (плазмой), который может вызывать помехи для спутниковой связи, радио и GPS. Изучение её поведения особенно важно во время солнечных бурь, которые могут повредить спутники и энергосети.
🔹 Как это работает:
- Устройства Android с GPS собирают данные о сигналах спутников.
- Эти данные используются для отслеживания колебаний в плазме ионосферы, создавая карту её состояния.
- На основе этой информации ученые выявляют нарушения, которые могут повлиять на связь и навигацию.
🔹 Почему это важно?
- Улучшение точности GPS, особенно в условиях помех.
- Помощь в прогнозировании солнечных бурь и их воздействия на инфраструктуру 🌞⚡.
- Уникальная возможность изучать поведение Земли и её атмосферы на глобальном уровне 🌍.
🔹Преимущества нового метода:
- Двукратное расширение покрытия по сравнению с существующими станциями
- Особенно эффективен в регионах с редкой мониторинговой инфраструктурой (Индия, Юго-Восточная Азия, Африка)
- Полная анонимность пользовательских данных
🔹 Результаты:
- Использовано от 200 000 до 2 млн смартфонов ежечасно
- Охвачено около 40 млн измерений ежедневно
- Создана карта с разрешением порядка 70 км
🔹Практическое применение:
1. Повышение точности GPS до нескольких метров
2. Улучшение работы служб экстренного реагирования
3. Потенциал для прогнозирования последствий солнечных бурь
Интересный факт: Исследователи зафиксировали уникальные плазменные явления, такие как "плазменные пузыри" над Индией и Бразилией, которые ранее не были так детально зарегистрированы.
Метод открывает новые горизонты в изучении ионосферы и демонстрирует, как массовые пользовательские устройства могут служить научным инструментом.
Исследование опубликовано в журнале Nature.
🌌 Блог
📜 Статья
📽️ Видео
🗺 Демо карт
🔥25❤6👍2😱2
🚀 SmolVLM: мощная компактная мультимодальная модель от Hugging Face 🤗
🤖 Что такое SmolVLM?
- Компактная мультимодальная модель размером 2 миллиарда параметров
- Полностью открытый исходный код
Технические особенности:
🔬 Архитектура:
Языковой backbone: SmolLM2 1.7B
Визуальное сжатие информации в 9 раз
Размер изображений: 384x384 пикселя
Патчи по 14x14 пикселей
Возможности:
🖼️ Анализ изображений:
- Распознавание объектов
- Описание сцен
- Ответы на вопросы по картинкам
🎥 Работа с видео:
- Анализ до 50 кадров
- Понимание временной последовательности
- Распознавание объектов и действий
📊 Производительность:
Топовые результаты на бенчмарках:
MMMU: 38.8%
MathVista: 44.6%
DocVQA: 81.6%
MMStar (val): 42.1%
TextVQA: 72.7%
🚀 Преимущества:
- Работает на устройствах с низким объемом памяти
- В 3-4 раза быстрее аналогов
- Минимальное использование GPU (от 5 ГБ)
Опубликованы три версии модели:
🔹 SmolVLM-Base - для дообучения
🔹 SmolVLM-Synthetic - обучена на синтетических данных
🔹 SmolVLM Instruct - готова к использованию
🎮Демо
📰 Блог
🤗 Модель
👨💻 Код для fine-tuning-a
🤖 Что такое SmolVLM?
- Компактная мультимодальная модель размером 2 миллиарда параметров
- Полностью открытый исходный код
Технические особенности:
🔬 Архитектура:
Языковой backbone: SmolLM2 1.7B
Визуальное сжатие информации в 9 раз
Размер изображений: 384x384 пикселя
Патчи по 14x14 пикселей
Возможности:
🖼️ Анализ изображений:
- Распознавание объектов
- Описание сцен
- Ответы на вопросы по картинкам
🎥 Работа с видео:
- Анализ до 50 кадров
- Понимание временной последовательности
- Распознавание объектов и действий
📊 Производительность:
Топовые результаты на бенчмарках:
MMMU: 38.8%
MathVista: 44.6%
DocVQA: 81.6%
MMStar (val): 42.1%
TextVQA: 72.7%
🚀 Преимущества:
- Работает на устройствах с низким объемом памяти
- В 3-4 раза быстрее аналогов
- Минимальное использование GPU (от 5 ГБ)
Опубликованы три версии модели:
🔹 SmolVLM-Base - для дообучения
🔹 SmolVLM-Synthetic - обучена на синтетических данных
🔹 SmolVLM Instruct - готова к использованию
🎮Демо
📰 Блог
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤9👍4😐2
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем Илон показал телеуправляемого робота, который ловит мячи! Правильно, fuck Thanksgiving diner.
Курлык курлык
Курлык курлык
👍13🔥10😐2
🚀 Месяц в Stripe: первые впечатления и Black Friday!
Ребята, это что-то невероятное! Прямо сейчас мы в эпицентре главной распродажи года, и я хочу поделиться тем, что вижу изнутри.
💡Stripe запустил специальный сайт bfcm.stripe.com, где в реальном времени показывает, как миллиарды долларов путешествуют по миру. Это не просто красивая визуализация — это живой пульс глобальной коммерции!
🛠️ Что меня особенно впечатлило:
- Radar анализирует 1000+ параметров каждой транзакции за миллисекунды (!) для защиты от фрода
- Link реально экономит часы времени на чекауте (сам пользуюсь, это магия)
- Tax автоматически разруливает налоги в 69 странах
🤯 А масштаб? От небольших стартапов до таких гигантов как Shopify и NVIDIA — все они прямо сейчас полагаются на нашу инфраструктуру. И она работает как часы!
Загляните на bfcm.stripe.com — там можно своими глазами увидеть, лучший день доя большинства потребительских бизнесов в году!
Про то, как мне работается написал в комменты. Пишите вопросы - отвечу на что могу/знаю
P.S. Кто бы мог подумать, что термин "Black Friday" появился в 60-х в Филадельфии из-за того, что физическая инфраструктура не справлялась с наплывом покупателей? Сегодня такие проблемы решаются одной строчкой кода 😉
Ребята, это что-то невероятное! Прямо сейчас мы в эпицентре главной распродажи года, и я хочу поделиться тем, что вижу изнутри.
💡Stripe запустил специальный сайт bfcm.stripe.com, где в реальном времени показывает, как миллиарды долларов путешествуют по миру. Это не просто красивая визуализация — это живой пульс глобальной коммерции!
🛠️ Что меня особенно впечатлило:
- Radar анализирует 1000+ параметров каждой транзакции за миллисекунды (!) для защиты от фрода
- Link реально экономит часы времени на чекауте (сам пользуюсь, это магия)
- Tax автоматически разруливает налоги в 69 странах
🤯 А масштаб? От небольших стартапов до таких гигантов как Shopify и NVIDIA — все они прямо сейчас полагаются на нашу инфраструктуру. И она работает как часы!
Загляните на bfcm.stripe.com — там можно своими глазами увидеть, лучший день доя большинства потребительских бизнесов в году!
Про то, как мне работается написал в комменты. Пишите вопросы - отвечу на что могу/знаю
P.S. Кто бы мог подумать, что термин "Black Friday" появился в 60-х в Филадельфии из-за того, что физическая инфраструктура не справлялась с наплывом покупателей? Сегодня такие проблемы решаются одной строчкой кода 😉
😐18🔥14👍8🤩2