Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Мы наконец выкатили нашу 30B модель для генерации видео! И я очень рад, что являюсь одним из контрибьютеров в этот грандиозный проект.
Bye-bye SORA. Movie Gen – это новая SOTA в генерации видео по тексту!
Модель генерит 16-секундные видео в 1080p, 16FPS.
Общая длина контекста - 73к видео токенов (256 кадров).
Выкатываем ещё:
- 13B модель для генерации видео одновременно со звуком в 48kHz.
- И ещё тюны для редактирования видео и генерации персонализированных видосов с вашим лицом по заданному фото.
В статье мы описываем много новых штук по части архитектуры, рецептов тренировки больших видео-моделей, параллелизации, увеличения скорости инференса, оценки качества, курирования данных и других трюков. В статье очень много деталей!
Сайт
Блогпост
Подробная статья (92 стр)
Скоро ждите ещё дополнительный пост с разбором.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩19🔥5❤3
🤖 Новый визуальный гид по Mixture of Experts (MoE)!
Маартен Гроотендорст выпустил замечательное визуальное руководство по MoE — методу, который помогает улучшить качество и эффективность больших языковых моделей. В этом руководстве представлено более 50 иллюстраций, которые наглядно объясняют, как работает MoE и почему это важно для современных технологий искусственного интеллекта.
Что такое MoE?
MoE — это метод, использующий несколько компонентов, называемых "экспертами". Каждый эксперт обрабатывает различные виды информации, а специальный "роутер" решает, каких экспертов использовать для каждой части текста. Это помогает модели работать быстрее и использовать меньше ресурсов, так как активируется только нужная часть экспертов.
Эксперты не специализируются на конкретных областях, таких как "Психология" или "Биология". Вместо этого они анализируют определенные языковые шаблоны. Роутер выбирает подходящего эксперта для каждого кусочка текста, называемого "токеном". Токен — это, например, слово или его часть.
Если хотите узнать больше про MoE, обязательно посмотрите визуальное руководство Маартена Гроотендорста!
Визуальное руководство по Mixture of Experts (MoE)
Маартен Гроотендорст выпустил замечательное визуальное руководство по MoE — методу, который помогает улучшить качество и эффективность больших языковых моделей. В этом руководстве представлено более 50 иллюстраций, которые наглядно объясняют, как работает MoE и почему это важно для современных технологий искусственного интеллекта.
Что такое MoE?
MoE — это метод, использующий несколько компонентов, называемых "экспертами". Каждый эксперт обрабатывает различные виды информации, а специальный "роутер" решает, каких экспертов использовать для каждой части текста. Это помогает модели работать быстрее и использовать меньше ресурсов, так как активируется только нужная часть экспертов.
Эксперты не специализируются на конкретных областях, таких как "Психология" или "Биология". Вместо этого они анализируют определенные языковые шаблоны. Роутер выбирает подходящего эксперта для каждого кусочка текста, называемого "токеном". Токен — это, например, слово или его часть.
Если хотите узнать больше про MoE, обязательно посмотрите визуальное руководство Маартена Гроотендорста!
Визуальное руководство по Mixture of Experts (MoE)
1👍19🔥1
🤖 Нобелевская премия по физике за фундаментальные исследования нейросетей
Нобелевский комитет объявил лауреатов премии по физике 2024 года. В этом году награду получили Джон Хопфилд и Джеффри Хинтон за их фундаментальные открытия и изобретения, которые легли в основу машинного обучения с помощью искусственных нейронных сетей.
Оба ученых занимались статистической физикой, и их работа стала основой для создания современных нейросетей, которые широко используются в машинном зрении и других областях искусственного интеллекта. В 2018 году Джеффри Хинтон, вместе с Йошуа Бенжио и Яном Лекуном, получил премию Тьюринга — самую престижную награду в информатике. Им присудили премию за концептуальные и инженерные прорывы, благодаря которым глубинные нейросети стали ключевым компонентом современной вычислительной техники.
Первыми лауреатами Нобелевских премий в 2024 году стали Виктор Эмброс и Гэри Равкун, которые получили награду в области медицины и физиологии за открытие микроРНК.
Нобелевская неделя продолжится 9 октября объявлением лауреатов премии по химии, 10 октября — по литературе, а 11 октября в Осло будет объявлен лауреат премии мира. 14 октября станет известно, кто получит премию по экономике памяти Альфреда Нобеля, учрежденную Банком Швеции в 1968 году.
Денежная часть премии составляет 11 миллионов шведских крон, что примерно эквивалентно 1 миллиону долларов США.
🔗 Ссылка
Нобелевский комитет объявил лауреатов премии по физике 2024 года. В этом году награду получили Джон Хопфилд и Джеффри Хинтон за их фундаментальные открытия и изобретения, которые легли в основу машинного обучения с помощью искусственных нейронных сетей.
Оба ученых занимались статистической физикой, и их работа стала основой для создания современных нейросетей, которые широко используются в машинном зрении и других областях искусственного интеллекта. В 2018 году Джеффри Хинтон, вместе с Йошуа Бенжио и Яном Лекуном, получил премию Тьюринга — самую престижную награду в информатике. Им присудили премию за концептуальные и инженерные прорывы, благодаря которым глубинные нейросети стали ключевым компонентом современной вычислительной техники.
Первыми лауреатами Нобелевских премий в 2024 году стали Виктор Эмброс и Гэри Равкун, которые получили награду в области медицины и физиологии за открытие микроРНК.
Нобелевская неделя продолжится 9 октября объявлением лауреатов премии по химии, 10 октября — по литературе, а 11 октября в Осло будет объявлен лауреат премии мира. 14 октября станет известно, кто получит премию по экономике памяти Альфреда Нобеля, учрежденную Банком Швеции в 1968 году.
Денежная часть премии составляет 11 миллионов шведских крон, что примерно эквивалентно 1 миллиону долларов США.
🔗 Ссылка
👍21😐10❤4😱2😢2🔥1
🤖 Anthropic Batch API
Компания Anthropic представила новый Message Batches API — решение для асинхронной обработки большого количества запросов. Этот API позволяет отправлять до 10,000 запросов в одном пакете, обрабатывая их менее чем за 24 часа (скорость в обмен на скидку в 50%). Теперь у Антропика тоже есть удобное API для таких задач, как анализ данных и классификация.
Anthropic Batch API может обрабатывать до 10,000 запросов в батче (у openAI - 50,000 в батче)
По деньгам получается следующее - например, для модели Claude 3 Haiku стоимость входных токенов с Batch API составляет $0.125 за 1 млн токенов, а выходных — $0.625 за 1 млн токенов.
OpenAI Batch API также предоставляет скидку на 50%. Например, для модели GPT-4o-mini стоимость входных токенов составляет $0.075 за 1 млн токенов, а выходных — $0.300 за 1 млн токенов при использовании Batch API, что значительно дешевле по сравнению с моделями Anthropic.
Anthropic Batch API обещают обработка в течение 24 часов или быстрее. Пользователи могут отслеживать статус через Console или API.
Поддерживаемые модели: Claude 3.5 Sonnet, Claude 3 Haiku и Claude 3 Opus.
Разнообразие запросов: Поддержка Vision, Tool use, системных сообщений и диалогов в одном пакете.
Период доступности результатов: Результаты доступны для загрузки в течение 29 дней после создания пакета.
Ссылка
Компания Anthropic представила новый Message Batches API — решение для асинхронной обработки большого количества запросов. Этот API позволяет отправлять до 10,000 запросов в одном пакете, обрабатывая их менее чем за 24 часа (скорость в обмен на скидку в 50%). Теперь у Антропика тоже есть удобное API для таких задач, как анализ данных и классификация.
Anthropic Batch API может обрабатывать до 10,000 запросов в батче (у openAI - 50,000 в батче)
По деньгам получается следующее - например, для модели Claude 3 Haiku стоимость входных токенов с Batch API составляет $0.125 за 1 млн токенов, а выходных — $0.625 за 1 млн токенов.
OpenAI Batch API также предоставляет скидку на 50%. Например, для модели GPT-4o-mini стоимость входных токенов составляет $0.075 за 1 млн токенов, а выходных — $0.300 за 1 млн токенов при использовании Batch API, что значительно дешевле по сравнению с моделями Anthropic.
Anthropic Batch API обещают обработка в течение 24 часов или быстрее. Пользователи могут отслеживать статус через Console или API.
Поддерживаемые модели: Claude 3.5 Sonnet, Claude 3 Haiku и Claude 3 Opus.
Разнообразие запросов: Поддержка Vision, Tool use, системных сообщений и диалогов в одном пакете.
Период доступности результатов: Результаты доступны для загрузки в течение 29 дней после создания пакета.
Ссылка
🔥11❤4👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Все ли осознают, что говорящие портреты из "Гарри Поттера" теперь стали реальностью? Это больше не вымысел. Мы живем в удивительное время.
🔗 Ссылка
🔗 Ссылка
👍39😐7😁2
🔥Объявлены лауреаты Нобелевской премии по химии 2024!
Королевская шведская академия наук присудила Нобелевскую премию по химии 2024 трем выдающимся ученым, и снова за искусственный интеллект
🎉 Дэвид Бейкер – Компьютерный дизайн белков
• Инновация: Создал программное обеспечение Rosetta, позволяющее разрабатывать новые белки с нуля.
• Влияние: Революционизирует разработку лекарств, инжиниринг ферментов и синтетическую биологию, создавая белки с заданными функциями для целевых терапий и устойчивых решений.
🤖 Демис Хассабис и Джон М. Джампер – Предсказание структуры белков
• Инновация: Разработали AlphaFold, систему искусственного интеллекта, которая предсказывает структуры белков с беспрецедентной точностью.
• Влияние: Ускоряют исследования в области разработки лекарств и персонализированной медицины, предоставляя глубокое понимание функций и взаимодействий белков, объединяя вычислительные прогнозы и экспериментальную биологию.
Искусственный интеллект стал ключевым элементом этих прорывов, позволяя достигать быстрых результатов благодаря таким моделям, как AlphaFold, которые значительно сокращают время и ресурсы, необходимые для исследований белков. Алгоритмы машинного обучения повышают точность дизайна белков и предсказания их структуры, что ведет к созданию более эффективных и персонализированных медицинских препаратов. Кроме того, сочетание ИИ с биологией и химией способствует междисциплинарному сотрудничеству, создавая инновационные решения для сложных научных задач.
🔗 Ссылка
Королевская шведская академия наук присудила Нобелевскую премию по химии 2024 трем выдающимся ученым, и снова за искусственный интеллект
🎉 Дэвид Бейкер – Компьютерный дизайн белков
• Инновация: Создал программное обеспечение Rosetta, позволяющее разрабатывать новые белки с нуля.
• Влияние: Революционизирует разработку лекарств, инжиниринг ферментов и синтетическую биологию, создавая белки с заданными функциями для целевых терапий и устойчивых решений.
🤖 Демис Хассабис и Джон М. Джампер – Предсказание структуры белков
• Инновация: Разработали AlphaFold, систему искусственного интеллекта, которая предсказывает структуры белков с беспрецедентной точностью.
• Влияние: Ускоряют исследования в области разработки лекарств и персонализированной медицины, предоставляя глубокое понимание функций и взаимодействий белков, объединяя вычислительные прогнозы и экспериментальную биологию.
Искусственный интеллект стал ключевым элементом этих прорывов, позволяя достигать быстрых результатов благодаря таким моделям, как AlphaFold, которые значительно сокращают время и ресурсы, необходимые для исследований белков. Алгоритмы машинного обучения повышают точность дизайна белков и предсказания их структуры, что ведет к созданию более эффективных и персонализированных медицинских препаратов. Кроме того, сочетание ИИ с биологией и химией способствует междисциплинарному сотрудничеству, создавая инновационные решения для сложных научных задач.
🔗 Ссылка
❤23🔥12😐2👍1
Что делает Rotary Positional Encodings (RoPE) такими полезными в трансформерах?
(По мотивам статьи Round and Round we Go)
Позиционные кодировки — одна из ключевых составляющих моделей типа Transformer, ведь они позволяют им понимать порядок токенов в последовательности. Одним из самых продвинутых подходов являются Rotary Positional Encodings (RoPE), которые активно используются в современных языковых моделях. В этом посте мы разберём, как работает RoPE, почему он так полезен и что нового обнаружили учёные в его механике.
1. Основы: Трансформеры и механизм self-attention
Трансформеры — это мощные модели глубокого обучения, предназначенные для обработки последовательных данных, таких как текст. В основе их работы лежит механизм self-attention (самовнимание), который позволяет модели определять, какие части последовательности наиболее важны при обработке каждого токена.
Как это работает математически:
Для каждого токена трансформер создаёт три вектора:
• Query (Запрос, Q): что текущий токен “ищет” в других токенах.
• Key (Ключ, K): что представляет каждый токен.
• Value (Значение, V): информация, которую несёт каждый токен.
Оценка внимания (attention score) между двумя токенами вычисляется как скалярное произведение их векторов Query и Key.
Произведение используется для взвешивания информации токенов (Value) и формирования конечного результата.
2. Зачем нужны позиционные кодировки
Поскольку трансформеры обрабатывают все токены одновременно, им необходимо явно указывать позиционную информацию. Без этого модель не сможет отличить, например, “собака кусает человека” от “человек кусает собаку”. Позиционные кодировки (Positional Encodings, PE) вводят эту информацию, помогая модели понимать порядок слов.
3. Rotary Positional Encodings (RoPE)
RoPE — это продвинутый метод кодирования позиционной информации, который вместо простого добавления вектора позиции к каждому токену вращает векторы Query и Key в зависимости от их позиций в последовательности.
Как работает RoPE:
• Векторы Query и Key разбиваются на двумерные блоки.
• Каждый блок поворачивается на угол, зависящий от позиции токена в последовательности.
Это позволяет учитывать как саму суть токена, так и его положение относительно других токенов.
4. Высокие и низкие частоты в RoPE
В RoPE разные частоты вращения блоков Query и Key определяют, как быстро эти векторы поворачиваются:
• Высокие частоты вызывают быстрое вращение, что делает модель чувствительной к небольшим изменениям позиций токенов.
• Низкие частоты вращаются медленно, и их использование делает модель более стабильной на больших расстояниях между токенами.
Пример:
Предположим, у нас есть два токена: один на позиции 2, другой на позиции 4. RoPE поворачивает их векторы на углы 2*O и 4*O соответственно. При вычислении скалярного произведения модель учитывает не только содержание токенов, но и их относительное положение в последовательности.
5. Разоблачение мифа о затухании внимания с расстоянием
Ранее считалось, что RoPE помогает моделям за счёт того, что оценка внимания (attention score) уменьшается по мере увеличения расстояния между токенами. Однако авторы статьи показали, что это не всегда так. RoPE не обязательно вызывает затухание внимания, но, что более важно, он помогает модели формировать устойчивые паттерны позиционного внимания.
6. Использование низких и высоких частот RoPE
Исследования показали, что модели чаще всего используют низкие частоты RoPE для работы с семантическими отношениями между токенами. В то же время, высокие частоты применяются для создания позиционных attention heads, которые сосредотачиваются на точных позициях, таких как предыдущий или следующий токен.
7. Модификация RoPE: p-RoPE
Авторы статьи предложили улучшенную версию RoPE под названием p-RoPE. Она заключается в удалении самых низких частот, чтобы сделать модель более устойчивой на больших контекстах.
(По мотивам статьи Round and Round we Go)
Позиционные кодировки — одна из ключевых составляющих моделей типа Transformer, ведь они позволяют им понимать порядок токенов в последовательности. Одним из самых продвинутых подходов являются Rotary Positional Encodings (RoPE), которые активно используются в современных языковых моделях. В этом посте мы разберём, как работает RoPE, почему он так полезен и что нового обнаружили учёные в его механике.
1. Основы: Трансформеры и механизм self-attention
Трансформеры — это мощные модели глубокого обучения, предназначенные для обработки последовательных данных, таких как текст. В основе их работы лежит механизм self-attention (самовнимание), который позволяет модели определять, какие части последовательности наиболее важны при обработке каждого токена.
Как это работает математически:
Для каждого токена трансформер создаёт три вектора:
• Query (Запрос, Q): что текущий токен “ищет” в других токенах.
• Key (Ключ, K): что представляет каждый токен.
• Value (Значение, V): информация, которую несёт каждый токен.
Оценка внимания (attention score) между двумя токенами вычисляется как скалярное произведение их векторов Query и Key.
Произведение используется для взвешивания информации токенов (Value) и формирования конечного результата.
2. Зачем нужны позиционные кодировки
Поскольку трансформеры обрабатывают все токены одновременно, им необходимо явно указывать позиционную информацию. Без этого модель не сможет отличить, например, “собака кусает человека” от “человек кусает собаку”. Позиционные кодировки (Positional Encodings, PE) вводят эту информацию, помогая модели понимать порядок слов.
3. Rotary Positional Encodings (RoPE)
RoPE — это продвинутый метод кодирования позиционной информации, который вместо простого добавления вектора позиции к каждому токену вращает векторы Query и Key в зависимости от их позиций в последовательности.
Как работает RoPE:
• Векторы Query и Key разбиваются на двумерные блоки.
• Каждый блок поворачивается на угол, зависящий от позиции токена в последовательности.
Это позволяет учитывать как саму суть токена, так и его положение относительно других токенов.
4. Высокие и низкие частоты в RoPE
В RoPE разные частоты вращения блоков Query и Key определяют, как быстро эти векторы поворачиваются:
• Высокие частоты вызывают быстрое вращение, что делает модель чувствительной к небольшим изменениям позиций токенов.
• Низкие частоты вращаются медленно, и их использование делает модель более стабильной на больших расстояниях между токенами.
Пример:
Предположим, у нас есть два токена: один на позиции 2, другой на позиции 4. RoPE поворачивает их векторы на углы 2*O и 4*O соответственно. При вычислении скалярного произведения модель учитывает не только содержание токенов, но и их относительное положение в последовательности.
5. Разоблачение мифа о затухании внимания с расстоянием
Ранее считалось, что RoPE помогает моделям за счёт того, что оценка внимания (attention score) уменьшается по мере увеличения расстояния между токенами. Однако авторы статьи показали, что это не всегда так. RoPE не обязательно вызывает затухание внимания, но, что более важно, он помогает модели формировать устойчивые паттерны позиционного внимания.
6. Использование низких и высоких частот RoPE
Исследования показали, что модели чаще всего используют низкие частоты RoPE для работы с семантическими отношениями между токенами. В то же время, высокие частоты применяются для создания позиционных attention heads, которые сосредотачиваются на точных позициях, таких как предыдущий или следующий токен.
7. Модификация RoPE: p-RoPE
Авторы статьи предложили улучшенную версию RoPE под названием p-RoPE. Она заключается в удалении самых низких частот, чтобы сделать модель более устойчивой на больших контекстах.
arXiv.org
Round and Round We Go! What makes Rotary Positional Encodings useful?
Positional Encodings (PEs) are a critical component of Transformer-based Large Language Models (LLMs), providing the attention mechanism with important sequence-position information. One of the...
👍19❤11
Эта модификация позволила улучшить производительность моделей, таких как Gemma 2B, особенно при работе с длинными последовательностями.
Вывод: Важность RoPE заключается не в простом затухании внимания по мере увеличения расстояния между токенами. Настоящее преимущество RoPE заключается в его способности создавать позиционные паттерны внимания, что крайне важно для таких задач, как языковое моделирование.
Вывод: Важность RoPE заключается не в простом затухании внимания по мере увеличения расстояния между токенами. Настоящее преимущество RoPE заключается в его способности создавать позиционные паттерны внимания, что крайне важно для таких задач, как языковое моделирование.
🔥12👍5❤2
Media is too big
VIEW IN TELEGRAM
The future should feel like the future. Elon Musk
На специальном мероприятии в Лос Анджелесе, Тесла анонсировала новые модели автомобилей - Cybercab - роботакси без руля и педалей, и Robovan - абсолютно безумного вида беспилотный автобус.
Обещают к 27ому году, ну а пока вот вам Оптимус в роли бармена
На специальном мероприятии в Лос Анджелесе, Тесла анонсировала новые модели автомобилей - Cybercab - роботакси без руля и педалей, и Robovan - абсолютно безумного вида беспилотный автобус.
Обещают к 27ому году, ну а пока вот вам Оптимус в роли бармена
🔥16👍4😁2😐2
Жарим курицу с Артемом
Сегодня был на отличном барбекю с Артемом, автором канала Эй Ай Ньюз! Вдохновляющий вечер в дружеской атмосфере, где обсудили самые актуальные темы из мира AI. Артем всегда знает, как освещать новости с культурной и профессиональной точкой зрения. Не пропустите его канал, если хотите быть в курсе последних событий в мире искусственного интеллекта! 🔥
@ai_newz
Сегодня был на отличном барбекю с Артемом, автором канала Эй Ай Ньюз! Вдохновляющий вечер в дружеской атмосфере, где обсудили самые актуальные темы из мира AI. Артем всегда знает, как освещать новости с культурной и профессиональной точкой зрения. Не пропустите его канал, если хотите быть в курсе последних событий в мире искусственного интеллекта! 🔥
@ai_newz
🎉28😐11❤7🔥5
OpenAI Swarm: фреймворк для мультиагентных систем
Ребята из OpenAI без лишнего шума выложили в открытый доступ свой новый проект — Swarm. Это такой экспериментальный фреймворк для тех, кто хочет поковыряться в мультиагентных системах. Короче, штука для тех, кому интересно, как AI-агенты могут работать в команде и решать сложные задачки.
Основные концепции Swarm — Агенты и Передачи задач. Агенты делают свою работу и могут перекидывать дела другим, типа "эй, бро, возьми это на себя". Идеально подходит, чтобы посмотреть, как эти виртуальные ребята могут сотрудничать.
Swarm вписывается в третий уровень той самой пятиступенчатой модели развития ИИ от OpenAI. Помните, там от простых болтливых ботов до суперсистем, способных рулить целыми компаниями? Вот Swarm как раз на середине этой лестницы:
Болтуны — просто общаются с людьми на обычном языке.
Решалы — автоматизируют поиск инфы и решают задачки.
Агенты — самостоятельные помощники, которые сами принимают решения.
---------Swarm как раз тут---------
Иноваторы — генерят новые идеи и двигают науку.
Боссы — ИИ, способный управлять целой конторой без людей.
Пока что Swarm — это не для серьезных проектов, а так, поиграться. Можно смоделировать, как агенты общаются, протестить простые сценарии и посмотреть, как они координируются в контролируемой среде.
Swarm работает почти полностью на клиенте, что упрощает контроль и тестирование.
В репозитории уже есть с десяток примеров, которые демонстрируют различные сценарии, включая обслуживание клиентов и персонального шопинг-ассистента.
Пример использования Swarm
Основной элемент Swarm — Агент. Вот пример настройки агентов:
Агент A передаёт разговор Агенту B, который отвечает в виде хайку.
На первый взгляд, Swarm — это интересный образовательный эксперимент, но представьте, как в будущем из такого фреймворка может вырасти полноценный AI as a Service!
Да и вообще забавно, раньше Альтман помогал создавать SaaS компании в Y Combinator, а теперь, по всей видимости у него свой AI Combinator.
Я думаю, что уже в ближайшем будущем мы можем увидеть мультиагентные системы, и Swarm — это отличный способ начать понимать, как они работают.
Возможно, ваш следующий менеджер будет не кожаным мешком, а сотней AI-агентов, которые координируются и вешают на вас задачи быстрее, чем когда-либо прежде.
🖥 GitRepo
👨🍳 OpenAI Cookbook
Ребята из OpenAI без лишнего шума выложили в открытый доступ свой новый проект — Swarm. Это такой экспериментальный фреймворк для тех, кто хочет поковыряться в мультиагентных системах. Короче, штука для тех, кому интересно, как AI-агенты могут работать в команде и решать сложные задачки.
Основные концепции Swarm — Агенты и Передачи задач. Агенты делают свою работу и могут перекидывать дела другим, типа "эй, бро, возьми это на себя". Идеально подходит, чтобы посмотреть, как эти виртуальные ребята могут сотрудничать.
Swarm вписывается в третий уровень той самой пятиступенчатой модели развития ИИ от OpenAI. Помните, там от простых болтливых ботов до суперсистем, способных рулить целыми компаниями? Вот Swarm как раз на середине этой лестницы:
Болтуны — просто общаются с людьми на обычном языке.
Решалы — автоматизируют поиск инфы и решают задачки.
Агенты — самостоятельные помощники, которые сами принимают решения.
---------Swarm как раз тут---------
Иноваторы — генерят новые идеи и двигают науку.
Боссы — ИИ, способный управлять целой конторой без людей.
Пока что Swarm — это не для серьезных проектов, а так, поиграться. Можно смоделировать, как агенты общаются, протестить простые сценарии и посмотреть, как они координируются в контролируемой среде.
Swarm работает почти полностью на клиенте, что упрощает контроль и тестирование.
В репозитории уже есть с десяток примеров, которые демонстрируют различные сценарии, включая обслуживание клиентов и персонального шопинг-ассистента.
Пример использования Swarm
Основной элемент Swarm — Агент. Вот пример настройки агентов:
from swarm import Swarm, Agent
client = Swarm()
def transfer_to_agent_b():
return agent_b
agent_a = Agent(
name="Agent A",
instructions="Вы — полезный агент.",
functions=[transfer_to_agent_b],
)
agent_b = Agent(
name="Agent B",
instructions="Говорите только хайку.",
)
response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "Я хочу поговорить с агентом B."}],
)
print(response.messages[-1]["content"])
Агент A передаёт разговор Агенту B, который отвечает в виде хайку.
На первый взгляд, Swarm — это интересный образовательный эксперимент, но представьте, как в будущем из такого фреймворка может вырасти полноценный AI as a Service!
Да и вообще забавно, раньше Альтман помогал создавать SaaS компании в Y Combinator, а теперь, по всей видимости у него свой AI Combinator.
Я думаю, что уже в ближайшем будущем мы можем увидеть мультиагентные системы, и Swarm — это отличный способ начать понимать, как они работают.
Возможно, ваш следующий менеджер будет не кожаным мешком, а сотней AI-агентов, которые координируются и вешают на вас задачи быстрее, чем когда-либо прежде.
👨🍳 OpenAI Cookbook
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23👍6😢5🎉2😁1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Адобченко показывает, как надо встраивать ИИ в продукты.
Я потом приподвзвизжу отдельным постом про AdobeMax, который идет прямо сейчас.
А сейчас поглядите, какой UI\UX должен быть у всех этих видеогенераторов.
Не сгенерить, а потом копировать, импортировать, резать, переделывать, копировать, импортировать..
А генерить прямо в пайплайне. По месту, так сказать.
Ну и многие не поняли - это генерация вместе СО ЗВУКОМ
@cgevent
Я потом приподвзвизжу отдельным постом про AdobeMax, который идет прямо сейчас.
А сейчас поглядите, какой UI\UX должен быть у всех этих видеогенераторов.
Не сгенерить, а потом копировать, импортировать, резать, переделывать, копировать, импортировать..
А генерить прямо в пайплайне. По месту, так сказать.
Ну и многие не поняли - это генерация вместе СО ЗВУКОМ
@cgevent
🔥41
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Как создавать персонажей с помощью LoRA? Это оказалось легче, чем казалось! ✨
Всегда думал, что обучение LoRA — это долго и сложно, но оказалось, я был не прав. Это всего несколько шагов — легко и быстро!
🎨 Запрашиваем Claude создать промт для картинки с сеткой 4x4 и каким-нибудь персонажем.
🖼️ Генерируем картинку с помощью Flux 1.1[Pro].
🎨 Скидываем картинку обратно в Claude, поясняем что нам не нравится и просим переписать промпт, что бы стало лучше.
🖼️ Генерируем картинку по улучшенному промпту
🌄 Масштабируем картинку в 4 раза с Aura-SR
🛠️ Режем картинку на отдельные изображения и упаковываем их в архив (я сделал в просмотре).
🔧 Обучаем LoRA на полученных изображениях.
И вуаля! 🎫 У вас есть персонаж, с которым можно делать всё, что сможет придумать ваше воображение (для этого используем слово-триггер)!
🎣 Отправьте его на рыбалку, приготовьте яичницу или заснимите видео с ним — все ограничено только вашей фантазией!
Музыку сделал в Udio. Сжатие видео - с помощью ffmpeg, команду для которого написал Cursor. Пост отредактировал с помощью ChatGPT 4o with Canvas.
Как говорит один популярный ютубер - What a time to be alive!
Всегда думал, что обучение LoRA — это долго и сложно, но оказалось, я был не прав. Это всего несколько шагов — легко и быстро!
🎨 Запрашиваем Claude создать промт для картинки с сеткой 4x4 и каким-нибудь персонажем.
🖼️ Генерируем картинку с помощью Flux 1.1[Pro].
🎨 Скидываем картинку обратно в Claude, поясняем что нам не нравится и просим переписать промпт, что бы стало лучше.
🖼️ Генерируем картинку по улучшенному промпту
🌄 Масштабируем картинку в 4 раза с Aura-SR
🛠️ Режем картинку на отдельные изображения и упаковываем их в архив (я сделал в просмотре).
🔧 Обучаем LoRA на полученных изображениях.
И вуаля! 🎫 У вас есть персонаж, с которым можно делать всё, что сможет придумать ваше воображение (для этого используем слово-триггер)!
🎣 Отправьте его на рыбалку, приготовьте яичницу или заснимите видео с ним — все ограничено только вашей фантазией!
Музыку сделал в Udio. Сжатие видео - с помощью ffmpeg, команду для которого написал Cursor. Пост отредактировал с помощью ChatGPT 4o with Canvas.
Как говорит один популярный ютубер - What a time to be alive!
🔥44👍12❤4😐2
🔥Новый пушка-промпт для ChatGPT:
Based on all our interactions, what's a career path I might enjoy that I might not realize l'd like?
😐14😁7❤4🤩4👍1
Media is too big
VIEW IN TELEGRAM
🤖 Обновления Optimus от Tesla
На прошлой неделе мы с вами наблюдали Westworld v0.1 на презентации Тесла. Роботы ходили, говорили и раздавали напитки. Конечно же, все они были на удаленном управлении (которое поражает само по себе). Видимо, что бы никто не подумал, что они там только в марионеток играют, команда Оптимуса выпустила новое видео, и вот что они нам показали:
1. 👀 Зрение как у Терминатора
Optimus теперь сам ориентируется в незнакомых помещениях! И всё это только с помощью обычных 2D-камер. Никаких тебе GPS — робот просто запоминает, что где лежит, как мы с вами. Круто, да?
2. 🔋 Сам знает, когда пора подзарядиться
Когда батарейка садится, Optimus не ждёт помощи. Он сам находит зарядку и подключается
3. 🏋️♂️ Силач и акробат в одном корпусе
Ходит теперь ещё увереннее, даже с тяжёлым грузом. А ещё учится ходить по неровной поверхности и лестницам. Скоро будет паркур делать, не удивлюсь!
4. 🗣️ "Окей, Optimus, принеси колы!"
Да-да, теперь он понимает жесты и голосовые команды. Может подать закуски или напитки. Домашний/офисный робот-это рынок на уровне автомобильного как минимум.
5. 🧠 Всё "в голове"
Самое интересное — вся эта магия происходит прямо в "мозгах" Optimus. Никаких внешних суперкомпьютеров, всё на борту. Используют те же технологии, что и в автопилоте Tesla. Представляете, какая мощь в этой железяке?
Конечно, работы ещё вагон и маленькая тележка. Но согласитесь, прогресс впечатляет! Скоро эти ребята из научной фантастики переберутся к нам на кухню.
А вы бы хотели такого помощника дома? Меня например смущает следующий вопрос: а где его хранить? В шкафу? На диване?
Пост VP of Engineering Optimus
На прошлой неделе мы с вами наблюдали Westworld v0.1 на презентации Тесла. Роботы ходили, говорили и раздавали напитки. Конечно же, все они были на удаленном управлении (которое поражает само по себе). Видимо, что бы никто не подумал, что они там только в марионеток играют, команда Оптимуса выпустила новое видео, и вот что они нам показали:
1. 👀 Зрение как у Терминатора
Optimus теперь сам ориентируется в незнакомых помещениях! И всё это только с помощью обычных 2D-камер. Никаких тебе GPS — робот просто запоминает, что где лежит, как мы с вами. Круто, да?
2. 🔋 Сам знает, когда пора подзарядиться
Когда батарейка садится, Optimus не ждёт помощи. Он сам находит зарядку и подключается
3. 🏋️♂️ Силач и акробат в одном корпусе
Ходит теперь ещё увереннее, даже с тяжёлым грузом. А ещё учится ходить по неровной поверхности и лестницам. Скоро будет паркур делать, не удивлюсь!
4. 🗣️ "Окей, Optimus, принеси колы!"
Да-да, теперь он понимает жесты и голосовые команды. Может подать закуски или напитки. Домашний/офисный робот-это рынок на уровне автомобильного как минимум.
5. 🧠 Всё "в голове"
Самое интересное — вся эта магия происходит прямо в "мозгах" Optimus. Никаких внешних суперкомпьютеров, всё на борту. Используют те же технологии, что и в автопилоте Tesla. Представляете, какая мощь в этой железяке?
Конечно, работы ещё вагон и маленькая тележка. Но согласитесь, прогресс впечатляет! Скоро эти ребята из научной фантастики переберутся к нам на кухню.
А вы бы хотели такого помощника дома? Меня например смущает следующий вопрос: а где его хранить? В шкафу? На диване?
Пост VP of Engineering Optimus
🔥34👍10❤3
ИИ как зеркало биологии
Когда нейросети обучаются различать изображения, они, похоже, повторяют стратегии, которые природа совершенствовала миллионы лет. Недавнее исследование показало, что один из ключевых механизмов обработки изображений в ИИ — частотный детектор — был обнаружен в зрительной коре мышей. Буквально, нейронные сети и мозг сходятся не только по фукции, но и по структуре. Это открытие не просто забавное совпадение, а ключ к пониманию того, как природа и искусственный интеллект сходятся в подходах к решению сложных задач визуального восприятия.
Нейроны, отвечающие за обработку высоких и низких частот, были описаны в статье Distill для искусственных {приходится уточнять теперь} нейросетей. Эти частотные детекторы распознают переходы между высокими и низкими пространственными частотами. В глубоких свёрточных сетях, например, таких как Inception V1, активации нейронов можно представить как результат преобразований Фурье, где разные слои сети извлекают особенности изображения, подобные анализу частотных компонентов. Детекторы высоких частот фокусируются на деталях, а низкочастотные нейроны — на общих формах и контурах.
Биологические эксперименты показали, что у мышей зрительная кора обрабатывает визуальные стимулы схожим образом. Это подтверждает гипотезу о том, что мозг использует механизмы, аналогичные математическим преобразованиям, которые применяются в глубоких нейронных сетях, что ещё раз подчеркивает универсальность принципов обработки информации.
Почему это важно? Специалисты МЛ знают, что преобразование Фурье и частотные детекторы — это не просто математика, а фундаментальные механизмы для разложения сложных данных на понятные компоненты. Открытие аналогичного подхода в мозге млекопитающих доказывает, что нейронные сети не просто приближаются к биологическим системам, они могут отражать сами принципы их работы - и помочь нам понять, как же, в конце-то концов, работает наш мозг.
🧪 Distill. Частотные детекторы в нейросетях
🎹 Исследование частотной обработки в мозге мышей
Когда нейросети обучаются различать изображения, они, похоже, повторяют стратегии, которые природа совершенствовала миллионы лет. Недавнее исследование показало, что один из ключевых механизмов обработки изображений в ИИ — частотный детектор — был обнаружен в зрительной коре мышей. Буквально, нейронные сети и мозг сходятся не только по фукции, но и по структуре. Это открытие не просто забавное совпадение, а ключ к пониманию того, как природа и искусственный интеллект сходятся в подходах к решению сложных задач визуального восприятия.
Нейроны, отвечающие за обработку высоких и низких частот, были описаны в статье Distill для искусственных {приходится уточнять теперь} нейросетей. Эти частотные детекторы распознают переходы между высокими и низкими пространственными частотами. В глубоких свёрточных сетях, например, таких как Inception V1, активации нейронов можно представить как результат преобразований Фурье, где разные слои сети извлекают особенности изображения, подобные анализу частотных компонентов. Детекторы высоких частот фокусируются на деталях, а низкочастотные нейроны — на общих формах и контурах.
Биологические эксперименты показали, что у мышей зрительная кора обрабатывает визуальные стимулы схожим образом. Это подтверждает гипотезу о том, что мозг использует механизмы, аналогичные математическим преобразованиям, которые применяются в глубоких нейронных сетях, что ещё раз подчеркивает универсальность принципов обработки информации.
Почему это важно? Специалисты МЛ знают, что преобразование Фурье и частотные детекторы — это не просто математика, а фундаментальные механизмы для разложения сложных данных на понятные компоненты. Открытие аналогичного подхода в мозге млекопитающих доказывает, что нейронные сети не просто приближаются к биологическим системам, они могут отражать сами принципы их работы - и помочь нам понять, как же, в конце-то концов, работает наш мозг.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍12❤7😐2
This media is not supported in your browser
VIEW IN TELEGRAM
Bitnet.cpp от Microsoft теперь доступен для всех
Компания опубликовала с открытым исходным кодом bitnet.cpp - невероятно быстрый фреймворк для вывода 1-битных больших языковых моделей, работающий непосредственно на процессорах.
Почему это меняет правила игры? 🎮
Теперь вы можете запускать модели с 100 миллиардами параметров на локальных устройствах с повышением скорости до 6 раз и снижением энергопотребления на 82% - и всё это без использования графического процессора!
Быстрый, эффективный и приватный ИИ становится ещё ближе для каждого 🤖
💻 GitHub
Компания опубликовала с открытым исходным кодом bitnet.cpp - невероятно быстрый фреймворк для вывода 1-битных больших языковых моделей, работающий непосредственно на процессорах.
Почему это меняет правила игры? 🎮
Теперь вы можете запускать модели с 100 миллиардами параметров на локальных устройствах с повышением скорости до 6 раз и снижением энергопотребления на 82% - и всё это без использования графического процессора!
Быстрый, эффективный и приватный ИИ становится ещё ближе для каждого 🤖
💻 GitHub
🔥39👍9😱7
Уволился из стартапа в Сан Франциско
Сегодня мой последний день в Nooks, и я хочу рассказать вам о моем невероятном путешествии за эти 9 месяцев.
Кто бы мог подумать, что мой опыт работы с сейсмическими волнами приведет меня в мир телефонии и обработки звука? Но именно так и случилось!
Чем я особенно горжусь:
1️⃣ Разработал (скорее всего) самую быструю и точную систему определения автоответчиков на рынке и называл ее DialCobra.
2️⃣ Внедрил ИИ в обработку звонков, что позволило построить несколько новых продуктов и вывести их на рынок.
3️⃣ Создал инфраструктуру для работы с большими объемами аудиоданных, что сильно упростило работу всей компании.
Главные уроки, которые я вынес:
🧩 Сложные задачи требуют гибкого подхода. Иногда лучше двигаться маленькими шагами, чем стремиться к идеалу сразу.
📊 Качественные данные - ключ к успеху в ИИ. Это работает и для землетрясений, и для телефонных звонков!
🧪 При работе со сложными системами важно тестировать каждый компонент отдельно.
Со следующего понедельника начинается новая глава! Stay tuned
Сегодня мой последний день в Nooks, и я хочу рассказать вам о моем невероятном путешествии за эти 9 месяцев.
Кто бы мог подумать, что мой опыт работы с сейсмическими волнами приведет меня в мир телефонии и обработки звука? Но именно так и случилось!
Чем я особенно горжусь:
1️⃣ Разработал (скорее всего) самую быструю и точную систему определения автоответчиков на рынке и называл ее DialCobra.
2️⃣ Внедрил ИИ в обработку звонков, что позволило построить несколько новых продуктов и вывести их на рынок.
3️⃣ Создал инфраструктуру для работы с большими объемами аудиоданных, что сильно упростило работу всей компании.
Главные уроки, которые я вынес:
🧩 Сложные задачи требуют гибкого подхода. Иногда лучше двигаться маленькими шагами, чем стремиться к идеалу сразу.
📊 Качественные данные - ключ к успеху в ИИ. Это работает и для землетрясений, и для телефонных звонков!
🧪 При работе со сложными системами важно тестировать каждый компонент отдельно.
Со следующего понедельника начинается новая глава! Stay tuned
❤68🔥37👍23😐3😁1😢1
🤖 CEO Anthropic о будущем с ИИ: прогноз на ближайшее десятилетие
Дарио Амодей, генеральный директор компании Anthropic, специализирующейся на разработке искусственного интеллекта, представил свое видение развития ИИ в ближайшие 5-10 лет.
Вот ключевые моменты из его эссе:
🧬 Медицина и биология:
ИИ может ускорить биологические исследования
Ожидается прогресс в лечении рака, генетических заболеваний и нейродегенеративных расстройств
🧠 Нейронауки и психическое здоровье:
Прогнозируются прорывы в понимании и лечении психических заболеваний
Особое внимание уделяется депрессии и шизофрении
💹 Экономика:
ИИ может способствовать значительному экономическому росту
В некоторых развивающихся регионах возможно увеличение ВВП до 20% в год
⚖️ Управление и правосудие:
Ожидается повышение эффективности демократических институтов
Предполагается улучшение работы судебных систем с помощью ИИ
🔄 Трансформация труда:
Прогнозируется изменение структуры занятости
Возможно введение универсального базового дохода
Ожидается смещение фокуса общества на личностное развитие
📚 Источник: эссе Дарио Амодея, CEO Anthropic
Дарио Амодей, генеральный директор компании Anthropic, специализирующейся на разработке искусственного интеллекта, представил свое видение развития ИИ в ближайшие 5-10 лет.
Вот ключевые моменты из его эссе:
🧬 Медицина и биология:
ИИ может ускорить биологические исследования
Ожидается прогресс в лечении рака, генетических заболеваний и нейродегенеративных расстройств
🧠 Нейронауки и психическое здоровье:
Прогнозируются прорывы в понимании и лечении психических заболеваний
Особое внимание уделяется депрессии и шизофрении
💹 Экономика:
ИИ может способствовать значительному экономическому росту
В некоторых развивающихся регионах возможно увеличение ВВП до 20% в год
⚖️ Управление и правосудие:
Ожидается повышение эффективности демократических институтов
Предполагается улучшение работы судебных систем с помощью ИИ
🔄 Трансформация труда:
Прогнозируется изменение структуры занятости
Возможно введение универсального базового дохода
Ожидается смещение фокуса общества на личностное развитие
📚 Источник: эссе Дарио Амодея, CEO Anthropic
😁22😐11👍10🔥4🤩2❤1