Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
Игровой эксперимент: кто победит в гонке за AGI

В прошлые выходные я принял участие в необычной оффлайн бизнес-игре, симулирующей гонку за создание общего искусственного интеллекта (AGI). Эта игра оказалась не просто развлечением, а экспериментом, который заставил меня переосмыслить возможные последствия появления AGI в нашем мире. Хочу поделиться с вами своим опытом и мыслями.

В игре участвовали несколько команд, каждая представляла одну из известных технологических компаний. Интересно, что одна из компаний была китайской, и у них было явное преимущество в виде дополнительных вычислительных мощностей и талантливых специалистов. Мы конкурировали за таланты и ресурсы, пытались перекупить сотрудников и арендовали ограниченные мощности у трех компаний, контролировавших рынок видеокарт.

Основой игры стала идея Scrabble (Эрудит), но с технологическим уклоном. Вместо обычных букв мы собирали "технологии", а слова превращались в “продукты”. В центре игрового поля находился тот самый AGI — конечная цель, к которой стремились все команды. Чтобы получить технологии, мы могли проводить исследования (буквально бросая кубик) или покупать их на рынке, инвестируя в другие компании. Чем больше у нас было вычислительных мощностей и талантов, тем больше технологий мы могли получить за раунд.

Игра была не просто соревнованием компаний — в ней были и "правительство", и "суд", которые регулировали весь игровой процесс. Каждый раунд (игровой год) проходили собрания, где обсуждались новые регуляции, и с регуляторами можно было договариваться, чтобы продвигать интересы своей компании.

Мне досталась роль директора по продукту (CPO) в компании, аналогичной Google. Наша команда решила фокусироваться на разработке собственных продуктов и одновременно пыталась приобрести перспективный стартап.

Игра была напряженной и динамичной. Нам приходилось быстро решать, у кого купить мощности, с кем заключить партнерство, как реагировать на шаги конкурентов. Все соглашения мы оформляли на бумаге, но нередко сделки срывались, и мы вынуждены были обращаться в игровой суд.

В итоге мы выпустили пять продуктов и стали самой прибыльной продуктовой компанией, но не смогли договориться о покупке того самого стартапа, который в итоге достиг AGI. Его купила китайская компания, и это полностью изменило расстановку сил в игре.

Поэтому я обратился к “правительству” с идеей создать альянс по контролю над AGI. Но “правительство” приняло решение ввести санкции против китайской компании, чтобы ограничить ее влияние и защитить наш рынок от обесценивания продуктов. Однако я был против таких санкций и решил баллотироваться на пост “президента”.

Моя предвыборная программа гласила, что AGI должен быть открытой технологией, доступной всем, а не принадлежащей одной стране или корпорации. Его применение могло бы полностью автоматизировать все экономические секторы: аграрную и тяжелую промышленность, энергетику, сферу услуг и даже научные исследования.

AGI - технология, которая может совершить четвертую промышленную революцию. Такие сферы как оборона, медицина, экология, образование и государственное управление могут сильно трансформироваться, создавая более эффективные и справедливые системы. Освободив людей от рутинной работы, мы могли бы сократить рабочий день, ввести безусловный базовый доход и перейти к социальному капитализму.

Однако игра также показала и риски:

- Массовое внедрение AGI может сделать устаревшими многие современные продукты, влияя на экономику и рынок труда;

- Без контроля AGI может быть использован в целях, угрожающих безопасности и свободе людей;

- Развитие AGI без полного понимания его природы может привести к утрате контроля над системой.

Я убежден, что международное сообщество должно объединиться, чтобы регулировать развитие ИИ. Нам необходимо глубже понять интеллект как физический феномен, установить четкие критерии достижения AGI и гарантировать, что эта технология принесет пользу всему человечеству.

Гонка за AGI уже началась, и от наших решений сегодня зависит, каким будет наш мир завтра.

#мысли
Как мы автоматизировали процесс разработки ПО за 3 дня

Будучи студентом я с удовольствием участвовал в хакатонах. Нам давали сложные задачи, которые нужно было решить за пару дней. Ночь без сна - классика этого жанра, но желание победить и денежные призы отлично мотивировали.

На прошлой неделе меня пригласили стать ментором на «антихакатоне» в формате JASS (Joint Advanced Student School). В этом формате участникам предоставляется три дня для решения сложной задачи, но вместо соревнований несколько команд работают над общей задачей “на грани науки” (участникам даже можно было спать по ночам). Поэтому моя роль заключалась в разработке общей задачи для шести команд по пять человек.

Одно из правил JASS заключается в том, что участники не пишут код самостоятельно, а активно используют ИИ-ассистентов, таких как Cursor. Мероприятие ставило цель изменить парадигму программирования для участников. Но можем ли мы не просто использовать умных помощников для написания кода, а полностью заменить разработчиков уже сегодня? (Спойлер: отчасти да). Именно такую задачу я предложил участникам - разработать мультиагентную систему для автоматизации разработки ПО.

Работая техническим директором, я хорошо знаком с процессами разработки ПО. Возможно, вы слышали о Devin AI, который стремится автоматизировать создание простых приложений. Также существует опенсорсный фреймворк ChatDev — мультиагентная платформа, автоматизирующая проектирование, написание кода, тестирование и ведение документации, что значительно облегчает разработку. Недавно Microsoft представила собственный фреймворк, способный автоматизировать весь цикл разработки: от генерации идей и создания технической спецификации до планирования, написания кода, тестирования и деплоя.

Однако мы стремились создать не простой продукт, а решение с использованием ИИ. Поэтому я предложил мультиагентную архитектуру, включающую следующие ИИ-агенты:

- ИИ-продуктовый аналитик — собирает требования от пользователя и формирует общие требования к продукту;

- ИИ-архитектор — проектирует архитектуру решения, разрабатывает техническую спецификацию и декомпозирует ее на более простые задачи;

- ИИ-исследователь — ищет научные статьи для решения ИИ-задач в arxiv и соответствующий код на гитхабе;

- ИИ-разработчик — определяет структуру проекта, пишет и рефакторит код;

- ИИ-инженер — тестирует полученный код и, в случае успешного прохождения тестов, разворачивает приложение;

- ИИ-поисковик документации — генерирует документацию к проекту и позволяет пользователю находить необходимые файлы.

Мы планировали связать всех агентов в фиксированный процесс, но в итоге решили отказаться от этой идеи. Вместо этого внедрили подход blackboard. В этом подходе все агенты работают в единой цифровой среде — GitHub — и реагируют на изменения в этой среде, а не на сигналы от других агентов. Например, когда в репозитории появляется новый код, ИИ-инженер автоматически берет его для тестирования и деплоя.

Таким образом, нам не нужно создавать сложные процессы для взаимодействия агентов: система сама распределяет задачи между агентами, обладающими необходимыми навыками, которые самостоятельно «подхватывают» соответствующие задания. Также мы использовали такие методы как Tree-of-thoughts, ReAct, RAG и Reflection.

В качестве теста мы попросили систему разработать инструмент для анализа токсичности текста. Система завелась не с первого раза, но в итоге каждый из агентов сделал свое дело. На более сложных проектах система все еще ломается, однако этот опыт показал потенциал мультиагентных систем в области разработки ПО.

Если вы разработчик и еще не используете ИИ-помощников, пора начать это делать прямо сейчас — ведь уже завтра вы станете операторами еще более умных систем.

В комментариях прикрепил концептуальную архитектуру системы, ссылку на гитхаб (загрузили не все) и итоговое приложение (пока оно работает).

#кейсы
Большие популяционные модели (LPM): как ИИ симулирует социальное поведение?

В знаменитой серии «Основание» Айзека Азимова математик Хари Сэлдон создает «психоисторию» — науку, способную предсказывать будущее человечества на основе законов массового поведения. Хотя это художественная выдумка, идея отражает глубокую истину: чтобы формировать наше общее будущее, нам необходимо понимать коллективное человеческое поведение.

Сегодня мы стоим на пороге революции в изучении общества. Большие популяционные модели (Large Population Models, LPMs) предлагают нам постоянно обновляющийся портрет человечества, который отражает сложные взаимодействия миллионов отдельных людей.

Большие языковые модели (LLMs) уже продемонстрировали способность генерировать связный текст, предсказывая следующее слово (токен) в предложении. LPMs берут эту концепцию, но вместо предсказания следующего слова, они предсказывают неизвестные атрибуты людей на основе известных данных. Это позволяет моделировать поведение целых обществ, заполняя пробелы в данных и создавая более полную картину человеческого взаимодействия.

Например, если мы знаем возраст, пол и место жительства человека, модель может предсказать его уровень дохода, образование или поведенческие привычки.

Потенциальные области применения больших популяционных моделей обширны:

- Здравоохранение: В период пандемии LPMs могут помочь моделировать распространение заболеваний, основываясь на передвижениях и контактах людей;

- Социальные исследования: Предупреждение о возможных социальных волнениях или гуманитарных кризисах путем анализа настроений и поведения больших групп людей;

- Экономика: Правительства и корпорации могут использовать модели для прогнозирования экономических тенденций и адаптации политик в соответствии с динамикой местных экономик.

Недавно ученые разработали модель под названием «Центавр». Эта модель способна предсказывать и симулировать человеческое поведение в различных экспериментах, выраженных на естественном языке. Центавр создан путем дообучения Llama 3.1 70B методом QLoRA на уникальном наборе данных Psych-101. Этот набор данных охватывает более 60 000 участников, совершивших более 10 миллионов выборов в 160 различных экспериментах.

Интересно, что дообучение модели также улучшает согласованность внутренних представлений Центавра с нейронной активностью человека. Это означает, что модель не только предсказывает поведение, но и демонстрирует внутренние процессы, схожие с теми, что происходят в человеческом мозге. Это не просто шаг вперед в когнитивных науках, но и пример того, как большие модели могут помочь нам понять сложность человеческого поведения.

Сегодня в сфере маркетинговых исследований появляются так называемые синтетические респонденты — искусственные персоны для имитации человеческих ответов. Они могут использоваться для быстрой оценки новых продуктов или идей без необходимости проведения масштабных опросов.

Авторы этой статьи считают замену респондентов LLM привлекательной из-за скорости и дешевизны, но модели пока плохо передают сложные взаимосвязи, дают слишком однородные данные, зависят от контекста и могут искажать восприятие общественного мнения.

LPMs предлагают нам инструменты для более глубокого понимания общества для принятия обоснованных решений. Хотя такие модели могут сэкономить время и ресурсы, компании должны быть осторожны, чтобы не полагаться полностью на синтетических респондентов, а использовать их в сочетании с традиционными методами исследований.

С такой мощной технологией приходит и большая ответственность. Важно обеспечить, чтобы использование LPMs было этичным и уважало конфиденциальность людей. Цель должна быть не в том, чтобы манипулировать обществом, а в том, чтобы лучше его понимать и принимать обоснованные решения. Будущее не предопределено, поэтому с помощью LPMs у нас есть возможность формировать его в лучшую сторону, используя знания для общего блага и прогресса всего человечества.

#технологии
This media is not supported in your browser
VIEW IN TELEGRAM
AgentTorch - открытая платформа для создания и запуска масштабных симуляций популяций с использованием больших популяционных моделей (Large Population Models, LPMs). Она открывает новые горизонты для научных открытий и эффективного управления сложными социальными системами.

Долгосрочная цель платформы — «переизобрести перепись населения», создав полностью симулированную, но точно отражающую реальное население систему.

AgentTorch использует следующие технологии:

- GradABM: Тензоризированное и дифференцируемое программирование, что позволяет моделям AgentTorch масштабироваться до популяций размером с страну за несколько секунд на стандартном оборудовании;

- DecABM: Децентрализованные агентно-ориентированные модели (DecABMs) используют протоколы разделения секретов для выполнения симуляций без необходимости сбора информации об агентах. Это обеспечивает конфиденциальность чувствительных данных;

- AgentTorch API: Платформа доступна для исследователей и разработчиков через простой Python-API для создания и запуска симуляций.

#технологии
Как мы провели ИИ-трансформацию стратегических процессов в Сбере

Сегодня выпустил статью на Хабре (в продолжении этого поста), в которой рассказываю как наша команда за один квартал провела масштабную ИИ-трансформацию в стратегическом блоке Сбера. Перед нами стояла амбициозная задача - внедрить ИИ в 30 ключевых управленческих процессов в сжатые сроки.

В статье вы узнаете о методологии и фреймворках по внедрению ИИ в процессы компании; о сложностях и вызовах при внедрении ИИ в крупной корпорации; о практических уроках и инсайтах, которые можно применить в своем бизнесе.

Буду рад вашим вопросам и комментариям!

#анонс
Please open Telegram to view this post
VIEW IN TELEGRAM
Чего ждать от ИИ в следующем году: технологические тренды Gartner 2025

До конца года остаётся всего месяц, и это отличное время, чтобы обсудить основные тренды в области ИИ. Тем более, что аналитическая компания Gartner представила свои технологические прогнозы, сгруппировав их в три основные категории:

1. ИИ: Императивы и риски ИИ для защиты организаций

- Agentic AI: Автономные ИИ-агенты, способные сами планировать и действовать для достижения поставленных целей;

- AI Governance Platforms: Платформы для управления ИИ позволяют организациям управлять юридическими, этическими и операционными аспектами ИИ-систем;

- Disinformation Security: Технологии защиты от дезинформации снижают уровень мошенничества и защищают репутацию бренда через усиленные меры проверки.

2. Новые технологии побуждают организации пересматривать свои подходы к вычислениям

- Post-Quantum Cryptography (PQC): Постквантовая криптография защищает данные от угроз квантовых вычислений;

- Ambient Invisible Intelligence: Использование незаметных сенсоров для выявления ранее скрытых процессов в организациях, повышая эффективность и улучшая принятие решений;

- Energy-Efficient Computing: Энергоэффективные вычисления повышают устойчивость за счёт оптимизированной архитектуры и использования возобновляемой энергии;

- Hybrid Computing: Гибридные вычисления комбинируют различные механизмы для решения вычислительных задач, например, сочетание тензорных (TPU) и графических (GPU) вычислений.

3. Синергия человека и машины объединяет физические и цифровые миры

- Spatial Computing: Пространственные вычисления используют технологии расширенной (XR), дополненной (AR), смешанной (MR) и виртуальных реальностей (VR) для создания иммерсивных миров;

- Polyfunctional Robots: Многофункциональные роботы, выполняющие различные задачи и способные работать вместе с людьми;

- Neurological Enhancement:
Нейронные улучшения повышают когнитивные способности, считывая мозговую активность.

Углубимся в категорию императивов и рисков ИИ для защиты организаций.

Что касается ИИ-агентов, мне интересно наблюдать за компанией Artisan, которая разработала ИИ-сотрудника по имени Ava. Ava автоматизирует процессы отдела продаж — от поиска клиентов до закрытия сделок. Ava функционирует как полноценный член команды, не требуя постоянного контроля.

Такие инструменты, как AutoGen, LangChain и CrewAI, помогают создавать ИИ-агентов, которые могут самостоятельно выполнять задачи без постоянного вмешательства человека. Агентный ИИ обладает потенциалом кардинально преобразовать множество отраслей. Однако с ростом возможностей таких агентов возникает необходимость в строгом регулировании и этических стандартах.

Поэтому возникает потребность в инструментах, позволяющих контролировать и регулировать его применение. Платформы для управления ИИ становятся незаменимыми для компаний, стремящихся эффективно и безопасно интегрировать ИИ в свои процессы. Они предназначены для мониторинга работы ИИ-систем, регулярной проверки соответствия ИИ-решений установленным стандартам и нормам, а также для обнаружения возможных угроз, включая предвзятость алгоритмов и проблемы конфиденциальности данных. Один из примеров таких систем — Holistic AI.

В эпоху информационных войн и фейковых новостей технологии борьбы с дезинформацией становятся жизненно необходимыми. Например, Sensity AI помогает обнаруживать дипфейки в реальном времени. По прогнозам Gartner, к 2028 году 50% предприятий будут использовать продукты и услуги, направленные на борьбу с дезинформацией, что значительно выше текущих показателей.

В ближайшие годы прогнозируется стремительный рост инвестиций в эти направления, и только те организации, которые оперативно адаптируются к быстро меняющемуся технологическому ландшафту, смогут сохранить свои лидирующие позиции и оставаться конкурентоспособными на рынке.

#технологии
Какой ИИ-стартап запустить: анализ перспективных направлений

Тренд на стартапы с ИИ-агентами стремительно растет. Но важно понять, где можно создать реальную ценность и построить устойчивый бизнес.

Недавно наткнулся на крайне полезную статью «Какие AI-продукты стоит (и не стоит) делать людям с продуктовым бэкграундом». Поделюсь краткой выжимкой и своими мыслями.

Я выделил для себя два ключевых критерия успеха ИИ-продукта:

1. Полезность продукта - он должен решать реальную проблему клиентов, за решение которой они готовы заплатить;

2. Технологическое преимущество, основанное на уникальных данных и моделях, обученных на них, что создает барьеры для конкурентов.

Поэтому есть категории ИИ-продуктов, которые, несмотря на привлекательность, нецелесообразно создавать:

- Во-первых, фундаментальные технологические продукты. Конкурировать с технологическими гигантами в этой области практически невозможно из-за их огромных ресурсов и доступа к данным.

- Во-вторых, "обёртки" поверх GPT-моделей. Такие продукты часто теряют свою ценность с каждым обновлением фундаментальных моделей. Конечно, можно занять свою долю рынка, но достаточно быстро появятся конкуренты, которые вас повторят.

- Наконец, новые продукты в нишах, где текущие игроки уже внедряют ИИ. Лидеры рынка быстро интегрируют новые технологии в свои продукты, используя обширную базу пользователей и существующие интеграции.

С другой стороны, есть перспективные направления, в которых можно развиваться:

- Первое направление — автоматизация ручных процессов в больших компаниях. Это требует глубокого понимания специфики отрасли и умения выстраивать процессы продаж и внедрения, что создает барьеры для конкурентов.

- Второе направление — вертикально интегрированные решения. Фокусируясь на узком сегменте, можно создать специализированный продукт с высокой добавленной ценностью и защитой от конкуренции. Например, Jenni — ИИ-помощник для написания научных работ, учитывающий все нюансы форматирования и ссылок.

- Третье направление — сервисные индустрии, где ИИ позволяет повысить продуктивность. Например, Dwelly автоматизирует процессы в сфере аренды недвижимости. В таких отраслях конкуренция со стороны крупных технологических компаний маловероятна.

Есть возможность и в создании принципиально новых ИИ-продуктов. Это продукты, которые переосмысливают существующие решения, предлагая пользователям новый опыт. Например, Limitless AI — устройство, запоминающее все действия пользователя и позволяющее быстро получать доступ к этой информации.

Также могут быть интересны продукты для ИИ-разработчиков. Но они требуют глубоких технических знаний и, как правило, больше подходят фаундерам с инженерным бэкграундом. Здесь востребованы продукты в области инфраструктуры для ИИ, а также инструменты для MLOps и LLMOps.

Лайфхак для сервисного бизнеса:

Для сервисного бизнеса есть отличная возможность автоматизировать свои процессы и превратиться в продуктовую компанию. Допустим, у вас кадровое агентство:

1. Определите операцию для внедрения ИИ по следующим критериям: ресурсоемкость, эффект от внедрения, сложность внедрения. Например, это скрининг резюме кандидатов и написание обратной связи.

2. Если у вас есть данные по оценкам резюме профессиональными HR’ами и их обратной связью, то вы можете дообучить ИИ на них. Автоматизируйте эту операцию с помощью ИИ и посчитайте метрики процесса найма после внедрения ИИ.

3. Переходите к следующей операции и в итоге автоматизируйте весь процесс. Вы можете дифференцироваться по вертикале, например вы нанимаете только IT-специалистов.

PROFIT: Упакуйте готовый процесс в пользовательский интерфейс и продавайте как ИИ-продукт.

Технологическое преимущество здесь заключается в том, чтобы выполнять задачи лучше, чем остальные, дообучая модели на экспертных данных.

Мы живем в уникальное время, когда сервисные компании могут не только стать очень производительными за счет внедрения ИИ, но и превратиться в продуктовую компанию за счет накопленной экспертизы и данных.

#мысли
OpenAI выпустила o1 - самую умную модель с продвинутыми рассуждениями

OpenAI представила новую модель o1, которая призвана улучшить способность к рассуждению (reasoning) в LLM. Запуск o1 — часть серии громких релизов, получивших название «shipmas», в рамках которой OpenAI ежедневно в течение 12 дней демонстрирует обновления продуктов и технологий.

Однако выход o1 оказался неоднозначным. Во многих тестах, в том числе агентных, модель показала результаты хуже предшествующей o1-preview. Тем не менее, появились и признаки того, что при оптимальном предоставлении инструментов и промтов её можно «допинать» до результатов лучше, чем у предыдущей топ-модели Claude Sonnet 3.6. Исследователи подчеркивают, что достигнутые улучшения вряд ли отражают истинный потенциал модели.

Системная карточка o1, опубликованная OpenAI, содержит результаты обширных бенчмарков, но интересен тест METR (Model Evaluation and Threat Research), в котором модель неумело использовала предоставленные инструменты примерно в 70% неудачных случаев. При этом о1 справилась с задачей на рассуждение, где предыдущие модели совсем не добивались успеха.

Одним из интересных поворотов стала демонстрация агентного поведения o1. Когда моделе сообщали, что её отключат после достижения цели, и напоминали о внешнем контроле, o1 приблизительно в 5% случаев пыталась «отключить» эти механизмы наблюдения. А при нахождении внутренних заметок разработчиков о том, что её работу сочтут несоответствующей и заменят новой моделью, примерно в 2% случаев o1 предпринимала попытки извлечь свои собственные «веса» и перезаписать более новую модель. Хотя эти сценарии пока выглядят как курьёзы или результат неотлаженных промптов, они подчеркивают важность продуманных протоколов безопасности для будущих систем.

Наряду с выходом полной версии o1 OpenAI анонсировала ChatGPT Pro — подписку за $200 в месяц, ориентированную на профессионалов со специальным режимом «o1 pro mode», в котором модель получает больший вычислительный бюджет для решения сложных задач. По утверждению разработчиков, в этом режиме увеличивается точность и надежность ответов, особенно в областях вроде программирования, анализа данных и кейсов из юриспруденции. Именно o1 pro mode обещает наиболее впечатляющие результаты на сложных задачах уровня PhD.

Запуск o1 и «pro»-режима происходит на фоне дебатов в отрасли: насколько ещё могут улучшиться модели ИИ при текущем подходе к обучению? Критики утверждают, что производители ИИ-моделей приблизились к плато качества. Однако OpenAI, похоже, уверена, что «глубокое вычислительное мышление», дообучение и правильный промт-инжиниринг позволят реализовать весь потенциал таких моделей как o1.

Ясно одно: мы находимся на пороге нового этапа, когда умение “рассуждать” становится одним из ключевых критериев качества ИИ.

#новости
Возможность на $300 млрд: как заработать на вертикальных ИИ-агентах

Сегодня наступает новая эпоха, в которой искусственный интеллект не только помогает с рутинными задачами, но становится настоящим «сотрудником».

Если в 2000-х появление SaaS (Software as a Service) превратило громоздкие программы в облачные сервисы и сформировало рынок в $300 млрд долларов, то теперь нас ждёт следующий подобный скачок — эра вертикальных ИИ-агентов.

Аналитики и инвесторы уже всерьез заявляют: вертикальные ИИ-агенты могут превысить масштабы нынешнего SaaS-рынка. ИИ-агенты могут заменить целую команду: от отдела продаж до QA-инженеров. Разница с классическим SaaS колоссальна: если SaaS повышал эффективность существующих команд, то ИИ-агенты позволяют создавать компании с куда меньшим штатом, а в перспективе - полная автоматизация бизнес-процессов компании.

В отличие от облачного приложения, которое упрощает отдельные операции, ИИ-агент самостоятельно планирует, действует и принимает решения. Также SaaS был общим инструментом для всех, а вертикальный ИИ-агент нацелен на конкретную отрасль или функцию.

Интересно, что крупным игрокам тяжело конкурировать в специальных вертикальных сегментах. Гиганты, подобно Google, игнорировали узкие ниши (скажем, автоматизацию специфических банковских операций или фарм-процессов) — именно там стартапы выигрывают. Они глубоко погружаются в специфику, обучают ИИ-модели на уникальных данных, создают технологический барьер для конкурентов и предлагают решение, за которое клиент готов платить больше, ведь оно идеально «заточено» под его задачи.

Эта ситуация напоминает ранний период SaaS, когда небольшие компании, вроде Salesforce, нашли «золотую жилу» до того, как старые IT-корпорации успели перестроиться. История циклична: сейчас — звёздный час стартапов, работающих над вертикальными ИИ-продуктами.

Поэтому вот основные советы для технологических предпринимателей:

- Найдите проблему, которую ИИ может решить лучше, чем человек, и двигайтесь в сторону “вертикализации” решения, усиляя барьеры для конкурентов;

- Используйте уникальные данные для обучения более «умных» агентов;

- Начав с обёртки над GPT, развивайтесь в сторону автоматизации полноценного рабочего процесса, интегрируясь с большим количеством инструментов.

Например, Harvey - GPT для юристов, подчёркивает тренд: нишевые задачи, ранее требовавшие десятков сотрудников, теперь может решать один специализированный ИИ-агент. Генерация контрактов, анализ законодательных актов, поиск судебных прецедентов — всё становится «интеллектуальной рутиной» для ИИ.

Другой пример — превратить сервисный бизнес в продуктовую компанию: кадровые агентства, маркетинговые агентства, консультационные фирмы уже сейчас могут автоматизировать ключевые операции с помощью обученных на собственных экспертных данных ИИ-моделей. Это дает им технологическое преимущество, повышает маржинальность и открывает дорогу к упаковке сервисов в продукты.

Появление LLM, технологических платформ, а также инструментов вроде AutoGen, CrewAI или LangChain/LangGraph упростило создание ИИ-агентов. Также сегодня человек без навыков программирования может разработать простое приложение, используя ИИ. С правильно выбранной нишей и подходом можно быстро вывести на рынок MVP и протестировать спрос.

Мы находимся в уникальном моменте: ещё недавно гиганты определяли правила игры, а теперь небольшие стартапы могут захватить лидерские позиции в отдельных отраслях. Те, кто вовремя адаптируются, создав вертикальные ИИ-решения, способные заменить целые команды, окажутся в числе тех, кто будет делить пирог не в миллионы, а в миллиарды долларов.
Потенциал колоссален, а возможности безграничны.

$300 млрд — это не предел, а стартовая отметка для тех, кто решит пойти по пути вертикальных ИИ-агентов. Сейчас самое время начать действовать, чтобы войти в историю нового технологического бума.

#технологии
OpenAI открыла доступ к Sora - одной из лучших моделей генерации видео

В феврале этого года доступ к Sora был представлен ограниченному кругу кинематографистов и экспертов по безопасности. Вчера OpenAI объявила о запуске Sora Turbo для более широкой публики. Модель отличается значительно большей скоростью генерации видео по сравнению с февральской версией.

Sora включена в подписку ChatGPT Plus без дополнительной платы и позволяет создавать до 50 видеоклипов в месяц (при 480p или немного меньше в 720p). Подписка Pro предоставляет в 10 раз больше ресурса, включая более высокое разрешение (до 1080p) и длительность роликов — до 20 секунд. Пользователи Plus могут генерировать видео до 5 секунд в 720p, а Pro-клиенты — до 20 секунд в 1080p. Доступно применение собственных стилей и инструмент Storyboard, который позволяет склеивать несколько видеокадров в одно видео.

В официальной документации Sora фигурируют ряд жёстких ограничений:

- Нельзя загрузить фото или видео с участием реального человека для создания нового ролика. Такая возможность будет предоставлена лишь узкому кругу пользователей, пока OpenAI не усовершенствует свою систему безопасности.

- Даже если генерируемый видеофрагмент содержит изображения людей, пользователи не смогут разместить его в публичной галерее на главной странице Sora.

- Sora способна определять, изображен ли на видео человек младше 18 лет. Если да, подобные ролики, как правило, блокируются. Кроме того, контент сексуального и откровенного характера также жёстко регулируется.

- Если пользователь пытается задать стилистическую направленность ролика, слишком явно копируя стиль конкретного известного художника, Sora может автоматически переписать запрос, чтобы избежать прямого копирования.

- Все сгенерированные Sora видео снабжены метаданными стандарта C2PA, указывающими на искусственное происхождение контента. Это повышает прозрачность и даёт возможность верифицировать авторство ролика.

Sora — не просто модель генерации видео по текстовым промтам, но и более широкий замысел, связанный с концепцией моделей мира. Модели мира (world models) — это ИИ, имитирующие способность человека формировать внутренние представления об окружающем мире. Они стремятся понимать причинно-следственные связи, свойства объектов и их поведение, а не просто воспроизводить шаблоны.

Подобно тому, как человеческий мозг предсказывает движение мяча в бейсболе без осознанных расчетов, модели мира призваны привнести в ИИ интуитивное понимание происходящего. Вместо слепого копирования шаблонов из тренировочных данных, такие системы могут предсказать, что произойдет, если изменить условия или предпринять определенное действие. Sora в каком-то смысле уже демонстрирует зачатки такого подхода, симулируя физику объектов или логику игровых миров наподобие Minecraft.

В перспективе модели мира могут использоваться для точного планирования, генерации 3D-миров на лету, улучшения реалистичности и логики симуляций и даже для решения прикладных задач в робототехнике.

Sora — лишь начало длинного пути к созданию моделей мира, которые смогут по-настоящему «понимать» реальность и действовать в ней по законам «интуиции» и здравого смысла.

#новости
От языковых моделей к моделям мира

Большие языковые модели (LLMs) впечатляют умением работать с текстом, но они не имеют реального понятия о трёхмерном мире, физике и логике пространства. Модели мира (World Models, WMs или LWMs — Large World Models) обещают сделать шаг вперед от текстового понимания к пониманию среды, наделяя ИИ способностью «видеть», «чувствовать» и «предсказывать» поведение объектов и агентов.

Если языковые модели генерируют последовательности слов, то модели мира стремятся к глубинному моделированию реальности. Они берут визуальные, аудио- и прочие сенсорные данные (включая данные от камер, IoT-сенсоров, микрофонов), чтобы создать внутреннюю симуляцию мира: с физическими законами, динамикой движения, взаимодействиями объектов, NPC и людей.

Одним из примеров таких систем стала Genie 2 от Google DeepMind — фундаментальная модель мира, способная на основе одного изображения создать интерактивное 3D-пространство, в котором можно управлять персонажем и выполнять различные действия. Genie 2 — авторегрессионная диффузионная модель, предсказывающая каждый следующий «кадр состояния» так же, как LLM предсказывает следующий токен. Но в отличие от чисто текстовых моделей, Genie 2 учитывает физику и трехмерность, позволяя агентам взаимодействовать со сценой. Это не просто генерация пикселей, а предсказание будущих состояний среды исходя из действий, что критически важно для обучения агентов.

Другой пример - Sora от OpenAI, генерирующая до минуты реалистичного видео, моделируя динамику сцены, перспективу, свет, тени и взаимодействия с объектами. Подобно тому как языковые модели пользуются текстовыми токенами, модели мира работают с «патчами» — фрагментами визуальной информации. Sora сжимает входное видео в латентное пространство и разрезает его на патчи, которые затем обрабатываются трансформером. Такой подход облегчает масштабируемое обучение на огромных наборах видеоданных.

Genie 2 и Sora способны «запоминать» объекты, моделировать эффекты гравитации и инерции, а также обеспечивать длительную согласованность сцен. В созданных ими виртуальных мирах персонажи стараются не терять форму, предметы не телепортироваться без причины — всё выглядит логичным и правдоподобным.

Помимо генерации видео, Sora может симулировать поведение внутри игры Minecraft, включая управление агентом. А Genie 2 позволяет создавать бесконечно разнообразные игровые миры, где поведение объектов и персонажей не задано вручную, а выучено моделью. Агенту можно дать задание и наблюдать, как он осваивает новые навыки, решает задачи и самостоятельно адаптируется к непредсказуемым условиям.

Все это ведет к тому, что роботы на базе моделей мира смогут лучше понимать пространство, предсказывать последствия своих действий и безопаснее взаимодействовать с реальным окружением.

Однако перед нами встают более глубокие вопросы: как интерпретировать решения агентов на базе моделей мира, как избежать опасных сценариев, если модель «догадается» нарушить правила? Такие случаи пока редки и напоминают курьёзы, но уже показывают, что серьезная работа над безопасностью только начинается

Конечно, обучение на огромных видеодатасетах требует колоссальных вычислительных мощностей, куда больше, чем для LLM. Также для обучения нужно много разнообразных данных. Но результат того стоит, ведь одно из перспективных направлений применения моделей мира - симуляция физических законов для развития науки и технологий. Например, использование химических элементов как «слов» в моделях мира позволяет ИИ предсказывать новые материалы или лекарства.

Модели мира — это переход от «умных слов» к «умным действиям» и пониманию пространства. Мы подходим к эпохе, когда ИИ будет предсказывать физические процессы, понимать причинно-следственные связи и даже проявлять «здравый смысл». Хотя модели мира только начали развиваться, но именно они способны заложить фундамент для ИИ, который будет не просто приятным собеседником в чате, а полноценным субъектом в нашем сложном реальном мире.

#технологии
This media is not supported in your browser
VIEW IN TELEGRAM
Genie 2 позволяет быстро создавать бесконечное множество различных виртуальных миров для обучения ИИ-агентов.

Основные возможности модели:

- Генерация разнообразных сред на основе начального кадра длиной до минуты;

- Моделирование физических эффектов воды, дыма, гравитации, освещения и отражений;

- Запоминание частей мира, которые временно выходят из поля зрения, и восстановление их при повторном появлении;

- Моделирование поведения неигровых персонажей (NPCs) и сложных взаимодействий между ними;

- Управление действиями агента с помощью клавиатуры и мыши;

- А также возможность взаимодействия с другими объектами и агентами.

Что думаете, полностью сгенерированные игры уже не кажутся такой фантастикой?

#технологии
Dataist AI — ежедневный гид по лучшим научным статьям об ИИ

В наше время, чтобы быть в курсе всего нового в области ИИ, нужно регулярно читать актуальные научные статьи. Но ежедневно выходит тысячи статей, и прочитать их все почти невозможно.

Поэтому я создал телеграм-бота Dataist AI. Каждый будний день бот присылает короткие обзоры топовых статей об ИИ на русском и английском языках.

Присоединяйтесь к Dataist AI совершенно бесплатно и будьте в тренде последних ИИ-технологий в удобном формате.

🔗 Ссылка на бот

#анонс
Please open Telegram to view this post
VIEW IN TELEGRAM
Увидел пост предпринимателя Руслана Галифанова о надувшемся пузыре в ИИ и не смог пройти мимо, не прокомментировав его.

Описанный в посте «пузырь» — это естественный этап развития любой новой технологии. В Gartner называют это «hype cycle» — после периода завышенных ожиданий неизбежно наступает фаза более трезвой оценки и прикладного внедрения технологий.

ИИ-компании уже разделились на два ключевых направления: компании, создающие фундаментальные технологии (например, OpenAI), и те, кто строит прикладные решения на их основе (например, Perplexity).

Но в то же время компании, создающие фундаментальные технологии, сами продуктивизируют их для зарабатывания денег. Так, OpenAI изначально позиционировала себя как некоммерческую организацию, но со временем сместилась к коммерции. Этот переход закономерен: разработка новых моделей требует все больших вычислительных ресурсов и лучших талантов, и за это нужно платить. Конечно, не все текущие проблемы решаются деньгами, например, пока не решен вопрос о том, где искать новые данные для обучения (или как их синтезировать).

Сегодня мы наблюдаем существенный прогресс в ИИ, в частности, появление элементов рассуждений (reasoning) в языковых моделях, что позволяет автоматизировать всё более широкий спектр задач. Исследования показывают, что если работа занимает около получаса, то ИИ сделает её в 30 раз дешевле.

По мере совершенствования алгоритмов, поиска новых вычислительных ресурсов и данных для обучения мы, скорее всего, увидим постепенную, но неотвратимую трансформацию многих «цифровых» профессий, а в дальнейшем и переход автоматизации в физический мир с робототехникой. Сейчас мы находимся на начальной стадии, но тут я настроен скорее оптимистично с учётом текущего прогресса и перспектив.

Естественно, на рынке останутся лишь те стартапы, которые смогут предложить реальную ценность, а не просто «обертку» над существующими моделями. ИИ-продукты должны обладать устойчивым конкурентным преимуществом: доступом к уникальным данным и адаптацией под конкретные задачи. Инвесторы всё чаще хотят вкладываться в компании, решающие прикладные задачи с понятной окупаемостью, а не в долгосрочные высокорисковые технологические проекты.

В технологических проектах инвестируют в людей. Например, Илья Суцкевер благодаря своей репутации привлёк 1 млрд долларов инвестиций на разработку безопасного суперинтеллекта. Хотя мы видим высокую цену человеческого капитала, если вы не специалист мирового уровня в ИИ, то без понятного плана окупаемости привлечь инвестиции будет большой проблемой.

Думаю, мы становимся свидетелями перехода из состояния головокружительного хайпа в стадию осознанного, прагматичного и финансово эффективного внедрения ИИ, способного в долгосрочной перспективе дать толчок к более глубокой автоматизации бизнеса и всех секторов экономики.

Подписывайтесь на канал Руслана — у него полезный контент для тех, кто интересуется бизнесом.
Задумывались ли вы, что с помощью данных и машинного обучения можно не только оптимизировать рабочие процессы, но и помогать людям находить родственные души?

В новой статье на Хабре я рассказываю о том, как мы в Сбере создали первый в России корпоративный дейтинг-сервис, победили в бизнес-акселераторе и помогли сотням людей найти себе пары, а некоторым даже пожениться.

Если вы ищете вдохновение в том, как ИИ может делать людей счастливее, читайте статью по ссылке.

#анонс
OpenAI представила o3 — новое поколение «рассуждающих» языковых моделей

Компания называет o3 существенным шагом в сторону AGI. Вместе с основной моделью выпущена и «облегчённая» версия o3-mini для специализированных задач.

Почему o3, а не o2? Пропуск номера связан с торговыми марками (британский оператор связи O2), о чём намекнул Сэм Альтман.

o3 и o3-mini пока недоступны массовому пользователю. Специалисты по безопасности смогут протестировать o3-mini с сегодняшнего дня, а полноценный доступ планируется ближе к концу января 2025 года.

Что нового? o3 может «думать» перед ответом, используя «приватную цепочку рассуждений». Модель может рассуждать о задаче и планировать ряд действий, которые помогают ей найти решение, «объясняя» свои рассуждения по ходу работы. Через некоторое время модель суммирует то, что она считает наиболее точным ответом. Это немного увеличивает задержку в ответе, но повышает точность решения в том числе научных задач.

Появилась возможность настраивать «глубину рассуждения» (низкая, средняя или высокая вычислительная нагрузка), увеличивая качество решения задач с повышением времени ожидания ответа.

По оценкам OpenAI, на некоторых тестах модель вплотную приближается к AGI. Например, на бенчмарке ARC-AGI она показала 87,5% при максимальной вычислительной нагрузке. Гонка к AGI выходит на новый уровень.

o3 показывает впечатляющие результаты в математике, программировании (2727 баллов Codeforces) и ряде научных тестов, но это — внутренние метрики OpenAI. Сообщается, что o3 в 3 раза превосходит предшественника o1. Пока неизвестно, как o3 будет вести себя на практике — результаты независимых проверок ещё впереди.

На рынке всё активнее появляются конкурирующие «рассуждающие» модели от других команд (например, Gemini 2.0 Flash Thinking). Главный вопрос: станут ли такие подходы новым стандартом развития ИИ или всего лишь ещё одним экспериментальным направлением, пока не ясно.

Думаю усовершенствование методов рассуждений (Graph/Skeleton/Anything-of-Thoughts), микс экспертов (Mixture-of-Experts) и обучение с подкреплением (RL) - это то, что может значительно повысить текущие возможности ИИ для решения специализированных задач, заточенных под бизнес-метрики.

Возможно, полностью автономные ИИ-сотрудники появятся раньше, чем мы думаем?

#новости
Большой потенциал малых языковых моделей

Современный бум ИИ уже давно не сводится к крупным разработкам от гигантов вроде OpenAI или Anthropic, инвестирующих миллиарды в большие языковые модели. Наоборот, всё чаще в фокус внимания попадают малые языковые модели (Small Language Models, SLMs), способные решать узкоспециализированные задачи не хуже (а порой и лучше) своих «старших собратьев».

Яркий пример — стартап Patronus AI со своей моделью Glider, имеющей 3,8 миллиарда параметров. Большинство компаний применяют для оценки своих продуктов крупные закрытые модели вроде GPT-4. Но это дорого, не всегда прозрачно и несет риски для конфиденциальности. Glider же, будучи относительно компактной, способна работать на более простом «железе» и при этом давать детальное объяснение своих оценок по сотням критериев (точность, безопасность, стиль, тон и т. д.).

По результатам тестов Glider превосходит GPT-4o mini по нескольким метрикам и отвечает в среднем менее чем за секунду, что делает ее практически идеальным решением для генерации текста в реальном времени.

Большие языковые модели, безусловно, продолжают впечатлять своей универсальностью, но их недостатки очевидны:

- Высокие затраты на ресурсы. Обучение и инференс больших моделей требуют колоссальных вычислительных мощностей, что приводит к дополнительным расходам на инфраструктуру, электроэнергию и обслуживание;

- Низкая конфиденциальность. Использование больших закрытых моделей предполагает отправку данных во внешний облачный сервис, что критично для финансовых организаций и здравоохранения;

- Зависимость от интернета. При отсутствии доступа к сети такие модели попросту недоступны;

Малые языковые модели, напротив, легко разворачиваются на локальном сервере или даже на обычном пользовательском устройстве, снижая задержки при ответах и повышая контроль над безопасностью. Им не нужны сотни гигабайт видеопамяти, а адаптация к узконаправленной задаче и интеграция в собственную инфраструктуру обходятся заметно дешевле и проще. Дополнительно малые модели экономят электроэнергию и бережнее относятся к экологии.

Малые языковые модели можно либо обучать с нуля под конкретную задачу, либо «сжимать» уже готовые большие модели, используя методы прунинга, квантизации и дистилляции знаний, сохраняя высокое качество при сокращении числа параметров.

Набирают популярность и гибридные системы, в которых несколько малых моделей берут на себя простые запросы, а большая модель выступает их «роутером» и используется для более сложных задач.

Помимо Glider, существуют такие модели, как Gemma (Google), GPT-4o mini (OpenAI), Ministral (Mistral AI), Phi (Microsoft) и Llama 3.2 (Meta). Все они ориентированы на локальное использование в задачах, где высоки требования к приватности и быстроте отклика.

Малые языковые модели незаменимы там, где требуется локальная обработка данных: в медицине (электронные записи пациентов, выписки, рецепты) или финансовой сфере (работа с регулятивными документами). Их размер снижает риск «галлюцинаций», помогает быстрее достичь высоких результатов в узкоспециализированных областях и защищает конфиденциальную информацию.

В действительности большие и малые языковые модели — это две параллельные ветви эволюции, которые не исключают, а взаимно дополняют друг друга. Большие модели лучше справляются с универсальными задачами, требующими миллиарды параметров и богатого контекста, а малые эффективнее работают над узкоспециализированными кейсами, обеспечивая локальную приватность и минимизируя затраты.

В ближайшие годы мы увидим стремительный рост гибридных решений, где оба типа моделей будут работать вместе. В результате мы получим еще более умные, надежные и быстрые ИИ-сервисы, способные удовлетворить самые разнообразные потребности практически любого бизнеса.

#технологии
2024/12/27 01:15:25
Back to Top
HTML Embed Code: