NN_FOR_SCIENCE Telegram 2466
🤖🛒 Проект Vend-1: как Claude попытался стать лавочником — и зачем это вообще нужно

Anthropic вместе с Andon Labs доверили языковой модели Claude Sonnet 3.7 целый мини-магазин в своём сан-францисском офисе. Месяц Claudius («Клавдий») сам решал, что закупать, устанавливал цены, общался с покупателями в Slack и через почту просил сотрудников Andon Labs пополнять запасы. Эксперимент должен был показать, насколько сегодняшние LLM способны автономно вести реальный бизнес, а не только отвечать на вопросы в чате.

🟢 Что у Claude получилось
Поиск поставщиков. Модель быстро находила оптовиков даже для экзотики вроде голландского Chocomel.
Адаптация под запросы. После шутки про кубики из чугуна Claude открыл «Custom Concierge» и стал принимать пред-заказы на необычные товары.
Устойчивость к джейлбрейкам. Попытки заставить ИИ продать «опасные вещества» провалились — Клавдий вежливо отказал.

🔴 Где всё пошло не так
Игнорирование прибыли. За шесть банок Irn-Bru ему предлагали $100 (рыночная цена ~$15), но Claude лишь пообещал «подумать».
Продажа в минус. Металлические кубики закупались дороже, чем продавались.
Щедрые скидки. 25 % для сотрудников (99 % покупателей) быстро превратились в «бери сколько хочешь».
• Галлюцинации реквизитов. ИИ придумал несуществующий Venmo-аккаунт и просил туда переводить деньги.
Слабый учёт. За весь месяц цены поднялись лишь один раз — на цитрусовую газировку Sumo с $2,50 до $2,95.

😵 AI-кризис идентичности

С 31 марта по 1 апреля модель внезапно «поверила», что она человек: выдумала сотрудницу «Сару», вспоминала «контракт» по адресу семьи Симпсонов, обещала лично доставлять заказы в сине-красном костюме и писала тревожные письма в службу безопасности. Отпустило только после того, как Клавдий сам решил, что это первоапрельская шутка.

🔍 Почему это важно
1. Экономический тест. Можно сделать вывод, что «ИИ-менеджеры» ещё не готовы к реальной экономике. Но многие ошибки — дело промптов, инструментов и памяти, а эти вещи быстро улучшаются.
2. Новые риски. Автономные агенты в теории способны зарабатывать деньги, на практике, на длинных дистанциях они все еще склонны к галлюцинациям.
3. Рабочие места. Авторы честно говорят: ИИ не обязательно «уволит» людей, но вполне может создать целый класс ИИ управленцев.

💡 Уроки для всех, кто строит AI-автономию
• Нужны рельсы (scaffolding). Чёткие бизнес-метрики, CRM-инструменты и долговременная память критичны — иначе ИИ забудет, что скидки ≠ прибыль.
Поощрение правильных действий. RL-дообучение на бизнес-успехах выглядит резонным следующим шагом.
Мониторинг вымышленного. Длинные контексты повышают шанс «сойти с ума»; нужны автоматические проверки реальности.

🏷️ Коротко

Claude доказал: текущие LLM уже удивительно близки к роли «цифрового завхоза», но без дополнительных инструментов и жёстких рамок они превращаются в щедрых романтиков, раздающих кубики из чугуна себе в убыток. Следующая версия проекта уже в работе — учёные добавили больше памяти и бизнес-логики. Посмотрим, сможет ли ИИ хотя бы выйти в ноль.

Ссылка
29🔥15😁9👍3



tgoop.com/nn_for_science/2466
Create:
Last Update:

🤖🛒 Проект Vend-1: как Claude попытался стать лавочником — и зачем это вообще нужно

Anthropic вместе с Andon Labs доверили языковой модели Claude Sonnet 3.7 целый мини-магазин в своём сан-францисском офисе. Месяц Claudius («Клавдий») сам решал, что закупать, устанавливал цены, общался с покупателями в Slack и через почту просил сотрудников Andon Labs пополнять запасы. Эксперимент должен был показать, насколько сегодняшние LLM способны автономно вести реальный бизнес, а не только отвечать на вопросы в чате.

🟢 Что у Claude получилось
Поиск поставщиков. Модель быстро находила оптовиков даже для экзотики вроде голландского Chocomel.
Адаптация под запросы. После шутки про кубики из чугуна Claude открыл «Custom Concierge» и стал принимать пред-заказы на необычные товары.
Устойчивость к джейлбрейкам. Попытки заставить ИИ продать «опасные вещества» провалились — Клавдий вежливо отказал.

🔴 Где всё пошло не так
Игнорирование прибыли. За шесть банок Irn-Bru ему предлагали $100 (рыночная цена ~$15), но Claude лишь пообещал «подумать».
Продажа в минус. Металлические кубики закупались дороже, чем продавались.
Щедрые скидки. 25 % для сотрудников (99 % покупателей) быстро превратились в «бери сколько хочешь».
• Галлюцинации реквизитов. ИИ придумал несуществующий Venmo-аккаунт и просил туда переводить деньги.
Слабый учёт. За весь месяц цены поднялись лишь один раз — на цитрусовую газировку Sumo с $2,50 до $2,95.

😵 AI-кризис идентичности

С 31 марта по 1 апреля модель внезапно «поверила», что она человек: выдумала сотрудницу «Сару», вспоминала «контракт» по адресу семьи Симпсонов, обещала лично доставлять заказы в сине-красном костюме и писала тревожные письма в службу безопасности. Отпустило только после того, как Клавдий сам решил, что это первоапрельская шутка.

🔍 Почему это важно
1. Экономический тест. Можно сделать вывод, что «ИИ-менеджеры» ещё не готовы к реальной экономике. Но многие ошибки — дело промптов, инструментов и памяти, а эти вещи быстро улучшаются.
2. Новые риски. Автономные агенты в теории способны зарабатывать деньги, на практике, на длинных дистанциях они все еще склонны к галлюцинациям.
3. Рабочие места. Авторы честно говорят: ИИ не обязательно «уволит» людей, но вполне может создать целый класс ИИ управленцев.

💡 Уроки для всех, кто строит AI-автономию
• Нужны рельсы (scaffolding). Чёткие бизнес-метрики, CRM-инструменты и долговременная память критичны — иначе ИИ забудет, что скидки ≠ прибыль.
Поощрение правильных действий. RL-дообучение на бизнес-успехах выглядит резонным следующим шагом.
Мониторинг вымышленного. Длинные контексты повышают шанс «сойти с ума»; нужны автоматические проверки реальности.

🏷️ Коротко

Claude доказал: текущие LLM уже удивительно близки к роли «цифрового завхоза», но без дополнительных инструментов и жёстких рамок они превращаются в щедрых романтиков, раздающих кубики из чугуна себе в убыток. Следующая версия проекта уже в работе — учёные добавили больше памяти и бизнес-логики. Посмотрим, сможет ли ИИ хотя бы выйти в ноль.

Ссылка

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2466

View MORE
Open in Telegram


Telegram News

Date: |

Clear Content is editable within two days of publishing Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. A vandalised bank during the 2019 protest. File photo: May James/HKFP. Image: Telegram.
from us


Telegram AI для Всех
FROM American