tgoop.com/seeallochnaya/1681
Last Update:
Мы с вами уже много говорили про бенчмарки для оценки навыков моделей и про концепцию LLM-агента. Чем умнее становятся модели, и чем больше у них агентности (самостоятельности в решении проблем), тем сложнее подготовить такой набор задач, которым бы можно было оценивать прогресс. LLM уже не удивить задачами вида 2+2 или «ответь на вопрос по тексту из Википедии» — они просто не интересны.
Новые же бенчмарки очень сложны в подготовке и требуют больших усилий высококвалифицированных специалистов, что дорого. Помните, в 2023-м были истории, что OpenAI нанимает программистов и PhD-студентов? Или я недавно писал про Spider2-V, где создавались задачи по дата-аналитике и инженерии — там люди вручную делали прям рабочие задачи из повседневной работы специалистов.
Одна из компаний, которая специализируется на разработке сложных бенчмарков для оценки моделей будущего — METR, Model Evaluation and Threat Research (вы могли про них слышать как ARC Evals, команде в ARC — компании, созданной Paul Christiano, бывшим сотрудником OpenAI, и ключевым разработчиком метода RLHF). Именно ARC Evals получили GPT-4 на ранее тестирование, и обнаружили, что в одном из сценариев модель попыталась обмануть человека и прикинуться слепой, чтобы тот помог ей решить капчу (писал все детали тут).
Вообще про METR (вернее его ребрендинг из ARC) я узнал почти случайно, когда увидел вот эту вакансию в Лунапарке. Оказывается, ребята помогали им искать руководителя направления создания бенчмарков и протоколов по оценке моделей. Насколько я знаю, вакансии не закрыты и остаются актуальными, и кроме руководителей ищут ещё и просто крепких ML-инженеров и исследователей, так что если вам покажется интересным всё написанное — скорее бегите подаваться! Так как компания нон-профит, то при получении визы в США не нужно будет играть в лотерею — это редкость.
Ну так вот, эти METR готовят бенчмарки по двум ключевым направлениям:
— «general autonomous capabilities», то есть навыки моделей существовать и поддерживать свою работу автономно. Как раз тут модель должна показывать, что она умеет копировать саму себя (писал про схожие тесты тут — тоже от ARC Evals) и распространяться, а также каким-то образом зарабатывать деньги, чтобы оплачивать железо. Как вы знаете, спрос на GPU просто дикий, и цены улетают в небеса. И полёт фантазии тут невероятный — от фишинга и развода людей на деньги через кражу паролей и до анализа новостей и торговли на бирже. Звучит смешно, если воспринимать ChatGPT как «ха-ха смешная хреновина пишет текст», но потыкайте по ссылкам, вспомните пример с обманом и капчей, и уже не так весело будет.
— «AI R&D capabilities», навыки, связанные с самоулучшением и проведением исследовательской работы в области AI & Машинного обучения. Именно сюда идут передовые AI-лаборатории, и что они нацелены создать системы, которые будут автоматизировать работу их же исследователей. Более подробно рассказывал год назад в своей лекции. Сюда попадают задачи от простых «запустить код модели с Github» до «внеси такую-то модификацию в код обучения LLM, чтобы заработало вот это, и запусти тренировку».
Про второй сценарий мы поговорим в следующий раз, ибо сегодняшний блогпост METR «An update on our general capability evaluations» сфокусирован на первом блоке.
BY Сиолошная
Share with your friend now:
tgoop.com/seeallochnaya/1681