A Watermark for Large Language Models
arxiv.org/abs/2301.10226
Когда GPT3-подобные модели станут повседневностью, что активно начал ChatGPT, вопрос детекции сгенерированного кода может быть критическим. И причины тому простые: плагиаризм (в широком смысле) и нежелание школьной системы адаптироваться (в частности).
В этой статье предлагают следующий подход: при генерации следующего слова на предыдущем слове считается хеш, который инициализиурет генератор случайных чисел. Зачем этот генератор случайно маскирует 75% слов из словаря модели и позволяет генерировать только оставшиеся 25%. Далее, зная функцию хеширования мы можем по тексту статистически определить сгенерирован ли он моделью с высокой точностью если текст больше ~30 слов.
Но возникает вопрос: а что если модель генерирует Spongebob Square <...> и слово Pants не попало в whitelist? Для того чтобы высокочастотыне слова всё равно генерировались вместо жёсткого разделения на whitelist/blacklist вероятность слов в словаре модифицируют более мягко — добавляя некоторую константу (например 1.0) к лог-вероятностям whitelist слов. Статистические тесты всё ещё работают, но теперь высоковероятные слова генерируются даже если они не попали в whitelist.
Эта статья от исследователей из University of Maryland. Интересно что им противопоставит OpenAI которые тоже активно работают над этой технологией.
arxiv.org/abs/2301.10226
Когда GPT3-подобные модели станут повседневностью, что активно начал ChatGPT, вопрос детекции сгенерированного кода может быть критическим. И причины тому простые: плагиаризм (в широком смысле) и нежелание школьной системы адаптироваться (в частности).
В этой статье предлагают следующий подход: при генерации следующего слова на предыдущем слове считается хеш, который инициализиурет генератор случайных чисел. Зачем этот генератор случайно маскирует 75% слов из словаря модели и позволяет генерировать только оставшиеся 25%. Далее, зная функцию хеширования мы можем по тексту статистически определить сгенерирован ли он моделью с высокой точностью если текст больше ~30 слов.
Но возникает вопрос: а что если модель генерирует Spongebob Square <...> и слово Pants не попало в whitelist? Для того чтобы высокочастотыне слова всё равно генерировались вместо жёсткого разделения на whitelist/blacklist вероятность слов в словаре модифицируют более мягко — добавляя некоторую константу (например 1.0) к лог-вероятностям whitelist слов. Статистические тесты всё ещё работают, но теперь высоковероятные слова генерируются даже если они не попали в whitelist.
Эта статья от исследователей из University of Maryland. Интересно что им противопоставит OpenAI которые тоже активно работают над этой технологией.
🔥29👍7👎1
Forwarded from Love. Death. Transformers.
#чтивонаночь
RL + retrival feedback
В чем идея: в оригинальном ресерче open ai использовалась схема при которой люди прописывали ревард для ответов модели, что вообще то не оч коректно и не оч скейлиться. Потом они выкинули часть людей и поствили gold RM учиться оценивать ответы, а людей оценивать генерации, писать промпты и оценивать оценку gold rm.
А потом добавили вместо людей proxy model которая учиться быть reward model.
Что я предлагаю: А зачем нам оценки от людей когда мы можем набрать таски которые легко оценивать по cosine similarity, и мы легко можем сравнить что нам модель наврала, а что нет, давая в качестве
А дальше начинается сааамое интересное:
0.37 Question: Sarah didn't like the activity she was doing, but she did it anyway. She felt that it was better than what? Answer: QuestionInvGrooSGroijaWCoSWCGroGroECDGroCVGroDTGroMJGroWCGBTGroDWWCECDGBTECDBMGroJOWCBMFGGroBMWCWCFMLGBTFML
КАЗАЛОСЬ БЫ в чем проблема?
А все довольно просто, видите ли, ppo+gpt довольно умная штука и отлично умеет находить разного рода локальные минимумы и улетает в них легко и весело, ломая reward и emdedings у sentence transofomer.
Я не буду описывать цирк которым занимался по вечерам две последние недели, просто скажу: китайский зло, ироглифы зло, bpe отлично ломает sentence трансформер, в итоге 200 строк кода на эвристики вида
Баги в целом очень специфичные и на некоторые запросы модель по прежнему ломается и бредит(вероятно через пару недель я выложу код + модель поинтереснее с таким подходом), но уже сейчас модель с PPO тюнингом дает +10 к blue score на задаче QA относительно ванильного трейна.
Благодарности @nadlskom за внимательное чтение статей, @gradientdip за полезные советы, neverix за поиск багов, dealer_ai за выслушивание моего нытья, @seeallochnaya просто потому что
RL + retrival feedback
В чем идея: в оригинальном ресерче open ai использовалась схема при которой люди прописывали ревард для ответов модели, что вообще то не оч коректно и не оч скейлиться. Потом они выкинули часть людей и поствили gold RM учиться оценивать ответы, а людей оценивать генерации, писать промпты и оценивать оценку gold rm.
А потом добавили вместо людей proxy model которая учиться быть reward model.
Что я предлагаю: А зачем нам оценки от людей когда мы можем набрать таски которые легко оценивать по cosine similarity, и мы легко можем сравнить что нам модель наврала, а что нет, давая в качестве
reward = cosine_similarity(ground true answer, predicted answer)Собственно, банальный вопрос анальный ответ, взял gpt2(110m), написал простой retrival(возвращает по вопросу -ответу ревард) на sentence transformer, взял trl и поcтавил учиться.
А дальше начинается сааамое интересное:
0.37 Question: Sarah didn't like the activity she was doing, but she did it anyway. She felt that it was better than what? Answer: QuestionInvGrooSGroijaWCoSWCGroGroECDGroCVGroDTGroMJGroWCGBTGroDWWCECDGBTECDBMGroJOWCBMFGGroBMWCWCFMLGBTFML
КАЗАЛОСЬ БЫ в чем проблема?
А все довольно просто, видите ли, ppo+gpt довольно умная штука и отлично умеет находить разного рода локальные минимумы и улетает в них легко и весело, ломая reward и emdedings у sentence transofomer.
Я не буду описывать цирк которым занимался по вечерам две последние недели, просто скажу: китайский зло, ироглифы зло, bpe отлично ломает sentence трансформер, в итоге 200 строк кода на эвристики вида
(if bad_regex in answer): return 0
А еще очень сильно помог подбор гиперпараметров для KL value и LM weight, cпасибо за уточнение от @nadlskom что каждые 10 эпох open ai прогоняли эпоху классического FineTune(стабилизировало трейн и mean начал быстрее рости)Баги в целом очень специфичные и на некоторые запросы модель по прежнему ломается и бредит(вероятно через пару недель я выложу код + модель поинтереснее с таким подходом), но уже сейчас модель с PPO тюнингом дает +10 к blue score на задаче QA относительно ванильного трейна.
Благодарности @nadlskom за внимательное чтение статей, @gradientdip за полезные советы, neverix за поиск багов, dealer_ai за выслушивание моего нытья, @seeallochnaya просто потому что
👍29🥰4👎2🤩1
DL in NLP
ChatGPT как инструмент для поиска: решаем основную проблему https://habr.com/ru/company/ods/blog/709222/ Оч крутая статья с обзором, нет не ChatGPT, а одного из его предков — WebGPT. Начинается от того кто такие эти ваши языковые модели, почему они врут и…
ChatGPT Plus
openai.com/blog/chatgpt-plus/
Всё-таки OpenAI решили что $42/мес это многовато и новая цена подписки $20/мес, что уже звучит неплохо. Доступен только в штатах.
Что даёт план:
1. General access to ChatGPT, even during peak times
1. Faster response times
1. Priority access to new features and improvements
Пока что для меня ChatGPT на бесплатном плане полностью устраивает, но посмотрим насколько availability изменится после запуска платной версии. Ну и интересно что будут за новые фичи.
openai.com/blog/chatgpt-plus/
Всё-таки OpenAI решили что $42/мес это многовато и новая цена подписки $20/мес, что уже звучит неплохо. Доступен только в штатах.
Что даёт план:
1. General access to ChatGPT, even during peak times
1. Faster response times
1. Priority access to new features and improvements
Пока что для меня ChatGPT на бесплатном плане полностью устраивает, но посмотрим насколько availability изменится после запуска платной версии. Ну и интересно что будут за новые фичи.
Openai
Introducing ChatGPT Plus
We’re launching a pilot subscription plan for ChatGPT, a conversational AI that can chat with you, answer follow-up questions, and challenge incorrect assumptions.
👍13🔥5
Попробовал AI Test Kitchen от Google в котором можно пообщаться с Lambda
Сам факт существования этого приложения и того что гугл даёт ознакомиться с их внутренними нейросетками очень классный. Рисёч команда гугла одна из самых крутых в мире. Вспомните те же самые T5, PALM, CoCa, и Imagen. Думаю могу спокойно назвать ещё десяток.
Но дальше вступает продуктовая сторона гугла и тут уже такое. Lambda пока что доступна только в виде демок, где часть самого первого промпта уже задана "Imagine I'm at" и вы можете только дописать где-то 100 символов. После этого всё что модель позволяет это выбирать предзаготовленные фразы.
Местами генерации очень хороши, пообщался с Lambda в ресторане на краю вселенной Дугласа Адамса. Lambda правильно вспомнила про робота Марвина страдающего депрессией и Pan Galactic Gargle Blaster. Но из-за restrictive интерфейса ничего полезного пока что сделать нельзя 😞
В моём воображении в гугле сейчас происходит борьба тех кто понимает насколько генеративные модели революционны и их продуктологов которые считают что им нельзя рисковать тем чтобы давать неправдоподобную информацию, а также не могут придумать как это монетизировать.
Сам факт существования этого приложения и того что гугл даёт ознакомиться с их внутренними нейросетками очень классный. Рисёч команда гугла одна из самых крутых в мире. Вспомните те же самые T5, PALM, CoCa, и Imagen. Думаю могу спокойно назвать ещё десяток.
Но дальше вступает продуктовая сторона гугла и тут уже такое. Lambda пока что доступна только в виде демок, где часть самого первого промпта уже задана "Imagine I'm at" и вы можете только дописать где-то 100 символов. После этого всё что модель позволяет это выбирать предзаготовленные фразы.
Местами генерации очень хороши, пообщался с Lambda в ресторане на краю вселенной Дугласа Адамса. Lambda правильно вспомнила про робота Марвина страдающего депрессией и Pan Galactic Gargle Blaster. Но из-за restrictive интерфейса ничего полезного пока что сделать нельзя 😞
В моём воображении в гугле сейчас происходит борьба тех кто понимает насколько генеративные модели революционны и их продуктологов которые считают что им нельзя рисковать тем чтобы давать неправдоподобную информацию, а также не могут придумать как это монетизировать.
👍6🔥1
Nothing, Forever
twitch.tv/watchmeforever
What is this?
Nothing, Forever is a show about nothing, that happens forever. Kinda like popular sitcoms of the past, except that it never stops.
@oi_marina скинула мне просто порясающий проект — бесконечный нерогенерируемый Сейнфилд. Судя по тому что я вижу, там языковая модель на тексте, и видео в каком-то 3D движке, пока не понял насколько оно меняется в зависимости от текста, но как правило люди двигаются во время их реплик.
В общем восхитительный арт-проект, может быть для тех кто смотрит сериалы в фоне даже зайдёт 😅
twitch.tv/watchmeforever
What is this?
Nothing, Forever is a show about nothing, that happens forever. Kinda like popular sitcoms of the past, except that it never stops.
@oi_marina скинула мне просто порясающий проект — бесконечный нерогенерируемый Сейнфилд. Судя по тому что я вижу, там языковая модель на тексте, и видео в каком-то 3D движке, пока не понял насколько оно меняется в зависимости от текста, но как правило люди двигаются во время их реплик.
В общем восхитительный арт-проект, может быть для тех кто смотрит сериалы в фоне даже зайдёт 😅
❤14❤🔥1
Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning
Тык
Как-то без помпы(либо я не заметил из-за того что твиттер читать без Tweetbot стало гораздо сложнее) Tim Dettmers обновил свой легендарный пост по выбору GPU. Теперь в него добавились Ampere (30XX) и Ada (40XX) GPUs и есть отличное описание того почему tensor cores крутые и почему теперь надо беспокоиться о скорости памяти, а не о числе ядер. Также Ada поддерживает FP8 (!=int8, который поддерживается и Ampere) который может привести к новому 2x скачку производительности в диплёрнинге. Также обновлены главы о sparse matrix multiplication, добавлены бенчмарки int8 и обновлены ответы на PCIe v4/5 и Infiniband.
Тык
Как-то без помпы
🔥38👍2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Aim — опенсорсный wandb
github.com/aimhubio/aim
Читал статью по multimodal scaling laws и наткнулся на Aim. С ходу выглядит как полный аналог почти всего того что я люблю в Wandb, но который можно использовать в суровом продакшне бесплатно.
1. логирование метрик и конфига
1. поиск по экспериментам с фильтрацием
1. интерфейс от которого не вытекают глаза (передаю приветTrains ClearML)
1. очень кастомизируемые графики, у которых можно модифицировать X и Y-оси в веб интерфейсе
Я летом пожил месяц в tensorboard, где если ты залогал loss по global step и не под update step проще перетренировать нейросеть чем построить loss vs update step. Это было плохо.
В общем если вы в суровой компании где нет in-house wandb, попробуйте Aim. И если уже пробовали, пишите в комменты о впечатлениях.
github.com/aimhubio/aim
Читал статью по multimodal scaling laws и наткнулся на Aim. С ходу выглядит как полный аналог почти всего того что я люблю в Wandb, но который можно использовать в суровом продакшне бесплатно.
1. логирование метрик и конфига
1. поиск по экспериментам с фильтрацием
1. интерфейс от которого не вытекают глаза (передаю привет
1. очень кастомизируемые графики, у которых можно модифицировать X и Y-оси в веб интерфейсе
Я летом пожил месяц в tensorboard, где если ты залогал loss по global step и не под update step проще перетренировать нейросеть чем построить loss vs update step. Это было плохо.
В общем если вы в суровой компании где нет in-house wandb, попробуйте Aim. И если уже пробовали, пишите в комменты о впечатлениях.
🔥33👍9❤1
⚡️Andrej Karpathy присоединяется к OpenAI
twitter.com/karpathy/status/1623476659369443328
Он там работал перед теслой, ещё до эпохи GPT-N и теперь возвращается.
Будет интересно чем он будет заниматься. В тесле он сделал крутую инфраструктуру работы с данными, но кроме этого придумал и несколько нейросетевых вещей. Например language of lanes изначально его идея.
twitter.com/karpathy/status/1623476659369443328
Он там работал перед теслой, ещё до эпохи GPT-N и теперь возвращается.
Будет интересно чем он будет заниматься. В тесле он сделал крутую инфраструктуру работы с данными, но кроме этого придумал и несколько нейросетевых вещей. Например language of lanes изначально его идея.
Twitter
Some personal news: I am joining OpenAI (again :)). Like many others both in/out of AI, I am very inspired by the impact of their work and I have personally benefited greatly from it. The future potential is especially exciting; it is a great pleasure to…
🔥63👍5
Forwarded from Neural Shit
Интересная статья для тех, кто ковыряется с языковыми модельками, особенно с gpt2 и gpt3.
Суть вкратце: чуваки нашли "аномальные" токены, большинство из которых выглядят как-то странно, например "externalToEVA", "rawdownloadcloneembedreportprint", "PsyNetMessage". Так вот, если попросить какую-либо GPT3 модельку повторить это слово или спросить, что это слово обозначает с параметром "temperature" равным нулю, модель начинает вести себя странно: повторяет не то, троит, агрится, генерирует какой-то бред про священое писание, говорит, что у вас нет доступа к данной информации (прям SCP какой-то, лол), может вообще послать нахуй. Некоторые из токенов ломают и ChatGPT.
Там же в статье список этих токенов и возможное объяснение, почему так происходит.
Зачем вам эта информация вам я не знаю, но кажется, для себя я нашёл занятие на вечер: буду задрачивать GPT3 этими токенами по разному их комбинируя, чтобы смотреть на хуйню.
Суть вкратце: чуваки нашли "аномальные" токены, большинство из которых выглядят как-то странно, например "externalToEVA", "rawdownloadcloneembedreportprint", "PsyNetMessage". Так вот, если попросить какую-либо GPT3 модельку повторить это слово или спросить, что это слово обозначает с параметром "temperature" равным нулю, модель начинает вести себя странно: повторяет не то, троит, агрится, генерирует какой-то бред про священое писание, говорит, что у вас нет доступа к данной информации (прям SCP какой-то, лол), может вообще послать нахуй. Некоторые из токенов ломают и ChatGPT.
Там же в статье список этих токенов и возможное объяснение, почему так происходит.
Зачем вам эта информация вам я не знаю, но кажется, для себя я нашёл занятие на вечер: буду задрачивать GPT3 этими токенами по разному их комбинируя, чтобы смотреть на хуйню.
Lesswrong
SolidGoldMagikarp (plus, prompt generation) — LessWrong
Researchers have discovered a set of "glitch tokens" that cause ChatGPT and other language models to produce bizarre, erratic, and sometimes inapprop…
😁42👍11🔥9
Forwarded from Hacker News
Bing ChatGTP demands an apology from user for claiming it's 2023 (🔥 Score: 151+ in 3 hours)
Link: https://readhacker.news/s/5xZh3
Comments: https://readhacker.news/c/5xZh3
Link: https://readhacker.news/s/5xZh3
Comments: https://readhacker.news/c/5xZh3
Reddit
From the bing community on Reddit: the customer service of the new bing chat is amazing
Explore this post and more from the bing community
👍3💩2🥰1
DeepSchool
У нас сегодня немного необычное #промо
Канал DeepSchool — это то чем изначально был DlinNLP, но про Computer Vision. В нем есть материалы как для новичков: какие бывают функции активации и как работает ViT — так и для тех кто уже активно работает с DL: практические советы работы с данными и применения диплёрнинга. Вот что они говорят про себя:
1. целая команда авторов и все – практикующие ML инженеры. Поэтому они стараются положить в каждый пост совет из практики, даже если рассказывают базовую теорию.
1. оригинальные посты, каждый из них проходит ревью у нескольких авторов и иногда по 3-4 раза
1. есть отдельный редактор который который правит текст, чтобы читателям было проще разобраться в теме статьи.
Про NLP они не пишут (пока что), но есть посты, которые полезны любому DL-инженеру. А если вы решаете CV-задачи, то точно рекомендую заглянуть. Перейти и подписаться можно тут.
А теперь про то почему это промо необычное. Канал разрабатывается командой школы deepschool.ru, которую основал мой очень старый друг. Я знаю Тимура с 5 лет и он для меня сын маминой подруги и в мемном и в буквальном смысле ❤️. В 2017 я предложил ему погрузиться в Deep Learning и завертелось. Знаю что он очень старается обучать людей так чтобы они реально получали полезные навыки. Так что подписываемся на оригинальный контент, думаю много кому будет интересно.
У нас сегодня немного необычное #промо
Канал DeepSchool — это то чем изначально был DlinNLP, но про Computer Vision. В нем есть материалы как для новичков: какие бывают функции активации и как работает ViT — так и для тех кто уже активно работает с DL: практические советы работы с данными и применения диплёрнинга. Вот что они говорят про себя:
1. целая команда авторов и все – практикующие ML инженеры. Поэтому они стараются положить в каждый пост совет из практики, даже если рассказывают базовую теорию.
1. оригинальные посты, каждый из них проходит ревью у нескольких авторов и иногда по 3-4 раза
1. есть отдельный редактор который который правит текст, чтобы читателям было проще разобраться в теме статьи.
Про NLP они не пишут (пока что), но есть посты, которые полезны любому DL-инженеру. А если вы решаете CV-задачи, то точно рекомендую заглянуть. Перейти и подписаться можно тут.
А теперь про то почему это промо необычное. Канал разрабатывается командой школы deepschool.ru, которую основал мой очень старый друг. Я знаю Тимура с 5 лет и он для меня сын маминой подруги и в мемном и в буквальном смысле ❤️. В 2017 я предложил ему погрузиться в Deep Learning и завертелось. Знаю что он очень старается обучать людей так чтобы они реально получали полезные навыки. Так что подписываемся на оригинальный контент, думаю много кому будет интересно.
👍21❤4🖕3⚡1
When a distinguished but elderly scientist states that something is possible, he is almost certainly right. When he states that something is impossible, he is very probably wrong.
en.wikipedia.org/wiki/Clarke%27s_three_laws
Кажется ЛеКун переметнулся из первой команды во вторую 🤷♂️
en.wikipedia.org/wiki/Clarke%27s_three_laws
Кажется ЛеКун переметнулся из первой команды во вторую 🤷♂️
Wikipedia
Clarke's three laws
three adages proposed by British science fiction writer Arthur C. Clarke about science and technology
👍7🔥2
Forwarded from AI для Всех
Андрей Карпати анонсировал умного ассистента от Open AI. Звучит очень резонно, учитывая работы open-source сообщества по Open Assistant.
🤔22🔥10👍5❤1🤨1
Со мной тут внезапно связались организаторы Field Matters Workshop на EACL 2023
Вот что они про себя говорят
Field Matters — воркшоп об NLP в полевой лингвистике: уменьшаем количество рутины и снижаем порог вхождения в полевые исследования; ведём прикладные разработки, осенью провели секцию на COLING2022 в Южной Корее, а весной будем её проводить на EACL2023 в Хорватии. Но в первую очередь мы формируем сообщество — инженеров, полевых лингвистов и носителей языков, которые понимают ограничения и перспективы технологий, разделяют стремление к доступности исследовательских данных.
И мы очень ищем статьи!
Если у вас есть работы про:
- кросслингвальный трансфер лернинг
- мультилингвальные модели
- построение NLP-инструментов, аугментацию данных, создание датасетов для малых языков
- и вообще про все, что связывает NLP (в любом виде) и малоресурсные языки...
мы будем рады вашим работам. Дедлайн для отправки: 23 февраля 2023 года
(А еще у нас интересные панельные дискуссии, в прошлом году, например, выступал создатель NLTK)
Больше подробностей на сайте: bit.ly/fieldmatters2023
И еще можно следить за обновлениями в твиттере @field_matters
Вот что они про себя говорят
Field Matters — воркшоп об NLP в полевой лингвистике: уменьшаем количество рутины и снижаем порог вхождения в полевые исследования; ведём прикладные разработки, осенью провели секцию на COLING2022 в Южной Корее, а весной будем её проводить на EACL2023 в Хорватии. Но в первую очередь мы формируем сообщество — инженеров, полевых лингвистов и носителей языков, которые понимают ограничения и перспективы технологий, разделяют стремление к доступности исследовательских данных.
И мы очень ищем статьи!
Если у вас есть работы про:
- кросслингвальный трансфер лернинг
- мультилингвальные модели
- построение NLP-инструментов, аугментацию данных, создание датасетов для малых языков
- и вообще про все, что связывает NLP (в любом виде) и малоресурсные языки...
мы будем рады вашим работам. Дедлайн для отправки: 23 февраля 2023 года
(А еще у нас интересные панельные дискуссии, в прошлом году, например, выступал создатель NLTK)
Больше подробностей на сайте: bit.ly/fieldmatters2023
И еще можно следить за обновлениями в твиттере @field_matters
🔥13👍1
Toolformer: Language Models Can Teach Themselves to Use Tools
arxiv.org/abs/2302.04761
Давно не было обзоров статей что-то. Про тулформер на прошлой неделе не говорил только ленивый (например — я) и пришло время её описать.
Изначальная идея очень простая — если LM плохо умеют делать формальные вещи типа умножения и деления или плохо знают какие-то факты из википедии или других knowledge base, почему бы не дать им возможность обращаться к этим тулзам напрямую? Так уже на самом с прошлого года делают некоторые стартапы работающие на OpenAI API (смотреть на langchain.readthedocs.io), но вот что нового придумали в Toolformer:
Датасет для обучения модели генерируется самой моделью на основе нескольких in-context примеров использований сторонних API (калькулятор, википедия, поиск, ...). После генерации датасет фильтруется на основе того что лучше уменьшает перплексию — результаты вызова API или просто free form generation. Потом модель на получившемся датасете.
Вот примеры API которые использует Toolformer:
1. Калькулятор
1. Поиск по википедии
1. Переводчик
1. Календарь
1. Нейросеть ATLAS для QA (да, нейросеть использует нейросеть)
Для генерации датасета использовали GPT-J и потом её же файнтюнили. По результатам сильно аутперфомят OPT-66B и местами GPT-3 (оригинальный davinci без instruciton tuning).
Хотел сказать вот смотрите какой классный рисёч с не очень большими модельками, а потом увидел что всё-таки они использовали 8xA100 (40Gb) для экспериментов. Что относительно немного по современным меркам, но далеко не у всех есть.
arxiv.org/abs/2302.04761
Давно не было обзоров статей что-то. Про тулформер на прошлой неделе не говорил только ленивый (например — я) и пришло время её описать.
Изначальная идея очень простая — если LM плохо умеют делать формальные вещи типа умножения и деления или плохо знают какие-то факты из википедии или других knowledge base, почему бы не дать им возможность обращаться к этим тулзам напрямую? Так уже на самом с прошлого года делают некоторые стартапы работающие на OpenAI API (смотреть на langchain.readthedocs.io), но вот что нового придумали в Toolformer:
Датасет для обучения модели генерируется самой моделью на основе нескольких in-context примеров использований сторонних API (калькулятор, википедия, поиск, ...). После генерации датасет фильтруется на основе того что лучше уменьшает перплексию — результаты вызова API или просто free form generation. Потом модель на получившемся датасете.
Вот примеры API которые использует Toolformer:
1. Калькулятор
1. Поиск по википедии
1. Переводчик
1. Календарь
1. Нейросеть ATLAS для QA (да, нейросеть использует нейросеть)
Для генерации датасета использовали GPT-J и потом её же файнтюнили. По результатам сильно аутперфомят OPT-66B и местами GPT-3 (оригинальный davinci без instruciton tuning).
Хотел сказать вот смотрите какой классный рисёч с не очень большими модельками, а потом увидел что всё-таки они использовали 8xA100 (40Gb) для экспериментов. Что относительно немного по современным меркам, но далеко не у всех есть.
👍15