Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/def_model_train/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
я обучала одну модель@def_model_train P.1011
DEF_MODEL_TRAIN Telegram 1011
Пару дней назад у меня в школе был open Q&A с ресерчером из OpenAI Яном Кирхнером. Ян работает в Superalignment команде, и он один из соавторов очень крутой статьи Weak-to-strong generalization. Если TLDR, это статья про то, как не очень умные хуманы могут в перспективе обучать superhuman AI. В статье они используют GPT-2, чтобы генерировать фидбек для обучения гораздо большей GPT-4. В итоге такой фидбек от weak supervisor все равно получается лучше, чем обычный файнтюн, но разумеется не дотягивает до оригинальной GPT-4

Собственно команда Superalignment занята фундаментальным вопросом, как нам прыгнуть на голову выше человеческого перфоманса. Основная предпосылка тут, что обучаясь на человеческих данных (и на человеческих текстах, и на человеческой разметке), мы так и останемся примерно на уровне среднестатистических людей. Тут это напоминает Goodhart’s law: поскольку человеческая разметка в обучении стала таргетом, а не метрикой, то она перестает быть хорошей метрикой. Ян признается, что infinitely scalable solution for alignment у них еще нет, и что в течение 4-5 лет они надеются либо его найти, либо прийти к тому, что его не существует

Мне это рассуждение напомнило вот этот недавний твит, где автор приводит причины, почему обучаясь на человеческих данных мы все равно можем получить сильный AI:

1. Self-play. В этом году на эту тему вышла сначала статья SPIN, а потом Self-Rewarding Language Models от Meta. В последний модель учится сама быть и генератором, и разметчиком, и итеративно обучается на своем же фидбеке, при этом продолжая наращивать метрики (полоток в этой работе не был достигнут)
2. Aggregated peak performance – ни один участник межнара по математике не может решить все задачи сразу, но модель обучается на решениях всего и сразу
3. Aggregated knowledge – AI может “удерживать” в памяти гораздо больше изученного материала, чем люди в среднем
4. Speed – возможно AI не сможет стать умнее людей, но может значительно обойти из по скорости (см. LLaMA 3 on Groq), а это иногда решает
5. Unique data – можно обучить модель на огромном количестве очень специфичных данных, вроде структур белков, которые предсказывает AlphaFold. Такие данные людям слишком сложно воспринимать самим напрямую, и тем более не в таком объеме

В реплаях там накидали и критики этих тейков (feel free покритиковать их в коментах!), но мне показалось, что этот список неплохой + заставляет задуматься…
👍342🔥1



tgoop.com/def_model_train/1011
Create:
Last Update:

Пару дней назад у меня в школе был open Q&A с ресерчером из OpenAI Яном Кирхнером. Ян работает в Superalignment команде, и он один из соавторов очень крутой статьи Weak-to-strong generalization. Если TLDR, это статья про то, как не очень умные хуманы могут в перспективе обучать superhuman AI. В статье они используют GPT-2, чтобы генерировать фидбек для обучения гораздо большей GPT-4. В итоге такой фидбек от weak supervisor все равно получается лучше, чем обычный файнтюн, но разумеется не дотягивает до оригинальной GPT-4

Собственно команда Superalignment занята фундаментальным вопросом, как нам прыгнуть на голову выше человеческого перфоманса. Основная предпосылка тут, что обучаясь на человеческих данных (и на человеческих текстах, и на человеческой разметке), мы так и останемся примерно на уровне среднестатистических людей. Тут это напоминает Goodhart’s law: поскольку человеческая разметка в обучении стала таргетом, а не метрикой, то она перестает быть хорошей метрикой. Ян признается, что infinitely scalable solution for alignment у них еще нет, и что в течение 4-5 лет они надеются либо его найти, либо прийти к тому, что его не существует

Мне это рассуждение напомнило вот этот недавний твит, где автор приводит причины, почему обучаясь на человеческих данных мы все равно можем получить сильный AI:

1. Self-play. В этом году на эту тему вышла сначала статья SPIN, а потом Self-Rewarding Language Models от Meta. В последний модель учится сама быть и генератором, и разметчиком, и итеративно обучается на своем же фидбеке, при этом продолжая наращивать метрики (полоток в этой работе не был достигнут)
2. Aggregated peak performance – ни один участник межнара по математике не может решить все задачи сразу, но модель обучается на решениях всего и сразу
3. Aggregated knowledge – AI может “удерживать” в памяти гораздо больше изученного материала, чем люди в среднем
4. Speed – возможно AI не сможет стать умнее людей, но может значительно обойти из по скорости (см. LLaMA 3 on Groq), а это иногда решает
5. Unique data – можно обучить модель на огромном количестве очень специфичных данных, вроде структур белков, которые предсказывает AlphaFold. Такие данные людям слишком сложно воспринимать самим напрямую, и тем более не в таком объеме

В реплаях там накидали и критики этих тейков (feel free покритиковать их в коментах!), но мне показалось, что этот список неплохой + заставляет задуматься…

BY я обучала одну модель




Share with your friend now:
tgoop.com/def_model_train/1011

View MORE
Open in Telegram


Telegram News

Date: |

As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance.
from us


Telegram я обучала одну модель
FROM American