У o1 появился опенсорс-конкурент: китайские исследователи выпустили LLaVA-o1
Ресерчеры утверждают, что им удалось добиться ризонинга, аналогичного модели OpenAI, и при этом их модель еще и мультимодальная. Она имеет всего 11В параметров и на усредненных бенчмарках заметно превосходит Gemini Pro 1.5, Llama-3.2V 90B и даже GPT-4o-mini.
В основе лежит Llama-3.2-11B-Vision-Instruct, которую файнтюнили всего на 100к обучающих сэмплов (но не простых). Ключом к SOTA ученые называют новый метод inference time скейлинга и специальное структурирование данных. Весь трейн состоял из синтетики, сгенерированной с помощью GPT-4o и поделенной тегами <SUMMARY>, <CAPTION>, <REASONING> и <CONCLUSION>. Благодаря такому строению модель тоже учится добавлять эти теги в свои ответы и начинает рассуждать ✨поэтапно✨.
Что касается инференса, то здесь исследователи предлагают аналог поиска по лучу. Только анализ тут происходит на уровне этапов (тегов). То есть модель генерирует несколько вариантов ответов для каждого тега, но для перехода на следующий этап отбирается только один из них, на основе которого затем модель и продолжает семлировать токены для следующего тега.
Посмотрим, что будет на арене, а пока вот ссылка на саму статью и на гитхаб
Ресерчеры утверждают, что им удалось добиться ризонинга, аналогичного модели OpenAI, и при этом их модель еще и мультимодальная. Она имеет всего 11В параметров и на усредненных бенчмарках заметно превосходит Gemini Pro 1.5, Llama-3.2V 90B и даже GPT-4o-mini.
В основе лежит Llama-3.2-11B-Vision-Instruct, которую файнтюнили всего на 100к обучающих сэмплов (но не простых). Ключом к SOTA ученые называют новый метод inference time скейлинга и специальное структурирование данных. Весь трейн состоял из синтетики, сгенерированной с помощью GPT-4o и поделенной тегами <SUMMARY>, <CAPTION>, <REASONING> и <CONCLUSION>. Благодаря такому строению модель тоже учится добавлять эти теги в свои ответы и начинает рассуждать ✨поэтапно✨.
Что касается инференса, то здесь исследователи предлагают аналог поиска по лучу. Только анализ тут происходит на уровне этапов (тегов). То есть модель генерирует несколько вариантов ответов для каждого тега, но для перехода на следующий этап отбирается только один из них, на основе которого затем модель и продолжает семлировать токены для следующего тега.
Посмотрим, что будет на арене, а пока вот ссылка на саму статью и на гитхаб
🔥85👍22❤12😐6🫡5🤨2🗿2⚡1💯1
В основе – text-only Mistral Large 2, которую научили понимать картинки, файлы и графики. Бенчмарки модельки хороши (SOTA на MathVista, DocVQA, VQAv2), хоть стартап почему-то и не добавил в них сравнение с китайской Qwen2. В твиттере пишут, что Pixtral ей уступает.
Также разработчики обновили свою чат-платформу Le Chat: туда добавили веб-поиск, Canvas как у OpenAI и генерацию изображений. Попробуйте, там уже можно бесплатно поболтать с новой Pixtral.
Блогпост | Веса
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍18❤6😁2
Второй сезон первой в России школьной олимпиады по промышленной разработке PROD открыт. Об этом объявили Т-Банк совместно с Центральным университетом и факультетом компьютерных наук НИУ ВШЭ
На олимпиаде ученики с 8 по 11 класс смогут пройти тест-драйв профессии программиста: им предстоит решать реальные кейсы ИТ-компаний, взаимодействовать с преподавателями топовых вузов, а также изучать изучать создание программных систем, автоматизацию бизнес-процессов. Участники PROD узнают о работе фронтенд-, бэкенд - и мобильных разработчиков и смогут пройти настоящий тест-драйв профессии программиста. А маскотом олимпиады PROD стал аксолотль – амфибия, символизирующая способность решать сложные задачи в молодом возрасте.
Победители смогут попасть на стажировку в Т-Банк по упрощенному отбору, а также получат льготные условия на обучение в Центральный университет и НИУ ВШЭ.
Регистрация на PROD продлится до 3 декабря.
На олимпиаде ученики с 8 по 11 класс смогут пройти тест-драйв профессии программиста: им предстоит решать реальные кейсы ИТ-компаний, взаимодействовать с преподавателями топовых вузов, а также изучать изучать создание программных систем, автоматизацию бизнес-процессов. Участники PROD узнают о работе фронтенд-, бэкенд - и мобильных разработчиков и смогут пройти настоящий тест-драйв профессии программиста. А маскотом олимпиады PROD стал аксолотль – амфибия, символизирующая способность решать сложные задачи в молодом возрасте.
Победители смогут попасть на стажировку в Т-Банк по упрощенному отбору, а также получат льготные условия на обучение в Центральный университет и НИУ ВШЭ.
Регистрация на PROD продлится до 3 декабря.
❤10😁4🤯4🤔3👾1
У Джеффа Дина подгорело настолько, что он написал об этом целую статью
Немного контекста: в 2020 году в Google сделали модель для дизайна чипов. Четыре года она помогала проектировать TPU, а также предоставлялась для использования партнерам. А в сентябре этого года Google выпустили статью в Nature, в котором рассказали о своем четырехлетнем опыте качественного ИИ-дизайна чипов, дали модели имя AlphaChip и выложили веса модели (подробнее в этом нашем посте).
Прошло пару месяцев и за это время на просторах интернета и научных изданий стали появляться работы о том, что Google все наврали и AlphaChip не работает так, как заявлено. Ну а Джефф Дин, знаменитый исследователь и фактический руководитель проекта, посмотрел-посмотрел на это все, а потом психанул и вместе с коллегами написал огромное опровержение опровержений. Что выясняется:
➡️ Вся история началась со статьи arxiv.org/abs/2302.11014. Авторы утверждали, что они полностью дублируют подход Google, но модель не работает. На самом деле оказалось, что авторы даже близко не повторили референсный пайплайн обучения. Дошло до смешного: они вообще не проводили предобучения, а просто пофайнтюнили архитектуру на мощностях в двадцать раз меньше. "Аналогично можно было оценивать AlphaGo, которая никогда раньше не видела игры в го", – пишет Джефф.
➡️ Дальше – больше. В этом месяце вышла статья-анализ в CACM под авторством Игоря Маркова. В ней он ссылается на статью из пункта один и на некий анонимный неопубликованный материал. Эта статья, как и первая, кстати, не была рецензирована (причины неясны) и полна необоснованных обвинений, который в Nature официально признали чушью. Это уже не говоря о том, что сам Игорь оказался высокопоставленным сотрудником компании Synopsys, которая занимается... правильно, разработкой такой же системы, как AlphaChip, только коммерческой.
➡️ Ну и вишенка: помните неопубликованный анонимный материал, на который ссылался горе-автор статьи в CACM? Угадайте с одного раза, кто оказался его теневым творцом и пытался выдать свои же аргументы за независимое мнение другого исследователя 😀
В общем, детективные романы и скандальньные шоу курят в сторонке. Статью Джеффа полностью можно прочитать здесь (не пожалеете).
Наука – это скучно, говорили они
Немного контекста: в 2020 году в Google сделали модель для дизайна чипов. Четыре года она помогала проектировать TPU, а также предоставлялась для использования партнерам. А в сентябре этого года Google выпустили статью в Nature, в котором рассказали о своем четырехлетнем опыте качественного ИИ-дизайна чипов, дали модели имя AlphaChip и выложили веса модели (подробнее в этом нашем посте).
Прошло пару месяцев и за это время на просторах интернета и научных изданий стали появляться работы о том, что Google все наврали и AlphaChip не работает так, как заявлено. Ну а Джефф Дин, знаменитый исследователь и фактический руководитель проекта, посмотрел-посмотрел на это все, а потом психанул и вместе с коллегами написал огромное опровержение опровержений. Что выясняется:
В общем, детективные романы и скандальньные шоу курят в сторонке. Статью Джеффа полностью можно прочитать здесь (не пожалеете).
Наука – это скучно, говорили они
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🔥26😁14❤13
Прямо сейчас в Корейском технологическом KAIST проходит крутой курс по генеративным нейросетям, и мы нашли страницу, на которой выкладывают все записи и презентации
Вот ссылка. В программе курса GAN, VAE, диффузионки, дистилляция... В общем, все от А до Я, и базовое, и продвинутое, с особенным упором на актуальные сегодня архитектуры и техники.
На странице также выложен список полезных материалов и полный список статей, которые упоминаются в ходе курса (кладезь!). А еще туда прикреляют ссылки на домашки и блокноты с очень детально объясненным в ридми и откоментированным кодом с семинаров.
Такое сохраняем
Вот ссылка. В программе курса GAN, VAE, диффузионки, дистилляция... В общем, все от А до Я, и базовое, и продвинутое, с особенным упором на актуальные сегодня архитектуры и техники.
На странице также выложен список полезных материалов и полный список статей, которые упоминаются в ходе курса (кладезь!). А еще туда прикреляют ссылки на домашки и блокноты с очень детально объясненным в ридми и откоментированным кодом с семинаров.
Такое сохраняем
❤60👍10🔥10🤯4
Какой-то неравнодушный разработчик сделал на HuggingFace обновляющийся рейтинг авторов постов. Теперь можно видеть самых интересных и популярных авторов (способ сортировки можно выбрать самому: реакции, комментарии, количество постов), проваливаться в их HF-профиль и читать их посты, разборы и туториалы. Красиво!
👍68💅15❤7👏3🏆2
Американо-китайская комиссия по мониторингу экономики и безопасности дала конкрессу США двусмысленные рекомендации по поводу AGI
12 членов независимого совета в конце каждой осени публикуют отчет, в котором обозначают свои рекомендации конгрессу. В этом году первым же пунктом отчета оказалась фраза:
Фигурирование в тексте про ИИ упоминания проекта по военной разработке ядерного оружия, конечно, немного пугает, но интересно также, что Манхэттенский проект не в первый раз за последний месяц всплывает в медиапространстве ИИ-новостей. Недавно также были опубликованы письма из переписки Альтмана и Маска, в которых выясняется, что еще с 2015 года создание «Манхэттенского проекта для ИИ» – настоящая мечта Альтмана.
Есть ли тут связь?
12 членов независимого совета в конце каждой осени публикуют отчет, в котором обозначают свои рекомендации конгрессу. В этом году первым же пунктом отчета оказалась фраза:
"Учредить и профинансировать подобную Манхэттенскому проекту программу, направленную на разработку и достижение AGI"
Фигурирование в тексте про ИИ упоминания проекта по военной разработке ядерного оружия, конечно, немного пугает, но интересно также, что Манхэттенский проект не в первый раз за последний месяц всплывает в медиапространстве ИИ-новостей. Недавно также были опубликованы письма из переписки Альтмана и Маска, в которых выясняется, что еще с 2015 года создание «Манхэттенского проекта для ИИ» – настоящая мечта Альтмана.
Есть ли тут связь?
🤯65❤10😁7👍4🤔3
Кажется, нас ждет новый AlphaZero: Google совместно с федерацией шахмат FIDE запускает соревнование по разработке агента-шахматиста
Соревнование пройдет на Kaggle. Его главная особенность в том, что агент должен играть в условиях строгих ограничений CPU и памяти. Для движков AlphaZero и Stockfish шахматы – давно не вызов, но эти системы слишком жадные до ресурсов. Цель соревнования – сместить фокус с вычислений методом грубой силы на элегантность и эффективность.
Приз – $50,000, кстати💸
Страница соревнования
Соревнование пройдет на Kaggle. Его главная особенность в том, что агент должен играть в условиях строгих ограничений CPU и памяти. Для движков AlphaZero и Stockfish шахматы – давно не вызов, но эти системы слишком жадные до ресурсов. Цель соревнования – сместить фокус с вычислений методом грубой силы на элегантность и эффективность.
Приз – $50,000, кстати
Страница соревнования
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥66👍11❤6🤯2
Anthropic написали интересную статью о том, как нам на самом деле следует оценивать модели
Сейчас бенчмаркинг происходит довольно наивно: у нас есть список вопросов, на каждый из которых модель отвечает и получает за ответ определенный балл, а общая оценка обычно представляет из себя просто среднее по всем таким баллам. Но действительно ли нам интересно только среднее?
Антропики утверждают, что с точки зрения статистики такой классический эвал слишком упрощен, и дают пять советов о том, как сделать свои оценки статистически значимыми и более глубокими. В основе их подхода привычное предположение матстата: все вопросы, которые у нас есть – это какая-то случайная подвыборка генеральной совокупности всевозможных вопросов, которые вообще можно задать. А значит, называть среднее на каком-то бенчмарке оценкой навыка модели – слишком грубо. Вот что на самом деле стоит делать:
1. Использовать ЦПТ. Основываясь на центральной предельной теореме, средние значения нескольких выборок, взятых из одного и того же распределения, будут распределены нормально. А значит, мы можем взять из нашего бенчмарка несколько подмножеств (можно даже пересекающихся), оценить каждое из них, а на получившихся средних подсчитать SEM (стандартную ошибку среднего) и доверительный интервал.
2. Если вопросы в бенчмарке не независимы (например задаются вопросы по одному и тому же тексту), то ЦПТ исполользовать уже нельзя. Здесь предлагается вспомнить про Cluster standard errors.
3. Если дисперсия вашей модели высокая, то это важно учитывать в эвале, потому что дисперсия – это по сути оценка надежности модели. Поэтому исследователи предлагают также изменить стратегию оценки каждого отдельного вопроса. Вместо наивной оценки они предлагают двусоставную, состоящую из среднего балла (задаем вопрос много-много раз и считаем среднее) плюс ошибки отклонения (разница между реализованным баллов вопроса и средним баллом для этого вопроса).
4. Вместо обычного "больше-меньше" для сравнения двух моделей использовать статистические тесты. Однако использовать t-test все-таки не рекомендуется, вместо этого в статье предлагается более сложная формула, которая также учитывает корреляцию Пирсона и минимизирует mean difference error.
5. Не забывать про мощность критериев в оценках и формулировать правильные гипотезы для сравнения моделей.
Рекомендации, в общем, действительно стоящие. Другой вопрос – сколько времени постребуется, чтобы ресерчеры действительно стали соблюдать что-то подобное
Сейчас бенчмаркинг происходит довольно наивно: у нас есть список вопросов, на каждый из которых модель отвечает и получает за ответ определенный балл, а общая оценка обычно представляет из себя просто среднее по всем таким баллам. Но действительно ли нам интересно только среднее?
Антропики утверждают, что с точки зрения статистики такой классический эвал слишком упрощен, и дают пять советов о том, как сделать свои оценки статистически значимыми и более глубокими. В основе их подхода привычное предположение матстата: все вопросы, которые у нас есть – это какая-то случайная подвыборка генеральной совокупности всевозможных вопросов, которые вообще можно задать. А значит, называть среднее на каком-то бенчмарке оценкой навыка модели – слишком грубо. Вот что на самом деле стоит делать:
1. Использовать ЦПТ. Основываясь на центральной предельной теореме, средние значения нескольких выборок, взятых из одного и того же распределения, будут распределены нормально. А значит, мы можем взять из нашего бенчмарка несколько подмножеств (можно даже пересекающихся), оценить каждое из них, а на получившихся средних подсчитать SEM (стандартную ошибку среднего) и доверительный интервал.
2. Если вопросы в бенчмарке не независимы (например задаются вопросы по одному и тому же тексту), то ЦПТ исполользовать уже нельзя. Здесь предлагается вспомнить про Cluster standard errors.
3. Если дисперсия вашей модели высокая, то это важно учитывать в эвале, потому что дисперсия – это по сути оценка надежности модели. Поэтому исследователи предлагают также изменить стратегию оценки каждого отдельного вопроса. Вместо наивной оценки они предлагают двусоставную, состоящую из среднего балла (задаем вопрос много-много раз и считаем среднее) плюс ошибки отклонения (разница между реализованным баллов вопроса и средним баллом для этого вопроса).
4. Вместо обычного "больше-меньше" для сравнения двух моделей использовать статистические тесты. Однако использовать t-test все-таки не рекомендуется, вместо этого в статье предлагается более сложная формула, которая также учитывает корреляцию Пирсона и минимизирует mean difference error.
5. Не забывать про мощность критериев в оценках и формулировать правильные гипотезы для сравнения моделей.
Рекомендации, в общем, действительно стоящие. Другой вопрос – сколько времени постребуется, чтобы ресерчеры действительно стали соблюдать что-то подобное
👍70❤12🔥11😁1