Как давно это было... 9 лет назад появился deepdream, наверное, первый большой шаг к нейросетевому GenAI. Вскоре через месяц-другой будет style transfer Леона Гатиса, затем быстрое развитие уже существующих GAN, ... и вот мы в мире трансформеров и диффузионок.
❤69👍9⚡6
DeepMind продолжают в математику
https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/
AlphaProof доказывает математические утверждения на языке Lean (https://lean-lang.org/). Зафайнтюненная Gemini переводит описание с человеческого языка на Lean, а дальше RL механизм на базе AlphaZero ищет шаги доказательства.
AlphaGeometry 2 обучена на гораздо большем объеме задач, чем её предшественница и имеет на два порядка более быстрый символьный движок.
Сообща эти две системы решили 4 из 6 задач математический олимпиады этого года, получив результат на уровне серебряного медалиста.
https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/
AlphaProof доказывает математические утверждения на языке Lean (https://lean-lang.org/). Зафайнтюненная Gemini переводит описание с человеческого языка на Lean, а дальше RL механизм на базе AlphaZero ищет шаги доказательства.
AlphaGeometry 2 обучена на гораздо большем объеме задач, чем её предшественница и имеет на два порядка более быстрый символьный движок.
Сообща эти две системы решили 4 из 6 задач математический олимпиады этого года, получив результат на уровне серебряного медалиста.
Google DeepMind
AI achieves silver-medal standard solving International Mathematical Olympiad problems
Breakthrough models AlphaProof and AlphaGeometry 2 solve advanced reasoning problems in mathematics
🔥36👍10🤯3
Вот и поисковик от OpenAI пожаловал :)
https://openai.com/index/searchgpt-prototype/
Надо сказать, я ждал его дольше, чем хотелось :) (https://www.tgoop.com/gonzo_ML/1140)
https://openai.com/index/searchgpt-prototype/
Надо сказать, я ждал его дольше, чем хотелось :) (https://www.tgoop.com/gonzo_ML/1140)
Openai
SearchGPT is a prototype of new AI search features
We’re testing SearchGPT, a temporary prototype of new search features that give you fast and timely answers with clear and relevant sources.
👍13🔥5😱2
Какой прикольный проект — gpu.cpp!
https://github.com/AnswerDotAI/gpu.cpp
https://gpucpp.answer.ai/
https://x.com/austinvhuang/status/1816141044540739642
Можно использовать GPU, не заморачиваясь написанием отдельного кода под CUDA, AMD, Mac, Intel GPUs. Спасибо WebGPU, который не только про веб (https://www.youtube.com/watch?v=qHrx41aOTUQ).
https://github.com/AnswerDotAI/gpu.cpp
https://gpucpp.answer.ai/
https://x.com/austinvhuang/status/1816141044540739642
Можно использовать GPU, не заморачиваясь написанием отдельного кода под CUDA, AMD, Mac, Intel GPUs. Спасибо WebGPU, который не только про веб (https://www.youtube.com/watch?v=qHrx41aOTUQ).
GitHub
GitHub - AnswerDotAI/gpu.cpp: A lightweight library for portable low-level GPU computation using WebGPU.
A lightweight library for portable low-level GPU computation using WebGPU. - GitHub - AnswerDotAI/gpu.cpp: A lightweight library for portable low-level GPU computation using WebGPU.
👍39🥰7❤3🤔2👀2
Тем временем на lmsys arena новый лидер, гугловая экспериментальная Gemini 1.5 Pro Experimental 0801 в статусе превью.
🤔25🤯9🔥4🐳2
Ещё из свежих новостей — это новая Gemma 2 2B. Похоже, что на редкость неплохая
https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/
https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/
Googleblog
Google for Developers Blog - News about Web, Mobile, AI and Cloud
ShieldGemma is a suite of safety content classifiers models built upon Gemma2 designed to keep users safe. GemmaScope is a new model interpretability tool that offers unparalleled insight into our models' inner workings.
👍10
Интересный кейс про отказ от LLM/агентского фреймворка (здесь LangChain), когда абстракции фреймворка не помогают, а скорее тормозят:
https://www.octomind.dev/blog/why-we-no-longer-use-langchain-for-building-our-ai-agents
Обсуждение на Hacker News:
https://news.ycombinator.com/item?id=40739982
У меня от LangChain изначально примерно такие же ощущения были, что для прототипов это ок быстро нафигачить, а для прода проще самим написать на более низкоуровневых абстракциях, чем в недра фреймворка по любому чиху лезть. А там для прода обычно много чего надо от правильного логгирования и мониторинга до навешивания на какую-нибудь очередь типа кафки. LangChain вроде туда как-то пошёл со своим LangSmith, но как-то невнятно для меня до сих пор.
Сейчас у меня скорее в более положительную сторону ощущение поменялось, но всё равно основная ценность LangChain для меня лично сосредоточена больше в районе каких-то базовых вещей типа интеграций с LLM и шаблонизации запросов. Остальное проще самому контролировать.
Есть LangGraph ещё, из когорты мультиагентных фреймворков. Он мне в целом понравился среди того, что я пробовал (а это ещё CrewAI и AutoGen). LangGraph вроде как достаточно низкоуровневый с базовыми примитивами для сборки графа воркфлоу.
CrewAI для меня оказался аналогично LangChain из статьи выше — слишком высокие абстракции, чтобы применить к куче задач, где я хотел бы его попробовать. Например, я сходу не нашёл, как его эффективно использовать для задач с открытой постановкой, где цель изначально не задана чётко, а определяется из общения с пользователем. Могу ошибаться, но, кажется, годится в основном для кейсов с чётко определённой целью, которую агенты потенциально могут выполнить автономно. Ну и всё равно не уверен, что это подходит для прода, потому что опять же куча всего спрятана внутри и не факт, что это можно стабильно использовать за пределами прототипов.
AutoGen кажется наиболее близок к разумному срединному пути между LangGraph и CrewAI. Есть концепция группового чата, где можно собирать довольно открытые диалоги с пользователем. Можно автономных агентов и воркфлоу с переходами между состояниями делать. Мне лично не хватает коллбэков в разных местах, но можно дописать, наверное.
Но вообще в интересное время живём. Прямо сейчас определяются контуры будущего и пока ещё непонятно куда конкретно всё вырулит с этими агентами и мультиагентами.
А вы какими фреймворками пользуетесь (или не пользуетесь) и почему?
https://www.octomind.dev/blog/why-we-no-longer-use-langchain-for-building-our-ai-agents
Обсуждение на Hacker News:
https://news.ycombinator.com/item?id=40739982
У меня от LangChain изначально примерно такие же ощущения были, что для прототипов это ок быстро нафигачить, а для прода проще самим написать на более низкоуровневых абстракциях, чем в недра фреймворка по любому чиху лезть. А там для прода обычно много чего надо от правильного логгирования и мониторинга до навешивания на какую-нибудь очередь типа кафки. LangChain вроде туда как-то пошёл со своим LangSmith, но как-то невнятно для меня до сих пор.
Сейчас у меня скорее в более положительную сторону ощущение поменялось, но всё равно основная ценность LangChain для меня лично сосредоточена больше в районе каких-то базовых вещей типа интеграций с LLM и шаблонизации запросов. Остальное проще самому контролировать.
Есть LangGraph ещё, из когорты мультиагентных фреймворков. Он мне в целом понравился среди того, что я пробовал (а это ещё CrewAI и AutoGen). LangGraph вроде как достаточно низкоуровневый с базовыми примитивами для сборки графа воркфлоу.
CrewAI для меня оказался аналогично LangChain из статьи выше — слишком высокие абстракции, чтобы применить к куче задач, где я хотел бы его попробовать. Например, я сходу не нашёл, как его эффективно использовать для задач с открытой постановкой, где цель изначально не задана чётко, а определяется из общения с пользователем. Могу ошибаться, но, кажется, годится в основном для кейсов с чётко определённой целью, которую агенты потенциально могут выполнить автономно. Ну и всё равно не уверен, что это подходит для прода, потому что опять же куча всего спрятана внутри и не факт, что это можно стабильно использовать за пределами прототипов.
AutoGen кажется наиболее близок к разумному срединному пути между LangGraph и CrewAI. Есть концепция группового чата, где можно собирать довольно открытые диалоги с пользователем. Можно автономных агентов и воркфлоу с переходами между состояниями делать. Мне лично не хватает коллбэков в разных местах, но можно дописать, наверное.
Но вообще в интересное время живём. Прямо сейчас определяются контуры будущего и пока ещё непонятно куда конкретно всё вырулит с этими агентами и мультиагентами.
А вы какими фреймворками пользуетесь (или не пользуетесь) и почему?
octomind.dev
Why we no longer use LangChain for building our AI agents
When abstractions do more harm than good - lessons learned using LangChain in production and what we should’ve done instead
👍32❤10🔥5⚡1
Вдогонку к посту про агентные и мультиагентные фреймворки, немного ссылок для тех, кто хочет их изучить.
#1. Спасибо Andrew Ng, на DeepLearning.ai есть открытые и бесплатные мини-курсы по всем основным фреймворкам:
LangChain:
LangChain for LLM Application Development
https://www.deeplearning.ai/short-courses/langchain-for-llm-application-development/
LangChain: Chat with Your Data
https://www.deeplearning.ai/short-courses/langchain-chat-with-your-data/
Functions, Tools and Agents with LangChain
https://www.deeplearning.ai/short-courses/functions-tools-agents-langchain/
Build LLM Apps with LangChain.js
https://www.deeplearning.ai/short-courses/build-llm-apps-with-langchain-js/
Semantic Kernel (альтернатива LangChain от MS -- мне, кстати, понравился, https://learn.microsoft.com/en-us/semantic-kernel/overview/):
How Business Thinkers Can Start Building AI Plugins With Semantic Kernel
https://www.deeplearning.ai/short-courses/microsoft-semantic-kernel/
LangGraph:
AI Agents in LangGraph
https://www.deeplearning.ai/short-courses/ai-agents-in-langgraph/
AutoGen:
AI Agentic Design Patterns with AutoGen
https://www.deeplearning.ai/short-courses/ai-agentic-design-patterns-with-autogen/
CrewAI:
Multi AI Agent Systems with CrewAI
https://www.deeplearning.ai/short-courses/multi-ai-agent-systems-with-crewai/
Есть там и много всего другого про LLM, промпт-инжиниринг, RAG, LlamaIndex и прочее.
#2. Книги
Я уже их упоминал, у Manning в стадии написания (и доступные для чтения по ходу процесса) есть две тематические книги:
AI Agents in Action
https://www.manning.com/books/ai-agents-in-action
Multi-Agent Systems with AutoGen
https://www.manning.com/books/multi-agent-systems-with-autogen
#3. YouTube, документация, блоги и прочее
Тут ничего писать не буду, много всего, а блог Виктора Дибиа я уже советовал (https://www.tgoop.com/gonzo_ML/2859)
Порог на вход сейчас низок как никогда.
#1. Спасибо Andrew Ng, на DeepLearning.ai есть открытые и бесплатные мини-курсы по всем основным фреймворкам:
LangChain:
LangChain for LLM Application Development
https://www.deeplearning.ai/short-courses/langchain-for-llm-application-development/
LangChain: Chat with Your Data
https://www.deeplearning.ai/short-courses/langchain-chat-with-your-data/
Functions, Tools and Agents with LangChain
https://www.deeplearning.ai/short-courses/functions-tools-agents-langchain/
Build LLM Apps with LangChain.js
https://www.deeplearning.ai/short-courses/build-llm-apps-with-langchain-js/
Semantic Kernel (альтернатива LangChain от MS -- мне, кстати, понравился, https://learn.microsoft.com/en-us/semantic-kernel/overview/):
How Business Thinkers Can Start Building AI Plugins With Semantic Kernel
https://www.deeplearning.ai/short-courses/microsoft-semantic-kernel/
LangGraph:
AI Agents in LangGraph
https://www.deeplearning.ai/short-courses/ai-agents-in-langgraph/
AutoGen:
AI Agentic Design Patterns with AutoGen
https://www.deeplearning.ai/short-courses/ai-agentic-design-patterns-with-autogen/
CrewAI:
Multi AI Agent Systems with CrewAI
https://www.deeplearning.ai/short-courses/multi-ai-agent-systems-with-crewai/
Есть там и много всего другого про LLM, промпт-инжиниринг, RAG, LlamaIndex и прочее.
#2. Книги
Я уже их упоминал, у Manning в стадии написания (и доступные для чтения по ходу процесса) есть две тематические книги:
AI Agents in Action
https://www.manning.com/books/ai-agents-in-action
Multi-Agent Systems with AutoGen
https://www.manning.com/books/multi-agent-systems-with-autogen
#3. YouTube, документация, блоги и прочее
Тут ничего писать не буду, много всего, а блог Виктора Дибиа я уже советовал (https://www.tgoop.com/gonzo_ML/2859)
Порог на вход сейчас низок как никогда.
www.deeplearning.ai
LangChain for LLM Application Development - DeepLearning.AI
Learn to use LangChain to call LLMs into new environments, and use memories, chains, and agents to take on new and complex tasks.
👍41🔥9❤3
An interesting opinion on hype/no hype.
"I don't think that "AI" models [a] (by which I mean: large language models) are over-hyped.
Yes, it's true that any new technology will attract the grifters. And it is definitely true that many companies like to say they're "Using AI" in the same way they previously said they were powered by "The Blockchain". (As we've seen again, and again, and again, and again.) It's also the case we may be in a bubble. The internet was a bubble that burst in 2000, but the Internet applications we now have are what was previously the stuff of literal science fiction.
But the reason I think that the recent advances we've made aren't just hype is that, over the past year, I have spent at least a few hours every week interacting with various large language models, and have been consistently impressed by their ability to solve increasingly difficult tasks I give them. And as a result of this, I would say I'm at least 50% faster at writing code for both my research projects and my side projects as a result of these models.
Most of the people online I find who talk about LLM utility are either wildly optimistic, and claim all jobs will be automated within three years, or wildly pessimistic, and say they have contributed nothing and never will.
So in this post, I just want to try and ground the conversation. I'm not going to make any arguments about what the future holds. I just want to provide a list of 50 conversations that I (a programmer and research scientist studying machine learning) have had with different large language models to meaningfully improve my ability to perform research and help me work on random coding side projects."
https://nicholas.carlini.com/writing/2024/how-i-use-ai.html
"I don't think that "AI" models [a] (by which I mean: large language models) are over-hyped.
Yes, it's true that any new technology will attract the grifters. And it is definitely true that many companies like to say they're "Using AI" in the same way they previously said they were powered by "The Blockchain". (As we've seen again, and again, and again, and again.) It's also the case we may be in a bubble. The internet was a bubble that burst in 2000, but the Internet applications we now have are what was previously the stuff of literal science fiction.
But the reason I think that the recent advances we've made aren't just hype is that, over the past year, I have spent at least a few hours every week interacting with various large language models, and have been consistently impressed by their ability to solve increasingly difficult tasks I give them. And as a result of this, I would say I'm at least 50% faster at writing code for both my research projects and my side projects as a result of these models.
Most of the people online I find who talk about LLM utility are either wildly optimistic, and claim all jobs will be automated within three years, or wildly pessimistic, and say they have contributed nothing and never will.
So in this post, I just want to try and ground the conversation. I'm not going to make any arguments about what the future holds. I just want to provide a list of 50 conversations that I (a programmer and research scientist studying machine learning) have had with different large language models to meaningfully improve my ability to perform research and help me work on random coding side projects."
https://nicholas.carlini.com/writing/2024/how-i-use-ai.html
Carlini
How I Use "AI"
I don't think that AI models (by which I mean: large language models) are over-hyped. In this post I will list 50 ways I've used them.
👍39❤10🤔3🥱3🔥2
We're excited to introduce The AI Scientist, the first comprehensive system for fully automatic scientific discovery, enabling Foundation Models such as Large Language Models (LLMs) to perform research independently.
https://github.com/SakanaAI/AI-Scientist
Blog: https://sakana.ai/ai-scientist/
Paper: https://arxiv.org/abs/2408.06292
https://github.com/SakanaAI/AI-Scientist
Blog: https://sakana.ai/ai-scientist/
Paper: https://arxiv.org/abs/2408.06292
GitHub
GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬 - SakanaAI/AI-Scientist
🥴62👀13🤔8🔥5👍3❤🔥2⚡1👏1😁1
[AI21] Jamba-1.5: Hybrid Transformer-Mamba Models at Scale
AI21 Labs Jamba Team
Статья: https://arxiv.org/abs/2408.12570
Пост: https://www.ai21.com/blog/announcing-jamba-model-family
Модели: https://huggingface.co/collections/ai21labs/jamba-15-66c44befa474a917fcf55251
Малозамеченным прошёл релиз моделей Jamba-1.5, отскейленных версий мартовской Jamba (https://www.tgoop.com/gonzo_ML/2492).
Напомним, что Jamba — это гибрид SSM (https://www.tgoop.com/gonzo_ML/1424) и трансформера, точнее Mamba (https://www.tgoop.com/gonzo_ML/2148) + MoE (Mixture-of-Experts, про это мы писали много, можно начать отсюда https://www.tgoop.com/gonzo_ML/472) + трансформерные слои.
В оригинале блок Jamba состоял из 8 слоёв, из них каждый второй MoE, всего четыре штуки; три слоя Mamba, и один трансформерный. Малое количество трансформерных слоёв позволяло уменьшить размер KV-кеша (получается в 8 раз меньше обычного трансформера с таким же количеством слоёв).
Оригинальная Jamba содержала 52B параметров, из которых активны в каждый момент были 12B (потому что MoE).
Благодаря более скромному memory footprint, модель позволяла использовать контекст размером 140k на одном GPU A100-80 Gb, намного больше, чем влезало у Llama-2 70B или Mixtral 8x7B. Полный размер контекста модели был 256k токенов. Это также позволяло использовать более крупные батчи, так что итоговый throughput начиная с размера батча 4 был выше упомянутых конкурентов.
По качеству оригинальная Jamba показала себя достойно в сравнении с Llama-2 13B-70B, Gemma 7B и Mixtral.
Это была базовая модель, никакого alignment или instruction tuning. Доступна под Apache 2.0
Теперь в августе вышло обновление, Jamba-1.5, включающая две модели:
* Jamba-1.5-Mini: 12B/52B active/total params (как оригинальная Jamba)
* Jamba-1.5-Large: 94B/398B active/total params
Пробовали блоки Mamba-2 (https://www.tgoop.com/gonzo_ML/2718), но они оказались не лучше и в архитектуре оставили Mamba-1.
Для эффективного инференса разработали новую квантизацию ExpertsInt8, когда веса MoE и MLP квантуются в INT8, а перед вычислением приводятся к BF16, чтобы использовать быстрые BF16 кернелы. Это всё происходит внутри vLLM в fused_moe кернеле. На H100 latency ExpertsInt8 соответствует FP8, а на A100, где нет FP8, намного превосходит GPTQ.
В обучение добавили Activation Loss, так как некоторые активации вырастали до 4e6, что вроде ничему не мешало, но на всякий случай.
Throughput и latency у Jamba хороши по сравнению с конкурентами (Llama 3.1 8B, Mixtral-8x7B, Mistral Nemo 12B для Mini; Llama 3.1 70B, Mistral Large 2, Llama 3.1 405B для Large), особенно на большом размере контекста.
Обучалось на каком-то внутреннем датасете в три фазы. В pre-train по сравнению с предыдущей Jamba добавили мультиязычные данные с фокусом на English, Spanish, French, Portueguse, Italian, Dutch, German, Arabic, Hebrew. Затем был mid-training с фокусом на длинных документах. Затем post-training с SFT на качественных разговорных данных, скилл-специфичных и с длинным контекстом. Как я понял, отдельного preference tuning типа PPO/DPO не было, обошлись качественной синтетикой, фильтрацией и SFT.
Модель обучена с function calling. Я рад, что эта тема (https://www.tgoop.com/gonzo_ML/2821) развивается.
Итоговые модели сравнимы с соразмерными конкурентами из линеек Llama-3.1, Gemma-2, Mistral-Large-2.
Отдельно проверили способности на задачах с большим контекстом через бенчмарк RULER (https://arxiv.org/abs/2404.06654) с 8 вариантами needle-in-a-haystack задач. Заявляют, что они единственные, кто поддерживает эффективный контекст в 256k, остальные хоть и заявляют большие длины, но лажают. На ∞BENCH тоже хороши.
Короче, выглядит хорошо. Кажется, это первая реально большая нетрансформерная (ну почти) модель. Лицензия у новой модели правда изменилась с Apache 2.0 на Jamba Open Model License, которая personal, revocable, и не разрешает коммерческое использование, если вы зарабатываете больше $50M в год (problems nice to have).
AI21 Labs Jamba Team
Статья: https://arxiv.org/abs/2408.12570
Пост: https://www.ai21.com/blog/announcing-jamba-model-family
Модели: https://huggingface.co/collections/ai21labs/jamba-15-66c44befa474a917fcf55251
Малозамеченным прошёл релиз моделей Jamba-1.5, отскейленных версий мартовской Jamba (https://www.tgoop.com/gonzo_ML/2492).
Напомним, что Jamba — это гибрид SSM (https://www.tgoop.com/gonzo_ML/1424) и трансформера, точнее Mamba (https://www.tgoop.com/gonzo_ML/2148) + MoE (Mixture-of-Experts, про это мы писали много, можно начать отсюда https://www.tgoop.com/gonzo_ML/472) + трансформерные слои.
В оригинале блок Jamba состоял из 8 слоёв, из них каждый второй MoE, всего четыре штуки; три слоя Mamba, и один трансформерный. Малое количество трансформерных слоёв позволяло уменьшить размер KV-кеша (получается в 8 раз меньше обычного трансформера с таким же количеством слоёв).
Оригинальная Jamba содержала 52B параметров, из которых активны в каждый момент были 12B (потому что MoE).
Благодаря более скромному memory footprint, модель позволяла использовать контекст размером 140k на одном GPU A100-80 Gb, намного больше, чем влезало у Llama-2 70B или Mixtral 8x7B. Полный размер контекста модели был 256k токенов. Это также позволяло использовать более крупные батчи, так что итоговый throughput начиная с размера батча 4 был выше упомянутых конкурентов.
По качеству оригинальная Jamba показала себя достойно в сравнении с Llama-2 13B-70B, Gemma 7B и Mixtral.
Это была базовая модель, никакого alignment или instruction tuning. Доступна под Apache 2.0
Теперь в августе вышло обновление, Jamba-1.5, включающая две модели:
* Jamba-1.5-Mini: 12B/52B active/total params (как оригинальная Jamba)
* Jamba-1.5-Large: 94B/398B active/total params
Пробовали блоки Mamba-2 (https://www.tgoop.com/gonzo_ML/2718), но они оказались не лучше и в архитектуре оставили Mamba-1.
Для эффективного инференса разработали новую квантизацию ExpertsInt8, когда веса MoE и MLP квантуются в INT8, а перед вычислением приводятся к BF16, чтобы использовать быстрые BF16 кернелы. Это всё происходит внутри vLLM в fused_moe кернеле. На H100 latency ExpertsInt8 соответствует FP8, а на A100, где нет FP8, намного превосходит GPTQ.
В обучение добавили Activation Loss, так как некоторые активации вырастали до 4e6, что вроде ничему не мешало, но на всякий случай.
Throughput и latency у Jamba хороши по сравнению с конкурентами (Llama 3.1 8B, Mixtral-8x7B, Mistral Nemo 12B для Mini; Llama 3.1 70B, Mistral Large 2, Llama 3.1 405B для Large), особенно на большом размере контекста.
Обучалось на каком-то внутреннем датасете в три фазы. В pre-train по сравнению с предыдущей Jamba добавили мультиязычные данные с фокусом на English, Spanish, French, Portueguse, Italian, Dutch, German, Arabic, Hebrew. Затем был mid-training с фокусом на длинных документах. Затем post-training с SFT на качественных разговорных данных, скилл-специфичных и с длинным контекстом. Как я понял, отдельного preference tuning типа PPO/DPO не было, обошлись качественной синтетикой, фильтрацией и SFT.
Модель обучена с function calling. Я рад, что эта тема (https://www.tgoop.com/gonzo_ML/2821) развивается.
Итоговые модели сравнимы с соразмерными конкурентами из линеек Llama-3.1, Gemma-2, Mistral-Large-2.
Отдельно проверили способности на задачах с большим контекстом через бенчмарк RULER (https://arxiv.org/abs/2404.06654) с 8 вариантами needle-in-a-haystack задач. Заявляют, что они единственные, кто поддерживает эффективный контекст в 256k, остальные хоть и заявляют большие длины, но лажают. На ∞BENCH тоже хороши.
Короче, выглядит хорошо. Кажется, это первая реально большая нетрансформерная (ну почти) модель. Лицензия у новой модели правда изменилась с Apache 2.0 на Jamba Open Model License, которая personal, revocable, и не разрешает коммерческое использование, если вы зарабатываете больше $50M в год (problems nice to have).
👍24❤1
В общем, интересное развитие, ждём больше нетрансформерных SSM (и не только) моделей. У NVIDIA был тоже гибрид Mamba-2-Hybrid (https://arxiv.org/abs/2406.07887), и есть ещё StripedHyena (свёртки Hyena + attention, https://www.together.ai/blog/stripedhyena-7b), но последние две были маленькие, 7-8B.
arXiv.org
Jamba-1.5: Hybrid Transformer-Mamba Models at Scale
We present Jamba-1.5, new instruction-tuned large language models based on our Jamba architecture. Jamba is a hybrid Transformer-Mamba mixture of experts architecture, providing high throughput...