Warning: file_put_contents(aCache/aDaily/post/neural/-10069-10070-10071-10072-10069-): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50
Neural Networks | Нейронные сети@neural P.10070
NEURAL Telegram 10070
Forwarded from Machinelearning
⚡️ 5Gemma: новая коллекция энкодер-декодер моделей от Google.

Инженеры Google DeepMind решили вдохнуть новую жизнь в классический подход «энкодер-декодер» выпустив семейство моделей T5Gemma.

Главная интрига заключается не в том, что они сделали, а в том, как. Вместо того чтобы обучать модели с нуля, они разработали метод «адаптации»: взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали ее в двухкомпонентную энкодер-декодерную архитектуру.

Метод открыл дорогу для интересных экспериментов. Например, стало возможно создавать «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером, скажем, 9-миллиардный энкодер и 2-миллиардный декодер.

Такая конфигурация идеальна для задач суммаризации, где глубокое понимание исходного текста (работа энкодера) гораздо важнее, чем генерация сложного и витиеватого ответа (работа декодера). Это дает инженерам гибкий инструмент для тонкой настройки баланса между качеством и скоростью работы.

🟡Но самое важное - прирост в производительности.

На тестах T5Gemma показывает результаты на уровне или даже лучше своих «однокомпонентных» аналогов. Асимметричная модель T5Gemma 9B-2B демонстрирует значительно более высокую точность, чем базовая Gemma 2 2B, но при этом скорость инференса у них почти идентична.

Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть и умнее, и эффективнее.

T5Gemma показывает впечатляющий рост в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B.

Эффект становится еще более выраженным после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов.

🟡Google выложила в открытый доступ целую линейку чекпойнтов:

🟢T5 (Small, Base, Large, XL) на базе Gemma (2B, 9B);

🟢«Несбалансированную» версию 9B-2B для экспериментов;

🟢Модели с разными целями обучения (PrefixLM для генерации, UL2 для качества представлений).


🔜 Попробовать возможности T5Gemma или настроить их под свои нужды можно с помощью блокнота Colab. Модели также доступны в Vertex AI.


📌Лицензирование: Gemma License.


🟡T5gemma: https://developers.googleblog.com/en/t5gemma/
🟡Статья: https://arxiv.org/abs/2504.06225
🟡Скачать модель: https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86

@ai_machinelearning_big_data

#AI #ML #T5Gemma #Google
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/neural/10070
Create:
Last Update:

⚡️ 5Gemma: новая коллекция энкодер-декодер моделей от Google.

Инженеры Google DeepMind решили вдохнуть новую жизнь в классический подход «энкодер-декодер» выпустив семейство моделей T5Gemma.

Главная интрига заключается не в том, что они сделали, а в том, как. Вместо того чтобы обучать модели с нуля, они разработали метод «адаптации»: взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали ее в двухкомпонентную энкодер-декодерную архитектуру.

Метод открыл дорогу для интересных экспериментов. Например, стало возможно создавать «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером, скажем, 9-миллиардный энкодер и 2-миллиардный декодер.

Такая конфигурация идеальна для задач суммаризации, где глубокое понимание исходного текста (работа энкодера) гораздо важнее, чем генерация сложного и витиеватого ответа (работа декодера). Это дает инженерам гибкий инструмент для тонкой настройки баланса между качеством и скоростью работы.

🟡Но самое важное - прирост в производительности.

На тестах T5Gemma показывает результаты на уровне или даже лучше своих «однокомпонентных» аналогов. Асимметричная модель T5Gemma 9B-2B демонстрирует значительно более высокую точность, чем базовая Gemma 2 2B, но при этом скорость инференса у них почти идентична.

Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть и умнее, и эффективнее.

T5Gemma показывает впечатляющий рост в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B.

Эффект становится еще более выраженным после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов.

🟡Google выложила в открытый доступ целую линейку чекпойнтов:

🟢T5 (Small, Base, Large, XL) на базе Gemma (2B, 9B);

🟢«Несбалансированную» версию 9B-2B для экспериментов;

🟢Модели с разными целями обучения (PrefixLM для генерации, UL2 для качества представлений).


🔜 Попробовать возможности T5Gemma или настроить их под свои нужды можно с помощью блокнота Colab. Модели также доступны в Vertex AI.


📌Лицензирование: Gemma License.


🟡T5gemma: https://developers.googleblog.com/en/t5gemma/
🟡Статья: https://arxiv.org/abs/2504.06225
🟡Скачать модель: https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86

@ai_machinelearning_big_data

#AI #ML #T5Gemma #Google

BY Neural Networks | Нейронные сети







Share with your friend now:
tgoop.com/neural/10070

View MORE
Open in Telegram


Telegram News

Date: |

The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added. best-secure-messaging-apps-shutterstock-1892950018.jpg Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. With the “Bear Market Screaming Therapy Group,” we’ve now transcended language.
from us


Telegram Neural Networks | Нейронные сети
FROM American