GITHUB_CODE Telegram 316
Forwarded from Machinelearning
🌟 LongLLaVA: MMLM, оптимизированная для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ большого количСства ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ.

LongLLaVA - ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ модСль, ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½Π° для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ, Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‰ΠΈΡ… понимания Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… Π²ΠΈΠ΄Π΅ΠΎΡ€ΠΎΠ»ΠΈΠΊΠΎΠ², ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ высокого Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΈ слоТных ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Ρ‹Ρ… сцСнариСв.

Π’ ΠΌΠΎΠ΄Π΅Π»ΠΈ примСняСтся гибридная Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° ΠΈΠ· ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΈ Π±Π»ΠΎΠΊΠΎΠ² Mamba ΠΈ Transformer Π² ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΈ 7:1. Для сТатия Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… примСняСтся ΠΌΠ΅Ρ‚ΠΎΠ΄ 2D-ΠΏΡƒΠ»ΠΈΠ½Π³Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ сниТаСт Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ Π·Π°Ρ‚Ρ€Π°Ρ‚Ρ‹ ΠΏΡ€ΠΈ сохранСнии ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ.

Π’ процСссС обучСния примСнялся Ρ‚Ρ€Π΅Ρ…Ρ„Π°Π·Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄: Π²Ρ‹Ρ€Π°Π²Π½ΠΈΠ²Π°Π½ΠΈΠ΅ ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΡŽ, настройка инструкций ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΡŽ ΠΈ настройка инструкций ΠΏΠΎ нСскольким изобраТСниям.

Π­ΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ LongLLaVA прСвосходит Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ с ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ исходным ΠΊΠΎΠ΄ΠΎΠΌ ΠΏΠΎ пониманию Π² Π΄Π»ΠΈΠ½Π½ΠΎΠΌ контСкстС, особСнно Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… поиска, подсчСта ΠΈ упорядочивания.

▢️ВСхничСскиС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ:

🟒Parameters: 53B;
🟒Active parameters: 13B;
🟒Numbers of layers: 24;
🟒Mixture of Experts: 16/Top-2 for each token;
🟒Normalization: RMSNorm;
🟒Attention: Grouped Query Attention;
🟒Activation functions: SwiGLU.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ : MIT License


🟑Arxiv
🟑МодСль
πŸ–₯Github


@ai_machinelearning_big_data

#AI #ML #MMLM #LongLLaVA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘1



tgoop.com/github_code/316
Create:
Last Update:

🌟 LongLLaVA: MMLM, оптимизированная для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ большого количСства ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ.

LongLLaVA - ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ модСль, ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½Π° для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ, Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‰ΠΈΡ… понимания Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… Π²ΠΈΠ΄Π΅ΠΎΡ€ΠΎΠ»ΠΈΠΊΠΎΠ², ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ высокого Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΈ слоТных ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Ρ‹Ρ… сцСнариСв.

Π’ ΠΌΠΎΠ΄Π΅Π»ΠΈ примСняСтся гибридная Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° ΠΈΠ· ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΈ Π±Π»ΠΎΠΊΠΎΠ² Mamba ΠΈ Transformer Π² ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΈ 7:1. Для сТатия Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… примСняСтся ΠΌΠ΅Ρ‚ΠΎΠ΄ 2D-ΠΏΡƒΠ»ΠΈΠ½Π³Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ сниТаСт Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ Π·Π°Ρ‚Ρ€Π°Ρ‚Ρ‹ ΠΏΡ€ΠΈ сохранСнии ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ.

Π’ процСссС обучСния примСнялся Ρ‚Ρ€Π΅Ρ…Ρ„Π°Π·Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄: Π²Ρ‹Ρ€Π°Π²Π½ΠΈΠ²Π°Π½ΠΈΠ΅ ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΡŽ, настройка инструкций ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΡŽ ΠΈ настройка инструкций ΠΏΠΎ нСскольким изобраТСниям.

Π­ΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ LongLLaVA прСвосходит Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ с ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ исходным ΠΊΠΎΠ΄ΠΎΠΌ ΠΏΠΎ пониманию Π² Π΄Π»ΠΈΠ½Π½ΠΎΠΌ контСкстС, особСнно Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… поиска, подсчСта ΠΈ упорядочивания.

▢️ВСхничСскиС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ:

🟒Parameters: 53B;
🟒Active parameters: 13B;
🟒Numbers of layers: 24;
🟒Mixture of Experts: 16/Top-2 for each token;
🟒Normalization: RMSNorm;
🟒Attention: Grouped Query Attention;
🟒Activation functions: SwiGLU.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ : MIT License


🟑Arxiv
🟑МодСль
πŸ–₯Github


@ai_machinelearning_big_data

#AI #ML #MMLM #LongLLaVA

BY Github








Share with your friend now:
tgoop.com/github_code/316

View MORE
Open in Telegram


Telegram News

Date: |

β€œHey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Earlier, crypto enthusiasts had created a self-described β€œmeme app” dubbed β€œgm” app wherein users would greet each other with β€œgm” or β€œgood morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. 4How to customize a Telegram channel?
from us


Telegram Github
FROM American