AIPULSE24 Telegram 279
مدل‌های زبانی بزرگ (LLM) که بر پایه معماری ترنسفورمر کار می‌کنن، تحول چشمگیری در پردازش متن ایجاد کردن. این مدل‌ها از ماژول‌های توجه (attention) استفاده می‌کنن که مثل یه حافظه قدرتمند عمل می‌کنن و می‌تونن ارتباط‌های پیچیده بین کلمات رو درک کنن. اما یه مشکل اساسی دارن: هرچی متن طولانی‌تر باشه، نیاز به محاسبات و حافظه به‌طور تصاعدی افزایش پیدا می‌کنه و این باعث میشه که استفاده از اونها در دنیای واقعی با محدودیت‌های جدی مواجه بشه.

خبر خوب اینه که محققان گوگل یه راه‌حل نوآورانه پیشنهاد کردن که اسمش رو گذاشتن Titans. این سیستم جدید از یه ماژول حافظه عصبی بلندمدت استفاده می‌کنه که می‌تونه اطلاعات تاریخی رو به شکل کارآمدی ذخیره و بازیابی کنه. جالب‌ترین ویژگی Titans اینه که از یه سیستم حافظه دوگانه استفاده می‌کنه: یه بخش برای حافظه کوتاه‌مدت که وظیفه‌ش مدل‌سازی دقیق وابستگی‌های متنی در محدوده کوچکه، و یه بخش برای حافظه بلندمدت که اطلاعات مهم رو برای استفاده‌های بعدی نگه می‌داره.

این سیستم جدید از سه ماژول اصلی تشکیل شده: یه هسته مرکزی که مسئول پردازش اصلی داده‌هاست، یه شاخه حافظه بلندمدت که اطلاعات تاریخی رو ذخیره می‌کنه، و یه بخش حافظه دائمی که پارامترهای ثابت و مستقل از داده رو نگه می‌داره. محققان با استفاده از تکنیک‌های پیشرفته‌ای مثل اتصالات باقی‌مانده، توابع فعال‌سازی SiLU و نرمال‌سازی، عملکرد سیستم رو بهینه کردن.

نتایج آزمایش‌ها نشون میده که این سیستم جدید عملکرد فوق‌العاده‌ای داره. سه نسخه مختلف Titans (MAC، MAG و MAL) همگی از مدل‌های موجود بهتر عمل می‌کنن و می‌تونن متن‌های خیلی طولانی (بیشتر از ۲ میلیون توکن) رو با دقت بالا پردازش کنن. این موفقیت به خاطر سه ویژگی کلیدیه: مدیریت بهینه حافظه، قابلیت‌های پیشرفته حافظه غیرخطی، و توانایی حذف هوشمندانه اطلاعات غیرضروری از حافظه.

این دستاورد مهم می‌تونه تأثیر زیادی روی آینده هوش مصنوعی و کاربردهای عملی اون داشته باشه. حالا می‌تونیم به سیستم‌هایی فکر کنیم که قادرن متن‌های خیلی طولانی رو درک کنن، ویدیوها رو تحلیل کنن و پیش‌بینی‌های دقیق‌تری از روندهای طولانی‌مدت داشته باشن. این پیشرفت، درهای جدیدی رو به روی محققان و توسعه‌دهندگان باز می‌کنه و می‌تونه به حل مسائل پیچیده‌تر در آینده کمک کنه.

از اینجا میتونید نسخه کامل این مقاله رو دانلود و مشاهده کنید.

👀 منبع

@aipulse24



tgoop.com/aipulse24/279
Create:
Last Update:

مدل‌های زبانی بزرگ (LLM) که بر پایه معماری ترنسفورمر کار می‌کنن، تحول چشمگیری در پردازش متن ایجاد کردن. این مدل‌ها از ماژول‌های توجه (attention) استفاده می‌کنن که مثل یه حافظه قدرتمند عمل می‌کنن و می‌تونن ارتباط‌های پیچیده بین کلمات رو درک کنن. اما یه مشکل اساسی دارن: هرچی متن طولانی‌تر باشه، نیاز به محاسبات و حافظه به‌طور تصاعدی افزایش پیدا می‌کنه و این باعث میشه که استفاده از اونها در دنیای واقعی با محدودیت‌های جدی مواجه بشه.

خبر خوب اینه که محققان گوگل یه راه‌حل نوآورانه پیشنهاد کردن که اسمش رو گذاشتن Titans. این سیستم جدید از یه ماژول حافظه عصبی بلندمدت استفاده می‌کنه که می‌تونه اطلاعات تاریخی رو به شکل کارآمدی ذخیره و بازیابی کنه. جالب‌ترین ویژگی Titans اینه که از یه سیستم حافظه دوگانه استفاده می‌کنه: یه بخش برای حافظه کوتاه‌مدت که وظیفه‌ش مدل‌سازی دقیق وابستگی‌های متنی در محدوده کوچکه، و یه بخش برای حافظه بلندمدت که اطلاعات مهم رو برای استفاده‌های بعدی نگه می‌داره.

این سیستم جدید از سه ماژول اصلی تشکیل شده: یه هسته مرکزی که مسئول پردازش اصلی داده‌هاست، یه شاخه حافظه بلندمدت که اطلاعات تاریخی رو ذخیره می‌کنه، و یه بخش حافظه دائمی که پارامترهای ثابت و مستقل از داده رو نگه می‌داره. محققان با استفاده از تکنیک‌های پیشرفته‌ای مثل اتصالات باقی‌مانده، توابع فعال‌سازی SiLU و نرمال‌سازی، عملکرد سیستم رو بهینه کردن.

نتایج آزمایش‌ها نشون میده که این سیستم جدید عملکرد فوق‌العاده‌ای داره. سه نسخه مختلف Titans (MAC، MAG و MAL) همگی از مدل‌های موجود بهتر عمل می‌کنن و می‌تونن متن‌های خیلی طولانی (بیشتر از ۲ میلیون توکن) رو با دقت بالا پردازش کنن. این موفقیت به خاطر سه ویژگی کلیدیه: مدیریت بهینه حافظه، قابلیت‌های پیشرفته حافظه غیرخطی، و توانایی حذف هوشمندانه اطلاعات غیرضروری از حافظه.

این دستاورد مهم می‌تونه تأثیر زیادی روی آینده هوش مصنوعی و کاربردهای عملی اون داشته باشه. حالا می‌تونیم به سیستم‌هایی فکر کنیم که قادرن متن‌های خیلی طولانی رو درک کنن، ویدیوها رو تحلیل کنن و پیش‌بینی‌های دقیق‌تری از روندهای طولانی‌مدت داشته باشن. این پیشرفت، درهای جدیدی رو به روی محققان و توسعه‌دهندگان باز می‌کنه و می‌تونه به حل مسائل پیچیده‌تر در آینده کمک کنه.

از اینجا میتونید نسخه کامل این مقاله رو دانلود و مشاهده کنید.

👀 منبع

@aipulse24

BY AI Pulse





Share with your friend now:
tgoop.com/aipulse24/279

View MORE
Open in Telegram


Telegram News

Date: |

On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day.
from us


Telegram AI Pulse
FROM American