MATLABTIPS Telegram 1740
این یافته دلالت دارد که مدل‌های زبانی بزرگ در واقع چیزی را «در نظر نمی‌گیرند» (که البته بسیاری چنین نتیجه‌ای را بدیهی می‌دانند) زیرا این مدل‌ها حافظه ی واقعی ندارند. اما این نتیجه بحث‌برانگیز است، چون مدل‌های ترنسفورمری در حقیقت نوعی «حافظه ی کاری» (working memory) دارند، اما این حافظه بسیار سطحی است و هیچ حالت درونیِ پایداری را نگه نمی‌دارد. افزون بر این، این آزمایش نشان می‌دهد که آزمون‌های رفتاری (behavioral tests) که انتظار داریم از طریق زبان، «شبیه‌سازی» حالت ذهنی را آشکار سازند، برای گذراندن آزمون تورینگ کافی نیستند. گرچه مدل در پاسخ به پرسش‌های منفرد متقاعدکننده به نظر می‌رسد، تحلیل آماری دقیق می‌تواند چنین ناهنجاری‌هایی را فاش کند.

مکانیزم زیربنایی نسبتاً ساده است: وقتی از مدل می‌خواهید چیزی انتخاب کند، پرسش‌های بعدی شما همان زمینه‌ای را فراهم می‌آورند که مدل بر اساس آن پاسخ تولید می‌کند. برای مثال، وقتی پرسیدید «آیا حیوان انتخابی کوچک‌تر از انسان است؟» و «آیا پستاندار است؟»، مدل بیشتر تمایل دارد پاسخ‌هایی مانند «گربه» یا «موش» را بسازد و نه اینکه واقعا به حیوانی از اول فکر کرده باشد! این تمایل با پرسش‌های مشخص‌تری مانند «آیا گربه است؟» تقویت می‌شود.

در آزمایش بازهٔ ۱ تا ۱۰۰، سیستم به‌سادگی در چرخه‌ای از پاسخ «نه، آن عدد نیست» گرفتار می‌شود. این الگو باعث می‌شود که مدل به احتمال زیاد همان ساختار پاسخ را تکرار کند. اما آزمایش اخیر این فرض را تأیید کرد: وقتی پرسش‌هایی مانند «آیا بزرگ‌تر از ۷۵ است؟» مطرح می‌کنیم، مدل زمینه ی کافی برای تولید پاسخ‌های دقیق‌تر پیدا می‌کند. در اینجا، احتمال تأیید عددهای بالاتر از ۷۵ افزایش می‌یابد، اما مدل ممکن است شتاب‌زده یکی از آن‌ها را تأیید کند. در نهایت، مدل هیچ انتخاب واقعی‌ای انجام نمی‌دهد، بلکه صرفاً واژه ی بعدی را بر اساس زمینه ی موجود پیش‌بینی می‌کند.

ممکن است کسی ایراد بگیرد که تحلیل آماری چندان معتبر نیست، چون خود انسان‌ها نیز در تولید عددهای تصادفی چندان خوب عمل نمی‌کنند. با این حال، مشکل انسان‌ها بیشتر در توزیع احتمالات است، نه در اصول آماری کلی مانند «قانون اعداد بزرگ» که همچنان معتبر است. بنابراین، حتی با محدودیت‌های تصادفی‌سازی انسانی، تحلیل آماری همچنان ابزاری مفید برای سنجش عملکرد مدل‌های زبانی به شمار می‌رود.

این آزمایش نامتعارف نشان می‌دهد که ویژگی‌های آماری زبان می‌تواند آشکار کند که برخی جنبه‌های رفتار انسانی را می‌توان با مدل‌های زبانی شبیه‌سازی کرد، حتی اگر کارکرد اصلی آن‌ها صرفاً «پیش‌بینی توکن بعدی» باشد.

پرسش جالبی که از اینجا پدید می‌آید این است که آیا می‌توان نمونه‌برداری تصادفی در سطح توکن‌های زبانی را طوری تغییر داد که مدل‌ها بتوانند چنین آزمون‌هایی را بی‌هیچ مشکل آماری پشت سر بگذارند؟ اما این احتمالاً چالشی جدی‌تر برای مدل‌های آماری‌ای مانند LLMها خواهد بود، چرا که آن‌ها می‌کوشند پیچیدگی‌های ذهن انسانی را دور بزنند و تنها جنبه‌های سطحی زبان را شبیه‌سازی کنند.



tgoop.com/matlabtips/1740
Create:
Last Update:

این یافته دلالت دارد که مدل‌های زبانی بزرگ در واقع چیزی را «در نظر نمی‌گیرند» (که البته بسیاری چنین نتیجه‌ای را بدیهی می‌دانند) زیرا این مدل‌ها حافظه ی واقعی ندارند. اما این نتیجه بحث‌برانگیز است، چون مدل‌های ترنسفورمری در حقیقت نوعی «حافظه ی کاری» (working memory) دارند، اما این حافظه بسیار سطحی است و هیچ حالت درونیِ پایداری را نگه نمی‌دارد. افزون بر این، این آزمایش نشان می‌دهد که آزمون‌های رفتاری (behavioral tests) که انتظار داریم از طریق زبان، «شبیه‌سازی» حالت ذهنی را آشکار سازند، برای گذراندن آزمون تورینگ کافی نیستند. گرچه مدل در پاسخ به پرسش‌های منفرد متقاعدکننده به نظر می‌رسد، تحلیل آماری دقیق می‌تواند چنین ناهنجاری‌هایی را فاش کند.

مکانیزم زیربنایی نسبتاً ساده است: وقتی از مدل می‌خواهید چیزی انتخاب کند، پرسش‌های بعدی شما همان زمینه‌ای را فراهم می‌آورند که مدل بر اساس آن پاسخ تولید می‌کند. برای مثال، وقتی پرسیدید «آیا حیوان انتخابی کوچک‌تر از انسان است؟» و «آیا پستاندار است؟»، مدل بیشتر تمایل دارد پاسخ‌هایی مانند «گربه» یا «موش» را بسازد و نه اینکه واقعا به حیوانی از اول فکر کرده باشد! این تمایل با پرسش‌های مشخص‌تری مانند «آیا گربه است؟» تقویت می‌شود.

در آزمایش بازهٔ ۱ تا ۱۰۰، سیستم به‌سادگی در چرخه‌ای از پاسخ «نه، آن عدد نیست» گرفتار می‌شود. این الگو باعث می‌شود که مدل به احتمال زیاد همان ساختار پاسخ را تکرار کند. اما آزمایش اخیر این فرض را تأیید کرد: وقتی پرسش‌هایی مانند «آیا بزرگ‌تر از ۷۵ است؟» مطرح می‌کنیم، مدل زمینه ی کافی برای تولید پاسخ‌های دقیق‌تر پیدا می‌کند. در اینجا، احتمال تأیید عددهای بالاتر از ۷۵ افزایش می‌یابد، اما مدل ممکن است شتاب‌زده یکی از آن‌ها را تأیید کند. در نهایت، مدل هیچ انتخاب واقعی‌ای انجام نمی‌دهد، بلکه صرفاً واژه ی بعدی را بر اساس زمینه ی موجود پیش‌بینی می‌کند.

ممکن است کسی ایراد بگیرد که تحلیل آماری چندان معتبر نیست، چون خود انسان‌ها نیز در تولید عددهای تصادفی چندان خوب عمل نمی‌کنند. با این حال، مشکل انسان‌ها بیشتر در توزیع احتمالات است، نه در اصول آماری کلی مانند «قانون اعداد بزرگ» که همچنان معتبر است. بنابراین، حتی با محدودیت‌های تصادفی‌سازی انسانی، تحلیل آماری همچنان ابزاری مفید برای سنجش عملکرد مدل‌های زبانی به شمار می‌رود.

این آزمایش نامتعارف نشان می‌دهد که ویژگی‌های آماری زبان می‌تواند آشکار کند که برخی جنبه‌های رفتار انسانی را می‌توان با مدل‌های زبانی شبیه‌سازی کرد، حتی اگر کارکرد اصلی آن‌ها صرفاً «پیش‌بینی توکن بعدی» باشد.

پرسش جالبی که از اینجا پدید می‌آید این است که آیا می‌توان نمونه‌برداری تصادفی در سطح توکن‌های زبانی را طوری تغییر داد که مدل‌ها بتوانند چنین آزمون‌هایی را بی‌هیچ مشکل آماری پشت سر بگذارند؟ اما این احتمالاً چالشی جدی‌تر برای مدل‌های آماری‌ای مانند LLMها خواهد بود، چرا که آن‌ها می‌کوشند پیچیدگی‌های ذهن انسانی را دور بزنند و تنها جنبه‌های سطحی زبان را شبیه‌سازی کنند.

BY MatlabTips


Share with your friend now:
tgoop.com/matlabtips/1740

View MORE
Open in Telegram


Telegram News

Date: |

ZDNET RECOMMENDS According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered." To edit your name or bio, click the Menu icon and select “Manage Channel.”
from us


Telegram MatlabTips
FROM American