tgoop.com/matlabtips/1637
Last Update:
🔵هوش عمومی مصنوعی: دریچه ای برای فلسفه های آینده🔵
در چند مدت اخیر بحث های زیادی در مورد آینده ی AGI (Artificial General Intelligence( و نه AI می شود. چه تفاوتی بین این دو وجود دارد؟ هوش عمومی مصنوعی چه چیز جدیدی به هوش مصنوعی اضافه می کند و آیا این یک پارادیم جدید است؟
یکی از بزرگترین دست آورد های چندین سال اخیر در هوش مصنوعی، علاوه بر محصولات خیره کننده بخصوص از طرف شرکت های بزرگ فناوری یک جهش بزرگ در مدل هایی شده است که انواع مختلف داده یا مدالیتی (modality) مانند متن، تصویر صوت و حتی ویدیو را به صورت همزمان مدل سازی می کنند. این پیشرفت اما فراتر از کاربردهای متنوعی است که از آن استخراج می شود بلکه یک قدم اساسی در ایجاد هوش بهتر است! استفاده از مودالیتی های گوناگون به طرز عجیبی باعث افزایش چشمگیر دقت مدل سازی هر کدام از مدالیتی ها به صورت جداگانه هم شده است. به این معنا که داشتن داده در مورد تصویر یک سیب در کنار متن آن و حتی یک ویدیو از آن به هر کدام ازین مدالیتی به صورت جداگانه کمک بسیار می کند به طور مثال جمله ی بهتری و بدون خطا تری در مورد سیب تولید می شود یا تصویر بهتری از آن تولید می شود. به چنین مدل هایی اصطلاحا generalist یا «همه فن حریف» گفته می شود. هوش عمومی مصنوعی هم اشاره ای به «همه فن حریف» بودن چنین مدل هایی دارد.
به صورت سنتی هوش مصنوعی مساله ی هوش را به وظیفه ها (task) جداگانه ای تقسیم می کرد و هدف حل کردن آن ها به صورت جداگانه بود. این البته یک روش مهندسی معمول است. به طور مثال اگر شما یک خانه بخواهید بسازید کسی که سیم کش است لزومی ندارد اطلاعات فندانسیون خانه را داشته باشد یا کسی که سیستم تهویه را طراحی می کند نیازی به ارتباط مستقیم با بنا ندارد. بیشتر سازه های مهندسی حتی پیچیده ترین آن ها اساسا ازین جهت ساختنشان ممکن هستند که ما به عنوان نوع بشر توانسته ایم یک تقسیم کار دقیق و کارا از فرآیند ساخت آن ها انجام دهیم و به این ترتیب بتوانیم یک جت یا زیردریایی یا پل بسیار عظیم مانند پل گلدن گیت (Golden gate) را بسازیم. با این حال چنین روشی که در هوش مصنوعی به صورت سنتی ادامه داشت به آخر خط رسیده است و دیگر نمیتوان انتظار داشت که هوش را با تقسیم کردن آن مدل سازی کرد برعکس هوش یک پدیده ی چند وجهی و بسیار در هم تنیده است که جدا کردن آن به بخش های گوناگون به کارایی آن آسیب جدی وارد می کند.
اما چرا هوش یه پدیده ی «عمومی» است؟ چرا هیچ مدلی تنها با دسترسی به متن نمی تواند تمام آنچه در مورد جهان وجود دارد را بداند؟ مقاله ی اخیری به نام The Platonic Representation Hypothesis یا «فرضیه بازنمایی افلاطونی» یک نگاه دقیق و کمی (quantitative) به پدیده ای است که در چند سال اخیر مشاهده شده است: با گذر زمان مدل ها به یک بازنمایی یگانه از جهان از رهگذر مدالیتی های مختلف (متن تصویر صوت و ویدیو و غیره) رسیده اند. این بازنمایی عمومی هر روز به بازنمایی ای که ما از جهان داریم نزدیک و نزدیک تر می شود و فاصله ی بین آنچه ما از واقعیت می دانیم و این مدل ها کمتر و کمتر می شود. به عبارتی دیگر به سختی می توان اشتباهاتی از نوع «درک نکردن جهان به صورت کلی» در این مدل ها دیده می شود. به طور مثال یک مدل زبانی ممکن است تصور درستی ازینکه چه اتفاقی در پی رها کردن یک لیوان بر روی یک سطح بتنی یا یک پتو نداشته باشد چون چنین دانشی بیشتر نیازمند تصویر از جهان است و نه متن. اما چگونه این سیستم ها به چنین قابلیتی رسیده اند؟
بیایید فرض کنیم که ما می خواهیم چیزی مثل یک «صندلی» را بازنمایی کنیم. مفهوم صندلی با اینکه بسیار ساده بنظر می آید اما در عین حال تقریبا غیر قابل وصف است. آیا صندلی چیزی است که چهار پایه دارد؟ نه صندلی های سه پایه هم هستند. حتی صندلی های بدون پایه هم هستند! آیا صندلی چیزی برای نشستن است؟ صندلی های داخل موزه برای نشستن نیستند! وقتی به آن فکر کنید متوجه می شوید عملا چیز مشترکی در مورد مفهوم «صندلی» وجود ندارد که شما بتوانید همه ی اعضای مجموعه ی صندلی ها را با آن شناسایی کنید. این یک مساله ی قدیمی در فلسفه هم هست. ویتگنشتاین به آن «شباهت خانوادگی» (family resemblance) می گوید. شباهت خانوادگی به این معناست که تمام آنچه می توان از صندلی های مختلف درک کرد یک شباهت عمومی خانوادگی است مانند اینکه شما بسختی می توانید بین اعضای یک خانواده یک ویژگی مشترک پیدا کنید ولی در عین حال به طور شهودی می دانید همه ی آنها به نحوی شبیه به هم هستند! اما چنین چیزی چگونه در شبکه های عصبی رخ می دهد؟
BY MatlabTips
Share with your friend now:
tgoop.com/matlabtips/1637