Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
196 - Telegram Web
Telegram Web
فایل‌های جلسه یازدهم باهم‌خوانی کتاب Hands-on machine learning خدمت شما.

🤖
🆔 Telegram | LinkedIn | YouTube
فایل‌ جلسه دوازدهم باهم‌خوانی کتاب Hands-on machine learning خدمت شما.

🤖
🆔 Telegram | LinkedIn | YouTube
💡جلسه سیزدهم باهم‌خوانی کتاب
“Hands-on Machine Learning”

موضوعاتی که در این جلسه بهشون می‌پردازیم:

▫️Ensemble Learning and Random Forests
▫️Voting Classifiers
▫️Bagging and Pasting
Bagging and Pasting in Scikit-Learn
Out-of-Bag Evaluation
Random Patches and Random Subspaces
▫️Random Forests
Extra-Trees
Feature Importance
▫️Boosting
AdaBoost
Gradient Boosting
Histogram-Based Gradient Boosting
▫️Stacking

🗓تاریخ: چهارشنبه، ۲۴ مرداد
زمان: ۲۱:٠٠
🔗لینک بستر آنلاین در کانال ارسال می‌شود.

منتظر حضور گرمتان هستیم!


🤖
🆔 Telegram | LinkedIn | YouTub
Tensorphilia
ادامه‌ی پست‌های مروری:
ادامه‌ی پست‌های مروری:
🔸Linear SVM Classification
🔹 یک روش یادگیری نظارت‌شده برای مسائل طبقه‌بندی باینری است.
ایده اصلی این است که بهترین ابرصفحه‌ای را پیدا کند که داده‌ها را به دو کلاس با بیشترین حاشیه جدا کند. این حاشیه فاصله بین ابرصفحه و نزدیک‌ترین نقاط داده از هر کلاس است که به آن‌ها بردارهای پشتیبان می‌گویند.
یک حاشیه بزرگ‌تر به معنای تعمیم بهتر مدل به داده‌های دیده‌نشده است. SVM های خطی با داده‌های خطی‌ جداشدنی به خوبی کار می‌کنند اما می‌توان آن‌ها را برای مدیریت موارد پیچیده‌تر با تکنیک‌های مختلف
گسترش داد.

🔸NonLinear SVM Classification
🔹 به محدودیت‌های SVM‌های خطی با امکان طبقه‌بندی داده‌هایی که به صورت خطی قابل جداشدن نیستند، می‌پردازد. این امر با نگاشت فضای ورودی اصلی به یک فضای با بعد بالاتر با استفاده از یک تابع غیرخطی انجام می‌شود، جایی که جداسازی خطی ممکن می‌شود. این تکنیک به SVM‌ها امکان می‌دهد تا طیف گسترده‌تری از مسائل طبقه‌بندی را مدیریت کنند و در عمل کاربرد بیشتری داشته باشند.

🤖
🆔 Telegram | LinkedIn | YouTube
🔸Soft margin Classification

🔹یک گسترش از SVM‌های خطی است که امکان اشتباه در طبقه‌بندی داده‌ها را فراهم می‌کند.
این امر در مواجهه با داده‌های نویزی یا غیرخطی‌ جداشدنی بسیار مهم است. به جای نیاز به جداسازی سخت بین کلاس‌ها، جریمه‌ای برای نقاط اشتباه طبقه‌بندی شده معرفی می‌کند و سعی دارد این جریمه را به حداقل برساند در حالی که هنوز حاشیه را به حداکثر می‌رساند.
تعادل بین به حداکثر رساندن حاشیه و به حداقل رساندن خطاهای طبقه‌بندی توسط یک ابرپارامتر به نام C تنظیم می‌شود که تعادل بین این دو هدف را تنظیم می‌کند.
🤖
🆔 Telegram | LinkedIn | YouTube
🔸Polynomial Kernel
🔹این هسته به مدل اجازه می‌دهد تا ترکیبات چندجمله‌ای از ویژگی‌ها را در نظر بگیرد و بدین ترتیب امکان طبقه‌بندی الگوهای پیچیده‌تر در داده‌ها را فراهم کند.
درجه چندجمله‌ای را می‌توان برای بررسی سطوح مختلف پیچیدگی تنظیم کرد. این هسته به‌ویژه زمانی مفید است که مرز تصمیم‌گیری به‌سادگی یک جداسازی خطی نیست و می‌توان آن را با یک تابع چندجمله‌ای توصیف کرد.
🤖
🆔 Telegram | LinkedIn | YouTube
🔸Similarity Features
🔹به روشی برای تبدیل داده‌های ورودی به فضایی اشاره دارد که در آن شباهت بین نقاط داده برجسته می‌شود.
این روش به‌ویژه در طبقه‌بندی SVM غیرخطی مفید است، جایی که هدف شناسایی الگوهایی است که به راحتی در فضای ویژگی اصلی قابل جدا شدن نیستند. با استفاده از اندازه‌گیری‌های شباهت، مانند هسته Gaussian RBF، SVM‌ها می‌توانند به‌طور مؤثر داده‌ها را بر اساس میزان شباهت نقاط به یکدیگر، به‌جای ویژگی‌های خام آن‌ها، طبقه‌بندی کنند.

🤖
🆔 Telegram | LinkedIn | YouTube
🔸Gaussian RBF Kernel

🔹هسته Gaussian Radial Basis Function (RBF) یکی از رایج‌ترین هسته‌ها در SVM‌ها است. این هسته داده‌ها را به یک فضای با بعد بی‌نهایت نگاشت می‌کند، جایی که جداسازی خطی امکان‌پذیر می‌شود.
این هسته به‌ویژه قدرتمند است زیرا می‌تواند طیف گسترده‌ای از مسائل طبقه‌بندی را حتی زمانی که مرز تصمیم‌گیری بسیار پیچیده و غیرخطی است، مدیریت کند.
عملکرد این هسته به پارامتر پهنای باند آن بستگی دارد که گسترش تابع Gaussian را کنترل می‌کند.

🤖
🆔 Telegram | LinkedIn | YouTube
🔸SVM Classes and Computational Complexity

🔹کلاس‌های SVM به انواع مختلف مدل‌های SVM مانند: SVM خطی، چندجمله‌ای و مبتنی بر RBF اشاره دارد.
هر کلاس پیچیدگی محاسباتی متفاوتی دارد که به عواملی مانند انتخاب هسته و اندازه مجموعه داده‌ها بستگی دارد. SVM‌های خطی معمولاً از نظر محاسباتی کم‌هزینه‌تر از همتایان غیرخطی خود هستند. با این حال، SVM‌های غیرخطی، علی‌رغم نیازهای محاسباتی بیشتر، می‌توانند برای مجموعه داده‌های پیچیده‌تر عملکرد بهتری ارائه دهند.
🤖
🆔 Telegram | LinkedIn | YouTube
🔸SVM Regression
🔹رگرسیون SVM (که به آن رگرسیون بردار پشتیبان یا SVR نیز گفته می‌شود.) اصول SVM را به مسائل رگرسیون گسترش می‌دهد.
به جای طبقه‌بندی داده‌ها، SVR هدفش یافتن تابعی است که رابطه بین ویژگی‌های ورودی و یک متغیر هدف پیوسته را تقریب بزند. این روش از مفهومی مشابه حاشیه در طبقه‌بندی استفاده می‌کند، اما در اینجا هدف این است که اکثر نقاط داده‌ها در یک حاشیه مشخص در اطراف تابع پیش‌بینی شده قرار گیرند. SVR به‌ویژه برای ضبط روابط پیچیده در داده‌هایی که رگرسیون خطی سنتی ممکن است در آن شکست بخورد، مفید است.
🤖
🆔 Telegram | LinkedIn | YouTube
🔸Under the Hood of Linear SVM Classifiers
🔹این بخش به مبانی ریاضی و الگوریتمی طبقه‌بندی SVM خطی می‌پردازد. فرآیند بهینه‌سازی برای یافتن ابرصفحه با حاشیه حداکثر، نقش بردارهای پشتیبان و تأثیر ابرپارامترهای مختلف در اینجا بررسی می‌شود. درک این مکانیک‌های زیرساختی برای تنظیم مؤثر SVM‌ها و به دست آوردن بینشی از نحوه تصمیم‌گیری طبقه‌بند ضروری است.
🤖
🆔 Telegram | LinkedIn | YouTube
🔸The Dual Problem

🔹مسئله دوگانه در SVM‌ها به فرمول‌بندی جایگزین مسئله بهینه‌سازی اشاره دارد که برای یافتن ابرصفحه بهینه استفاده می‌شود. به جای حل مسئله در فضای ویژگی اصلی، مسئله دوگانه آن را با استفاده از ضرایب لاگرانژ دوباره فرمول‌بندی می‌کند که این امر ترکیب توابع هسته‌ای را آسان‌تر می‌کند. این روش به‌ویژه در طبقه‌بندی SVM غیرخطی مفید است، جایی که فضای ویژگی ممکن است دارای ابعاد بسیار بالا یا بی‌نهایت باشد.
🤖
🆔 Telegram | LinkedIn | YouTube
🔸Kernelized SVMs

🔹 چهارچوب اصلی SVM را با امکان کار در فضاهای ویژگی تبدیل شده با استفاده از توابع هسته‌ای گسترش می‌دهند.
این هسته‌ها به‌طور ضمنی داده‌های ورودی را به یک فضای با بعد بالاتر نگاشت می‌کنند، جایی که یک جداسازی خطی امکان‌پذیر است. این بخش به بررسی توابع هسته مختلف، مانند هسته‌های چندجمله‌ای و RBF، و تأثیر آن‌ها بر عملکرد مدل می‌پردازد. SVM‌های هسته‌دار قدرتمند هستند زیرا انعطاف‌پذیری مدل‌های غیرخطی را با استحکام SVM‌های خطی ترکیب می‌کنند.
🤖
🆔 Telegram | LinkedIn | YouTube
🔸Training and Visualizing a Decision Tree

این فرآیند شامل تقسیم داده‌ها به مجموعه‌های کوچکتر بر اساس ویژگی‌ها و مقادیر آن‌هاست.
همچنین، تجسم درخت تصمیم با استفاده از ابزارهایی مانند Graphviz توضیح داده می‌شود تا بتوان ساختار درخت را به صورت گرافیکی مشاهده کرد. این تجسم می‌تواند به فهم بهتر چگونگی تصمیم‌گیری مدل کمک کند.

🔸Making Predictions

چگونه یک درخت تصمیم برای پیش‌بینی خروجی یک نمونه‌ی جدید استفاده می‌شود؟
درخت با توجه به مقادیر ویژگی‌های نمونه، از ریشه به سمت برگ‌ها حرکت می‌کند تا به یک تصمیم نهایی برسد. این بخش بر روی مکانیزم تصمیم‌گیری در درخت و چگونگی استفاده از آن برای انجام پیش‌بینی‌ها تمرکز دارد.

🔸 Estimating Class Probabilities

چگونه درخت‌های تصمیم می‌توانند احتمالات کلاس‌ها را به جای یک پیش‌بینی قطعی تولید کنند؟
هر برگ درخت، نسبت نمونه‌هایی از هر کلاس را که به آن برگ منتهی شده‌اند، ارائه می‌دهد و این نسبت به عنوان احتمال کلاس استفاده می‌شود.

🤖
🆔 Telegram | LinkedIn | YouTube
🔸The CART(Classification And Regression Tree) Training Algorithm

این الگوریتم درخت‌های دودویی تولید می‌کند و هر گره را به دو زیر مجموعه تقسیم می‌کند. این بخش به جزئیات این الگوریتم، از جمله چگونگی انتخاب ویژگی‌های تقسیم و مقادیر آستانه‌ای که در هر گره استفاده می‌شوند، می‌پردازد.

🔸Computational Complexity

در این بخش، پیچیدگی محاسباتی ساخت و استفاده از درخت‌های تصمیم مورد بررسی قرار می‌گیرد. درخت‌های تصمیم به طور کلی از نظر محاسباتی کارآمد هستند، اما پیچیدگی آن‌ها به تعداد گره‌ها و عمق درخت وابسته است. این بخش همچنین به زمان لازم برای آموزش و پیش‌بینی توسط درخت‌های تصمیم اشاره دارد.

🤖
🆔 Telegram | LinkedIn | YouTube
🔸Gini Impurity or Entropy?

در این بخش دو معیار مهم برای ارزیابی کیفیت تقسیمات در درخت‌های تصمیم مقایسه می‌شوند: ناخالصی جینی و آنتروپی. هر دو معیار به ما می‌گویند که یک گره چقدر «خالص» است، یعنی چقدر از نمونه‌ها به یک کلاس خاص تعلق دارند. این بخش به بررسی تفاوت‌ها و شباهت‌های این دو معیار و کاربردهای هر کدام می‌پردازد.

🤖
🆔 Telegram | LinkedIn | YouTube
🔸Regularization Hyperparameters

در این بخش پارامترهایی که برای جلوگیری از بیش‌برازش (overfitting) در درخت‌های تصمیم استفاده می‌شوند، مورد بحث قرار می‌گیرند. این پارامترها شامل حداکثر عمق درخت، حداقل تعداد نمونه‌ها در یک گره برگ، و حداقل تعداد نمونه‌ها برای تقسیم یک گره می‌شوند. تنظیم این پارامترها می‌تواند به بهبود عملکرد مدل و کاهش پیچیدگی آن کمک کند.

🔸Regression

در این بخش، استفاده از درخت‌های تصمیم برای مسائل رگرسیون مورد بررسی قرار می‌گیرد. در رگرسیون، هدف پیش‌بینی یک مقدار عددی به جای یک کلاس است. درخت‌های تصمیم می‌توانند برای این نوع مسائل نیز استفاده شوند و خروجی‌های آن‌ها میانگین مقادیر نمونه‌های در هر برگ است.

🔸 Sensitivity to Axis Orientation

این بخش به بررسی این موضوع می‌پردازد که درخت‌های تصمیم چگونه به جهت‌گیری محورهای داده حساس هستند. درخت‌های تصمیم معمولاً محورهای داده‌ها را در نظر می‌گیرند و این باعث می‌شود که درخت‌ها در تقسیم‌بندی داده‌ها به جهت‌گیری محور وابسته باشند، که می‌تواند منجر به تقسیم‌های ناکارآمد در صورت چرخش داده‌ها شود.

🤖
🆔 Telegram | LinkedIn | YouTube
This media is not supported in your browser
VIEW IN TELEGRAM
🔸Decision Trees Have a High Variance

چرا درخت‌های تصمیم تمایل دارند واریانس بالایی داشته باشند؟
به دلیل این که درخت‌های تصمیم بسیار حساس به تغییرات کوچک در داده‌های آموزشی هستند، ممکن است مدل‌های کاملاً متفاوتی در پاسخ به تغییرات کوچک در داده‌ها تولید کنند. این مسئله می‌تواند منجر به بیش‌برازش مدل شود، اما با تکنیک‌هایی مانند bagging می‌توان این مشکل را کاهش داد.

🤖
🆔 Telegram | LinkedIn | YouTube
2024/10/07 23:37:39
Back to Top
HTML Embed Code: