Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
241 - Telegram Web
Telegram Web
🔸Out-of-Bag Evaluation

🔹روشی است که برای اندازه‌گیری عملکرد مدل‌های bagging استفاده می‌شود. چون هر نمونه‌برداری بوستراپ حدود یک سوم داده‌ها را شامل نمی‌شود، این نمونه‌های استفاده‌نشده می‌توانند به‌عنوان یک مجموعه اعتبار‌سنجی برای آن مدل عمل کنند.

🔺مثال:
bagging_model = BaggingClassifier(base_estimator=base_model, n_estimators=100, oob_score=True)
bagging_model.fit(X_train, y_train)
print(bagging_model.oob_score_) # OOB score

🤖
🆔 Telegram | LinkedIn | YouTube
🔸Random Patches and Random Subspaces

🔹پچ‌های تصادفی: این تکنیک، bagging و انتخاب ویژگی تصادفی را ترکیب می‌کند.
در این روش، هم نمونه‌ها و هم ویژگی‌ها به‌صورت تصادفی برای آموزش مدل‌های فردی انتخاب می‌شوند.
🔹زیرفضاهای تصادفی: مشابه پچ‌های تصادفی است، اما تنها ویژگی‌ها نمونه‌برداری می‌شوند در حالی که از کل داده‌های آموزشی استفاده می‌شود.

این روش‌ها می‌توانند تنوع میان مدل‌ها را افزایش دهند و منجر به بهبود عملکرد شوند.

🔸Random Forests

🔹یک گسترش از bagging برای درختان تصمیم هستند.
در جنگل‌های تصادفی:
- هر درخت با استفاده از یک نمونه بوستراپ از داده‌ها آموزش می‌بیند.
- هنگام تقسیم یک گره، یک زیرمجموعه تصادفی از ویژگی‌ها انتخاب می‌شود.

این رویکرد همبستگی میان درخت‌ها را کاهش داده و به بهبود تعمیم کمک می‌کند.

🔺مثال:
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(n_estimators=100)
rf_model.fit(X_train, y_train)

🤖
🆔 Telegram | LinkedIn | YouTube
🔸Extra-Trees

🔹یک مجموعه‌ای از درختان تصمیم است اما با رویکردی بیشتر تصادفی. تقسیمات گره به‌صورت تصادفی انتخاب می‌شوند به جای اینکه بهینه‌سازی شوند. این معمولاً منجر به محاسبات سریع‌تر و دقت بیشتر می‌شود.

🔺مثال:
from sklearn.ensemble import ExtraTreesClassifier

et_model = ExtraTreesClassifier(n_estimators=100)
et_model.fit(X_train, y_train)

🤖
🆔 Telegram | LinkedIn | YouTube
🔸Feature Importance

🔹جنگل‌های تصادفی و Extra-Trees روشی برای ارزیابی اهمیت ویژگی‌ها در مدل ارائه می‌دهند.
این براساس میزان تأثیر هر ویژگی در کاهش ناخالصی در تمام درخت‌ها محاسبه می‌شود.

این تصویرسازی، می‌تواند در درک اینکه کدام ویژگی‌ها برای پیش‌بینی‌های مدل بیشترین تأثیر را دارند، کمک کند.

🔺مثال:
importances = rf_model.feature_importances_

🤖
🆔 Telegram | LinkedIn | YouTube
🔸Boosting
🔹یک روش دیگر تجمعی است که در آن مدل‌ها به‌صورت ترتیبی آموزش می‌بینند. هر مدل بعدی بر روی اشتباهات مدل قبلی تمرکز می‌کند.
این می‌تواند به تبدیل یادگیرندگان ضعیف (مدل‌هایی که کمی بهتر از حدس تصادفی هستند) به یک یادگیرنده قوی کمک کند.

🔸AdaBoost
🔹تقویت تطبیقی (AdaBoost) وزن‌های نمونه‌های incorrectly classified را تنظیم می‌کند، که باعث می‌شود طبقه‌بند بعدی بیشتر بر روی مثال‌های چالش‌برانگیز تمرکز کند.

🔺مثال:
from sklearn.ensemble import AdaBoostClassifier

ada_model = AdaBoostClassifier(n_estimators=50)
ada_model.fit(X_train, y_train)

🤖
🆔 Telegram | LinkedIn | YouTube
🔸Gradient Boosting
Gradient Boosting

🔹درختان را به‌صورت ترتیبی می‌سازد و مدل را بر اساس گرادیان تابع هزینه بهینه می‌کند. این روش انعطاف‌پذیرتر است و می‌تواند مدل‌های قدرتمندتری ارائه دهد.

تقویت گرادیان مبتنی بر هیستوگرام نسخه بهینه‌شده از تقویت گرادیان است که از هیستوگرام‌ها برای محاسبات سریع‌تر استفاده می‌کند.
این ویژگی در کتابخانه‌هایی مانند XGBoost یا LightGBM در دسترس است.

🔺مثال:
from sklearn.ensemble import GradientBoostingClassifier

gb_model = GradientBoostingClassifier(n_estimators=100)
gb_model.fit(X_train, y_train)

🤖
🆔 Telegram | LinkedIn | YouTube
🔸Stacking
🔹انباشته‌سازی یک روش تجمعی است که چندین مدل طبقه‌بندی یا رگرسیون را از طریق متا-مدل ترکیب می‌کند.
پیش‌بینی‌های مدل‌های پایه به‌عنوان ورودی برای متا-مدل استفاده می‌شوند، که یاد می‌گیرد تا پیش‌بینی نهایی را بهبود بخشد.

🔺مثال:
from sklearn.ensemble import StackingClassifier

base_models = [('gb', GradientBoostingClassifier()), ('rf', RandomForestClassifier())]
stacking_model = StackingClassifier(estimators=base_models, final_estimator=LogisticRegression())
stacking_model.fit(X_train, y_train)

🤖
🆔 Telegram | LinkedIn | YouTube
سلام دوستان، روزتون به‌خیر.

باتوجه به پیام‌های نامناسبی که از طرف عضو سابق ما در گروه ارائه‌دهندگان ارسال شده لازم دونستیم این مطلب رو توضیح بدیم تا سوءتفاهمات برطرف شوند.
به دلیل چالش‌های بوجود آمده و رفتارهای نامتناسبی که دیده شده، خانم نگار عسگری دیگر در تیم ما حضور نخواهد داشت. و این تصمیم ابتدا از طرف شخص خودشان بوده و همه اعضاء نیز موافقت کردند.
از بابت حرکت نامتعارف ایشان در گروه، عذرخواهی می‌کنیم. 🙏

در ادامه، فعالیت تیم با روال سابق ادامه خواهد داشت و جای نگرانی‌ای وجود ندارد.
لازم به ذکر است که هرگونه پیام و گروهی که توسط ایشان برای شما ارسال شود ارتباطی با تیم تنسورفیلیا نخواهد داشت.

ممنون از همراهی شما.🌱

- تنسورفیلیا
Tensorphilia
ادامه‌ی پست‌های مروری:
ادامه‌ی پست‌های مروری:
▫️The Curse of Dimensionality

این موضوع به چالش‌هایی اشاره دارد که هنگام کار با داده‌های با ابعاد( تعداد ویژگی‌های موجود در یک مجموعه داده) بالا به وجود می‌آیند.

با افزایش تعداد ابعاد، حجم فضای داده به صورت نمایی افزایش می‌یابد که این امر منجر به پراکندگی داده‌ها و افزایش هزینه محاسباتی تحلیل داده‌ها می‌شود.
این پراکندگی بدین معناست که روش‌های آماری برای تولید مدل‌های قابل اعتماد به داده‌های بیشتری نیاز دارند، که می‌تواند منجر به بیش‌برازش (overfitting) و کاهش عملکرد شود.

🔻درک این مفهوم برای دانشمندان داده ضروری است تا از تفسیر نادرست و ناکارآمدی‌ها در فضاهای با ابعاد بالا جلوگیری کنند.

🤖
🆔 Telegram | LinkedIn | YouTube
▫️Main Approaches for Dimensionality Reduction

تکنیک‌های کاهش ابعاد برای کاهش تعداد متغیرهای تصادفی مورد بررسی با به دست آوردن مجموعه‌ای از متغیرهای اصلی استفاده می‌شوند.
این تکنیک‌ها را می‌توان به دو رویکرد اصلی دسته‌بندی کرد:
▫️پرتوسازی(Projection )
▫️ یادگیری مانفولد(Manifold Learning)

🔻روش‌های پرتوسازی هدفشان این است که داده‌ها را از فضای با ابعاد بالا به فضای با ابعاد پایین‌تر پرتوسازی کنند و در عین حال تا حد ممکن واریانس را حفظ کنند.

🔻تکنیک‌های یادگیری مانفولد فرض می‌کنند که داده‌ها بر روی یک مانفولد با ابعاد پایین‌تر درون فضای با ابعاد بالا قرار دارند و سعی در یادگیری ساختار آن مانفولد دارند.

🤖
🆔 Telegram | LinkedIn | YouTube
▫️Projection

کاهش ابعاد مبتنی بر پرتوسازی شامل تبدیل داده‌ها از فضای با ابعاد بالا به یک فضای با ابعاد پایین‌تر است.

🔻این فرآیند معمولاً به حفظ مهم‌ترین ساختارها و روابط در داده‌ها کمک می‌کند.

تحلیل مؤلفه‌های اصلی (PCA) یک تکنیک رایج پرتوسازی است که جهت‌هایی (مؤلفه‌های اصلی) را شناسایی می‌کند که داده‌ها در آن‌ها بیشترین تغییر را دارند و داده‌ها را بر روی این جهت‌ها پرتوسازی می‌کند. این کار منجر به کاهش ابعاد می‌شود در حالی که تا حد ممکن واریانس حفظ می‌شود.

🤖
🆔 Telegram | LinkedIn | YouTube
▫️Manifold Learning

یادگیری مانفولد یک نوع کاهش ابعاد غیرخطی است که فرض می‌کند نقاط داده بر روی یک مانفولد با ابعاد پایین‌تر درون فضای با ابعاد بالاتر قرار دارند.

🔻تکنیک‌هایی مانند Locally Linear Embedding (LLE) و Isomap روش‌های محبوب یادگیری مانفولد هستند.

این تکنیک‌ها سعی می‌کنند هندسه ذاتی داده‌ها را تا حد ممکن حفظ کنند در حالی که آن‌ها را به فضای با ابعاد پایین‌تر نگاشت می‌کنند و برای کشف ساختارهای پیچیده در داده‌ها مفید هستند.

🤖
🆔 Telegram | LinkedIn | YouTube
2024/10/07 19:46:28
Back to Top
HTML Embed Code: