این مطلب به نوعی جمع بندی 9 قسمت قبلی از دوره آموزش ماشین لرنینگ است. البته پیش از آن خالی از لطف نیست که تفاوت داده های گسسته و پیوسته را به صورت یک مبحث مستقل بررسی کنیم و سپس الگوریتم هایی که تا کنون معرف شده اند را با توجه به نوع داده های متناسب با آن ها نیز مرور کنیم.
فهرست عناوین این مطلب
داده های گسسته و پیوسته
طبقه بندی مهم دیگری که باید با آشنا شویم مربوط به داده های ورودی است. اطلاع از نوع داده های مسئله و ویژگی های آن بسیار مهم و با اهمیت است، چرا که به طور معمول الگوریتم ماشین لرنینگ مناسب برای حل یک مسئله، متناسب با داده ها انتخاب می شود و بدیهی است که اگر از داده ها شناخت صحیحی نداشته باشیم، زمان و هزینه را از دست می دهیم.
متغیر پیوسته
متغیرهای پیوسته یا ادامه دار (Continuous) قابل اندازه گیری بوده و اغلب شامل مقادیر صفر تا بی نهایت هستند. برای مثال وزن و قد از نوع متغیرهای پیوسته هستند. قیمت خانه نیز از نوع متغیر پیوسته است. نکته دیگر در مورد متغیرهای پیوسته این است که می توانند شامل اعداد اعشاری نیز باشند، برای مثال قد یک نفر 170.5 باشد.
متغیر گسسته
متغیرهای گسسته (Discrete) بر خلاف نوع پیوسته تنها شامل انواع مشخص و محدودی هستند. همچنین لازم به ذکر است که متغیرهای گسسته از نوع عدد صحیح هستند. برای مثال خالی یا پر بودن پارکینگ، روشن یا خاموش بودن لامپ، تعداد بازیکنان یک تیم فوتبال نمونه هایی از متغیرهای گسسته هستند.
فهرست محتوایی قسمت های 1 تا 9 دوره آموزش ماشین لرنینگ
تاکنون 9 قسمت زیر از دوره آموزش ماشین لرنینگ به صورت زیر منتشر شده است.
-
-
-
-
-
- قسمت اول – دوره آموزش ماشین لرنینگ (مشاهده)
– موضوع معرفی مفاهیم پایه در ماشین لرنینگ.
– یادگیری با ناظر (Supervised Learning – Inductive)
– یادگیری بدون ناظر (Unsupervised Learning – Inductive)
– یادگیری نیمه نظارتی (Semi Supervised Learning – Inductive) یا یادگیری تقویتی (Reinforcement Learning) - قسمت دوم – دوره آموزش ماشین لرنینگ (مشاهده)
– معرفی الگوریتم درخت تصمیم (Decision tree)
– پیاده سازی الگوریتم «درخت تصمیم» برای پیش بینی قیمت خانه با استفاده از sklearn - قسمت سوم – دوره آموزش ماشین لرنینگ (مشاهده)
– معرفی الگوریتم رگرسیون خطی ساده (Simple linear regression)
– پیاده سازی «رگرسیون خطی ساده»برای پیش بینی قیمت خانه با استفاده از روش Ordinary Least Squares - قسمت چهارم – دوره آموزش ماشین لرنینگ (مشاهده)
– معرفی مفاهیم مجموعه داده فاز آموزش و یادگیری (Training) و مجموعه داده فاز ارزیابی (Validation)
– پیاده سازی روش Train Test Split با استفاده از sklearn - قسمت پنجم – دوره آموزش ماشین لرنینگ (مشاهده)
– معرفی مفاهیم بیش برازش (Overfitting) و کم برازش (Underfitting) در ماشین لرنینگ
– بهبود عملکرد الگوریتم «درخت تصمیم» برای پیش بینی قیمت خانه با استفاده از تغییر عمق درخت - قسمت ششم – دوره آموزش ماشین لرنینگ (مشاهده)
– معرفی الگوریتم جنگل تصادفی (Random Forest)
– پیاده سازی الگوریتم «جنگل تصادفی» برای پیش بینی قیمت خانه با استفاده از sklearn - قسمت هفتم – دوره آموزش ماشین لرنینگ (مشاهده)
– معرفی و پیاده سازی شش معیار ارزیابی خطا در مسایل رگرسیونی با استفاده از sklearn
– مجموع مربعات خطا (Sum Squared Error) یا به اختصار SSE
– خطای میانگین مربعات (Mean Squared Error) یا به اختصار MSE
– خطای جذر میانگین مربعات (Root Mean Squared Error) یا به اختصار RMSE
– خطای میانگین قدر مطلق (Mean Absolute Error) یا به اختصار MAE
– درصد میانگین قدر مطلق خطا (Mean Absolute Percentage Error) یا به اختصار MAPE
– خطای ضریب تعیین (R squared) یا به اختصار R^2 - قسمت هشتم – دوره آموزش ماشین لرنینگ (مشاهده)
– مرور الگوریتم رگرسیون خطی ساده (Simple linear regression)
– معرفی الگوریتم رگرسیون خطی چندگانه (Multiple linear regression)
– پیاده سازی الگوریتم رگرسیون خطی چندگانه با و بدون استفاده از sklearn - قسمت نهم – دوره آموزش ماشین لرنینگ (مشاهده)
– معرفی الگوریتم رگرسیون لجستیک (Logistic regression) برای طبقه بندی (Classification) داده ها
– پیاده سازی الگوریتم «رگرسیون لجستیک» برای طبقه بندی گل های دیتاست Iris با استفاده از sklearn
- قسمت اول – دوره آموزش ماشین لرنینگ (مشاهده)
-
-
-
-
رفرنس اصلی برای ساخت قسمت های 1 تا 9 دوره آموزش یادگیری ماشین، دوره “Intro to Machine Learning” از سایت Kaggle است. اما با هدف بهبود کیفیت محتوای آموزشی، بخش هایی نیز به آن اضافه شد که با مقایسه فهرست دو دوره می توانید آن ها را مشاهده کنید.
دوره سایت Kaggle از هفت بخش زیر تشکیل شده است (لینک دوره کگل):
Intro to Machine Learning
Learn the core ideas in machine learning, and build your first models.
- How Models Work
The first step if you’re new to machine learning. - Basic Data Exploration
Load and understand your data. - Your First Machine Learning Model
Building your first model. Hurray! - Model Validation
Measure the performance of your model, so you can test and compare alternatives. - Underfitting and Overfitting
Fine-tune your model for better performance. - Random Forests
Using a more sophisticated machine learning algorithm. - Machine Learning Competitions (Link)
Enter the world of machine learning competitions to keep improving and see your progress.
همانطور که گفته شد رفرنس اصلی برای این دوره، کورس “Intro to Machine Learning” از سایت Kaggle بوده است، به همین دلیل پیشنهاد می شود با هدف مرور آنچه تاکنون آموزش داده شده است، تمرین مربوط به بخش Machine Learning Competitions را انجام دهید.