توضیحات
پروژه تحلیل و خوشه بندی نوع ویژگیهای دیتا ست K-means، DT و KNN با متلب
توضیح مسئله
در این تمرین قصد داریم تا روی دیتاست موجود عملیات دسته بندی و خوشه بندی را انجام دهیم. دو الگوریتم دسته بندی درخت تصمیم و نزدیک ترین همسایگی برای بخش دسته بندی در نظر گرفته شده است و الگوریتم Kmeans برای بخش خوشه بندی.
در بخش دسته بندی، ابتدا مدلها را با داده های آموزشی ، آموزش میدهیم و در نهایت با داده های تست، عملکرد مدلها را مورد ارزیابی قرار میدهیم.
در بخش خوشه بندی، داده ها را با مقادیر k مختلف خوشه بندی میکنیم و بر اساس معیار CalinskiHarabasz ، مقدار خوشه بهینه را برای داده های مسئله مشخص میکنیم.
پردازش داده ها
ابتدا به بررسی داده های مورد استفاده میپردازیم. و سپس کدهای مربوط به باگذاری و پردازش آن را مورد بررسی قرار میدهیم
تحلیل داده ها
ابتدا داده ها را در دو فایل جداگانه با نام های TrainData و TestData قرار میدهیم. دادگان مورد استفاده شامل 5 ویژگی به شرح زیر است
- Default که مقادیر yes و no دارند و این ویژگی به عنوان یک ویژگی categorical محسوب میشود.
- Balance که یک داده عددی محسوب میشود.
- Loan که مانند ویژگی default دارای دو مقدار yes و no است.
- Campaign. این متغیر دارای مقادیر عددی است اما به نظر میرسد که عددها بیانگر آی دی کمیپن است که میتوانیم آن را نیز از نوع categorical در نظر بگیریم
- Poutcom که دارای مقادیر کاراکتری است و از نوع ویژگی Categorical محسوب میشود
و در نهایت برچسب کلاسها در class label قرار دارد که داده ها را به دو کلاس yes و no تقسیم میکند.
بارگذاری و پردازش داده ها
کد زیر مربوط به خواندن دیتاست هست. توجه شود که دیتاها به صورت فایل استاندارد اکسل و csv نیستند و باید در متلب به صورت خط به خط آنها را پردازش کنیم. به عبارت دیگر هر مقدار از دیتاست در یک سلول از فایل اکسل قرار ندارد که با دستوارت استاندارد متلب بتوانیم آن ها را بخوانیم
مدل های دسته بندی
در این تمرین از دو روش دسته بندی درخت تصمیم و نزدیک ترین همسایگی استفاده کرده ایم و مدل را با داده های آموزشی، آموزش داده و سپس دقت مدل را روی دادگان تست محاسبه خواهیم کرد.
توضیح مدلهای دسته بندی
درخت تصمیم یک روش یادگیری ماشین است که با توجه به مقادیر ویژگی ها، اقدام به جداسازی داده ها میکند. در هر نود از درخت تصمیم یک ویژگی قرار دارد که با توجه به مقدار آن، داده ها را به بخش های جداگانه تقسیم میکند. سپس در نودهای پایین تر ، ویژگی های بعدی قرار میگیرند و آنقدر این جداسازی انجام میشود تا به برگ های درخت برسیم. برگ های درخت همان، برچسب های کلاس ها هستند.
روش نزدیکترین همسایگی یک روش تنبل شناخته میشود که نیاز به آموزش ندارد و یک نمونه تست را با توجه به همسایگی های آن در داده های تست دسته بندی میکند. به عبارت دیگر ، نمونه تست را با توجه به فاصله ای که از نقاط آموزشی دارد به آن دسته ای انتساب میدهد که بیشترین نقاط همسایگی از یک کلاس را داشته باشد.
نتایج
شکل زیر نمودار ارزیابی خوشه بندی را به ازای تعداد خوشه 2 تا 15 را نشان میدهد
با توجه به معیار ارزیابی مورد استفاده در این تمرین، مقدار 8 خوشه میتواند یک مقدار بهینه باشد. حال سوالی پیش می آید که داده ها در دو کلاس قرار دارند پس چرا مقدار خوشه بدست آمده ، 8 بدست آمده است؟
چندین دلیل میتوان برای این موضوع ذکر کرد. ابتدا اینکه تعداد داده های این تمرین در حد کافی نیست و این امر باعث میشود که مقدار بهینه به خوبی بدست نیاید. از طرفی ممکن است داده ها دارای مقادیر مناسبی نباشند. به عنوان مثال میبینیم که ویژگی اول، برای اکثر داده ها مقدار no هست و همین موضوع باعث میشود که نه تنها خوشه بندی، بلکه دسته بندی نیز دچار مشکل شود.
متغیر دیتاست:
“age”;”job”;”marital”;”education”;”default”;”balance”;”housing”;”loan”;”contact”;”day”;”month”;”duration”;”campaign”;”pdays”;”previous”;”poutcome”;”y”
نکات قابل ذکر:
- پروژه تحلیل و خوشه بندی نوع ویژگیهای دیتا ست K-means، DT و KNN با متلب توسط کارشناسان گروه ۱.۲.۳ پروژه پیاده سازی گردیده و به تعداد محدودی قابل فروش می باشد.
- فایل های پروژه به صورت کامل به همراه فایل راهنما بلافاصله پس از خرید فایل در اختیار شما قرار خواهد گرفت.
سفارش پروژه مشابه
درصورتیکه این پروژه دقیقا مطابق خواسته شما نمی باشد، با کلیک بر روی کلید زیر پروژه دلخواه خود را سفارش دهید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.