توضیحات
خوشه بندی افراد بر حسب نوع تومور سرطان سینه با نرم افزار RapidMiner
مسئله ای که تعریف کرده ایم مربوط به دسته بندی میشود. این مسئله را به صورت دسته بندی افراد بر حسب نوع تومور سرطان سینه (خوشخیم یا بدخیم) است. در این مسئله میخواهیم از اطلاعات آماری یک دادگان استفاده کنیم و با استفاده از آن و الگوریتم های دسته بندی، افراد را بر حسب شرایطی قلبی که دارند در دسته های جداگانه قرار دهیم.
انتخاب دادگان
دادگانی که برای این تمرین انتخاب کردهایم مربوط به بیماری قلبی است که از لینک زیر دانلود کردهایم.
https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29
این دیتاست شامل ویژگیهایی از جمله، عددی و نوعی است و از نوع دستهبندی محسوب میشود. تعداد نمونههای موجود 569 نمونه ذکر شده است، اما در دیتاست تعداد بیشتری نمونه وجود دارد. این دیتاست شامل 32 ویژگی است که missing value نیز دارد (هر چند در این جدول ذکر شده است که ندارد). این دیتاست در سال 1992 جمعآوری شده است. شکل زیر اطلاعات کلی ذکر شده را نمایش میدهد.
با اینکه تعداد ویژگی ها 32 مورد ذکر شده است، ولی در اکثر مقالات، تنها از 9 ویژگی آن استفاده میکنند. ما نیز از دیتاست پردازش شده در لینک بالا که تنها شامل 9 ویژگی مهم هست استفاده کرده ایم.
9 ویژگی مورد نظر شامل موارد زیر است
شماره ویژگی | نام ویژگی | نوع ویژگی | توضیحات |
1 | radius | شعاع تومور | شعاع تومور داخل سینه |
2 | texture | بافت | نوع بافت که به صورت Gray-scale است |
3 | perimeter | محیط تومور | محیط تومور در عکس دو بعدی |
4 | area | ناحیه | مساحت تومور |
5 | smoothness | صافی | میزان اختلاف محلی تومور نسبت به شعاع |
6 | compactness | فشردگی تومور | محیط به توان دو، تقسیم بر مساحت ، منهای یک |
7 | concavity | تقعر | شدت بخش مقعر از کانتور |
8 | concave points | نقاط مقعر | تعداد کانتورها |
9 | symmetry | تقارن | – |
در این قسمت 3 روش خوشه بندی را انتخاب کردهایم. بهترین معیار معرفی شده برای بررسی دقت خوشه بندی، معیار Davies Bouldin است که البته باید در نظر داشت که بعضی مسائل نیز بر حسب این معیار ارزیابی نمیشود، بلکه بر حسب عقیده کاربر امتیاز دهی میشود.
شماره آزمایش | نام روش خوشه بندی | Davies Bouldin |
1 | K-Means | -0.763 |
2 | تصادفی | -1.245 |
3 | DBSCAN | -1.8 |
4 | حداکثر امید | -1.226 |
5 | K-Medois | -0.899 |
نمودار میله ای روش های ذکر شده در پایین آورده شده است. همانطور که مشخص است، بهترین روش از لحاظ خوشه بندی و معیار Davies Bouldin روش Kmeans است. دلیل این امر است که مراکز خوشه اجازه دارند که از اعضای خوشه نباشند در نتیجه این انعطاف پذیری باعث میشود که این روش نسبت به سایر روشها مخصوصا k-medois بهتر باشد. در مورد روش DBSCAN میتوان چنین گفت که این روش مناسب داده های انتخاب شده ما نیست و به دلیل ابعاد بالای مسئله این روش نمیتواند خوب عمل کند.
پس در نتیجه بهترین روش خوشه بندی با توجه به الگوریتم های خوشه بندی موجود در نرم افزار رپیدماینر و البته برای داده های انتخابی، روش kmeans با معیار Davies Bouldin با مقدار -0.763 است که کمترین مقدار ممکن به صفر است.
خوشه بندی افراد بر حسب نوع تومور سرطان سینه با نرم افزار RapidMiner توسط کارشناسان گروه ۱.۲.۳ پروژه پیاده سازی گردیده و به تعداد محدودی قابل فروش می باشد.فایلهای پروژه به صورت کامل پس از خرید فایل بلافاصله در اختیار شما قرار خواهد گرفت.
سفارش پروژه مشابه
درصورتیکه این پروژه دقیقا مطابق خواسته شما نمی باشد، با کلیک بر روی کلید زیر پروژه دلخواه خود را سفارش دهید.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.