توضیحات
در این تمرین قصد داریم تا داده های یک دیتاست را بر حسب برچسب آنها دسته بندی کنیم. در این تمرین، دو الگوریتم دسته بندی را انتخاب کرده و روی داده ها اعمال میکنیم و با تغییر پارامترهای هر روش، نتایج بدست آمده را بررسی میکنیم
گام اول : تعریف مسئله
خوشه بندی الگوریتمی است که در آن، داده ها را بر حسب معیارهای فاصله ای که از پیش تعریف میشود خوشه بندی میکنیم. الگوریتم خوشه بندی یک الگوریتم بی نظارت است که داده های بدون برچسب را دریافت میکند و بر حسب اختلاف بین ویژگی های هر نمونه آن ها را در داخل خوشه های مورد نظر قرار میدهد. اعضای این خوشه باید به گونه ای باشند که از نظر جنس داده و ویژگی ها و مقادیر ویژگی ها دارای اشتراکات زیادی باشند.
گام دوم : دادگان مورد استفاده
مجموعهدادهی مورد بررسی در قالب یک فایل با نام breast-cancer-wisconsin.data ارائه شده است. اطلاعات بیشتر در مورد دادگان مربوطه نیز در فایل breast-cancer-wisconsin.names قرار دارد. این مجموعهداده، دارای تعداد 10 ویژگی عددی یا Numerical feature میباشد که ویژگی اول نشانگر شناسهی فرد میباشد. ما این ویژگی را به دلیل اینکه شاخص مناسبی جهت خوشهبندی و طبقهبندی نمیباشد، نادیده خواهیم گرفت. لذا در نهایت، تعداد 9 ویژگی مؤثر باقی خواهند ماند که با استفاده از آنها عملیات خوشهبندی را انجام خواهیم داد. ویژگی دیگری نیز وجود دارد که معرف کلاسی است که دادهی مربوطه به آن تعلق دارد. مقدار این ویژگی را نیز جهت ارزیابی خوشهبندی مورد استفاده قرار خواهیم داد.
نمای کلی مجموعهداده به صورت زیر میباشد:
همانطور که از این جدول پیداست، به غیر از ویژگیهای شناسهی بیمار و البته کلاس مربوط به هر داده، باقی ویژگیها مقادیری مابین 1 تا 10 دارند. این مجموعهداده از دو کلاس تشکیل شده است که 2 نشانگر خوشخیمبودن سرطان سینه و 4 نیز نشانگر بدخیمبودن آن میباشد.
با توجه به اینکه مقادیر ویژگیهای این مجموعهداده، همگی مقادیر مشخص و صحیح دارند، لذا میتوان به نوعی این مجموعهداده را دارای ویژگیهای با مقادیر نامی (Nominal Attributes) و نه عددی (Numeric Attributes) تلقی نمود. اما در زمان خوشهبندی، از همین مقادیر عددی مابین 1 تا 10 برای محاسبهی فاصلهی مابین دادهها استفاده خواهیم نمود و این مسئله مشکلی را برای ما ایجاد نخواهد نمود.
لازم به ذکر است که مجموعهدادهی مربوطه دارای تعداد 16 ویژگی مفقودی (Missing Value) میباشد که در ادامه در مورد آنها تصمیمگیری خواهد شد.
گام سوم : آماده سازی داده ها
جهت آمادهسازی مجموعهی دادهی مربوطه برای استفاده از نرمافزار وکا، ابتدا میبایست آن را به صورت فرمت قابل قبول در نرمافزار وکا یعنی .arff تبدیل نمائیم. لذا ابتدا محتوای فایل breast-cancer-wisconsin.data را در نرمافزار Notepad++ باز نموده و همهی آن را کپی مینمائیم. سپس این محتوا را درون یک فایل خالی نرمافزار Excell بازنشانی کرده و آن را با فرمت .csv ذخیره میکنیم. از آنجا که نرمافزار وکا برای تحلیل یک دادگان، نیاز به دانستن نام ویژگیها دارد، باید یک ردیف به ابتدای فایل اضافه نمائیم و نام تمامی ویژگیها را به صورت پیاپی و یکتکه (بدون کاراکتر خالی به ازای هر ویژگی) و نیز گذاشتن یک کاراکتر کاما (,) بعد از نام هر ویژگی تایپ کنیم. حال میتوان فایل با فرمت .csv را درون نرمافزار وکا باز کرده و سپس مجدداً آن را با فرمت .arff ذخیر نمائیم. فایل لازم جهت استفاده در نرمافزار وکا با نام breast-cancer-wisconsin.arff آماده است.
- پروژه دسته بندی داده های یک دیتاست به دو روش خوشه بندی و طبقه بندی و با weka توسط کارشناسان گروه ۱.۲.۳ پروژه پیاده سازی گردیده.
- فایلهای پروژه به صورت کامل پس از خرید فایل بلافاصله در اختیار شما قرار خواهد گرفت.
-
سفارش پروژه weka
درصورتیکه این پروژه دقیقا مطابق خواسته شما نمی باشد، با کلیک بر روی کلید زیر پروژه دلخواه خود را سفارش دهید.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.